当前位置:网站首页>机器人强化学习——COCOI: Contact-aware Online Context Inference for Generalizable Non-planar Pushing(21 ICRA)
机器人强化学习——COCOI: Contact-aware Online Context Inference for Generalizable Non-planar Pushing(21 ICRA)
2022-08-05 16:07:00 【千羽QY】
1 简介
提出RL方法 Contact-aware Online Context Inference (COCOI),通过contact-rich的交互来对编码动力学模型属性的上下文嵌入。
在non-planar push任务上进行研究,传感器数据为单目相机图像和腕部的力矩传感器
non-planar push:把物体推到目标位置,同时保持物体竖直。
从历史图像和力矩输入中推理系统动力学
贡献:
(1)提出新的学习框架,该框架通过dynamics transition structure来推理动力学
(2)novel contact-aware sampling strategy
2 方法
dynamics transition structure:对系统动力学模型的输入和输出的公式化表示。
state:
- 高维观测:由机器人肩部的单目相机拍摄的RGB图像
- 低维观测:机械手高度和开闭状态
目标位置用红色的点表示。
action:机械手的位置、旋转,开闭命令,终止命令。
reward:当物体与目标位置的距离小于阈值,且物体竖直时,reward为1;否则为0。
policy:Q-learning,
网络版本一如下:

- 输入:合并的初始图像和当前图像,低维state,低维action
- 输出:Q value。图中FCN指的是全连接网络。
系统结构参考的QT-Opt,即分布式采集离线数据并训练
上图中的网络只使用一种传感器数据为输入,无法推理物体的动力学属性,因此提出online COntext Inference (COI):a module that takes history
observation samples and encodes them into a dynamics context representation – thus equipping the control policy with the ability to infer dynamics of the object. 即 将历史观测采样编码为动力学表示。
包含COI的网络结构如下:

图中红色区域为COI模块,由多个子网络组成,每个子网络的操作如下:
- 输入:一对RGB图像,分别是推物体前时刻、推物体后时刻,时间间隔0.5s;推物体时刻的受力(即受力大于阈值的时刻)。(每个子网络输入的推物体时刻都不同)
- 输出融合:多个子网络的输出取平均,作为COI模型的输出,然后和state-action网络的输出合并。
- 子网络数量:三个子网络最好。
上文所说的动力学表示就是COI模块的输出特征。
网络完全在仿真环境中训练,使仿真和真实场景一致,通过域随机化、RetinaGAN网络使仿真图像看起来像真实图像,效果如下:

脚本policy:训练初期用来获取成功样本,即沿着物体和目标点的连线推物体。
训练中,policy首先学习推近的物体,后面学会推离目标远的物体。
问题:
1、动力学模型的结构是什么样的?
答:输入多组历史传感器信息(RGB图像对、力矩),输出特征
2、动力学模型如何嵌入到方法中?
答:以网络的形式,将表示动力学信息的特征与state-action特征融合。
3、如何探索action来收集离线数据?
答:和QT-Opt一样, ϵ \epsilon ϵ贪婪:20%的概率随机选择action,否则选择使Q-function最大的action。
4、测试时如何采样action?
答:使用 an online sampling-based cross entropy method (CEM)。
3 想法
1、action设置
可以试试力矩和机械手运动方,不采用运动位移。
因为力矩相比于位移更连续,可以保证推物体的效率和控制精度。
2、动力学建模
输入可以试试连续多帧图像和每一帧对应的力矩
边栏推荐
- "Avnet Embedded Weekly" Issue 276: 2022.07.25--2022.07.3
- 盲盒社交电商模式兴起,平台盈利点在哪里?
- 浅谈推荐系统中的样本拼接
- The annual gas transmission volume of the West-East Gas Pipeline exceeds 100 billion cubic meters for the first time, and Tupu helps pipeline monitoring
- Image Edge Detection - First Order Differential Operator Roberts, Sobel, Prewitt, Kirsch, Robinson
- 软件供应链的漏洞及攻击类型
- 无代码平台单行文字入门教程
- BEVDet:High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View 论文笔记
- vu2 尚硅谷 组件化编程
- Is GF Futures Mobile Account Opening Safe?
猜你喜欢
注册不足一周 英国议会因数据安全争议停用TikTok

二叉树结点查找
Registered less than a week for data security in the British parliament TikTok dispute the substance is discontinued

Several pits of Ruoyi switching from mysql to postgresql

微信公众号之微信认证

Study Notes 227—Word automatic catalog, there is a space after the catalog number, how can I set it to remove it?

高数_证明_极限的局部保号性

华为设备配置MSTP+VRRP组合组网

NFT、元宇宙,电商巨头满身大汗挤进Web3.0

编译器工程师眼中的好代码:Loop Interchange
随机推荐
HTB:Obscurity渗透测试
Study Notes 238—How to quickly enter various root signs in a word document [No numbers are entered under the root sign, and a dashed box will not appear]
编译器工程师眼中的好代码:Loop Interchange
Redis Series 5: In-depth Analysis of Cluster Cluster Mode
ECMAscript modules in browsers
The annual gas transmission volume of the West-East Gas Pipeline exceeds 100 billion cubic meters for the first time, and Tupu helps pipeline monitoring
盲盒社交电商模式兴起,平台盈利点在哪里?
后缀系列
华为云鲲鹏ARM服务器使用MCSM9搭建 我的世界(MC) 1.18.2 版服务器教程
透过浏览器看HTTP缓存
js中数组的方法
无代码平台逻辑表单入门教程
纽约金价反弹 广州黄金产品热销
1003 Emergency
裁员欠薪,黄光裕没能让国美真快乐
账号只有视图的权限,想把视图里的数据同步到另一个mysql实例中,不知道 flink-cdc 能不能
1704. Determine if the two halves of a string are similar
以训辅教,以战促学 | 新版攻防世界平台正式上线运营!
High Numbers_Prove_Uniqueness of Limits
图像边缘检测——一阶微分算子 Roberts、Sobel、Prewitt、Kirsch、Robinson