训练机器人在25分钟内学会6个动作 伯克利开发了一个高效的机器人控制框架
雷老师来自寺
量子报告| QbitAI,微信官方账号
这个机械臂正在完成伸、拿、动、推、点、开六个动作。
而且熟练,没有错。
更令人惊讶的是,只花了短短的25分钟时间就训练出了这只机械臂。
即使有人干扰,它也能成功完成抓取动作。
还可以抓取从未见过的物体形状。
这是加州大学柏克莱分校——高效机器操作框架高效机器人操作框架(FERM)的一项新研究,专门训练机械手高效操作的算法。
为什么FERM比其他方法更有效?
目前大多数机器人训练的RL算法效率都不是很高。
用稀疏奖励法训练Dota5游戏的人机操作需要180年,使其达到人类玩家的精通水平。
训练一个机器人手臂的手势需要几千万个模拟学习样本和两周的训练时间。
Sim2Real和模拟学习稍微好一点。Sim2Real需要接受模拟训练,然后将训练结果应用到实际案例中。
模拟学习需要一系列的专业训练示范案例和监督学习才能得到最终的训练策略,实验结果很大程度上取决于输入示范案例的质量。
FERM的优势在于,它不依赖模拟训练来转化为现实,也不高度依赖输入演示案例的质量。
相反,它使用基于无监督表示学习和数据扩展技术的pixel-based RL。
因此,它只需要10个Demo,25分钟的训练时间,就可以让机器人学会六个动作.
FERM具体怎么训练?
FERM采用基于像素的强化学习(pixel-based RL)方法。
具体来说,少量的演示数据被收集并存储在“回放缓冲器”中。
然后,通过将观察结果与比较损失相结合来预训练编码器。
然后,编码器和“回放缓冲器”使用一个离线数据来加强RL算法和训练RL代理。
在论文中,研究人员总结了FERM的主要优点:
1.高效率:费尔姆可以学习六种不同操作任务的最佳策略,并在15-50分钟的训练时间内完成每项任务。
2.简单统一的框架:结合现有的组成部分,该框架将无监督的预培训和在线学习和数据扩展到一个单一和有效的框架。
3.常规轻量设置:它只需要一个机器人,一个GPU,两个摄像头,几个演示,稀疏奖励功能等等。
具体实验结果如何?
实验结果
在这个实验中,通过像素观察来执行一系列任务。下图中的每一列显示了三种状态:初始、中间和结果。只有当机器人完成任务时,它才会得到稀疏的奖励。
这种训练算法的效率非常高。具体完成时间如下表所示。30分钟左右,机器人就能学会操作任务。简单的“伸手”动作只需要三分钟.
实验结果表明,它不需要大量的Demo和大量的设备,第一次完成任务的平均时间为11分钟,25分钟可以训练出6个机械动作。
所以研究人员自豪地说: