从人类视频到机器人操作:可扩展视觉-语言-动作学习综述
日前发表的一篇综述论文,系统梳理了从人类视频到机器人操作的视觉-语言-动作(VLA)模型学习路径,直接点出当前机器人学习成本高的痛点。这篇来自arXiv的文章指出,学界正尝试用海量人类视频替代昂贵的机器人演示,来解决机器人操作泛化难题。

VLA模型遇上数据瓶颈
文章首先回顾了近期可泛化具身控制方面的进展,大规模预训练的视觉-语言-动作模型确实挺能打。可问题是,现有方法太依赖机器人演示数据——采集成本高不说,还跟具体机器人的硬件绑得死死的。这就奇怪了,机器人演示数据又贵又少,咱们能不能换个思路?
人类视频:宝藏还是坑?
论文剖析了人类视频在机器人学习中的优势和麻烦。首先,人类视频里记录的动作五花八门,提供了超丰富的语义和物理线索,这对实操太关键了。但问题也摆在那儿——人和机器人的身体结构完全不同,怎么把一个倒水的动作直接“翻译”给机器人?这其实是个头疼事儿。
再说标注,很多视频根本没有任务相关的标签,机器人看了也未必知道要学啥。凭什么说用人类视频就能训练好机器人?文章给出了可扩展学习框架的思路,让模型自己从大量无标注数据里“悟”出动作模式。
可扩展框架解决了啥?
可以说,这篇综述等于给行业画了一张地图:不用总盯着昂贵的机器人演示了,用人类视频真的能低成本训练出好用的VLA模型。当然,具身差异和缺失标注这两个坎儿还没完全踏平,但方向确实对了。