从人类视频到机器人操作：可扩展视觉-语言-动作学习综述

作者：袖梨 2026-06-03

从人类视频到机器人操作：可扩展视觉-语言-动作学习综述

日前发表的一篇综述论文，系统梳理了从人类视频到机器人操作的视觉-语言-动作（VLA）模型学习路径，直接点出当前机器人学习成本高的痛点。这篇来自arXiv的文章指出，学界正尝试用海量人类视频替代昂贵的机器人演示，来解决机器人操作泛化难题。

VLA模型遇上数据瓶颈

文章首先回顾了近期可泛化具身控制方面的进展，大规模预训练的视觉-语言-动作模型确实挺能打。可问题是，现有方法太依赖机器人演示数据——采集成本高不说，还跟具体机器人的硬件绑得死死的。这就奇怪了，机器人演示数据又贵又少，咱们能不能换个思路？

人类视频：宝藏还是坑？

论文剖析了人类视频在机器人学习中的优势和麻烦。首先，人类视频里记录的动作五花八门，提供了超丰富的语义和物理线索，这对实操太关键了。但问题也摆在那儿——人和机器人的身体结构完全不同，怎么把一个倒水的动作直接“翻译”给机器人？这其实是个头疼事儿。

再说标注，很多视频根本没有任务相关的标签，机器人看了也未必知道要学啥。凭什么说用人类视频就能训练好机器人？文章给出了可扩展学习框架的思路，让模型自己从大量无标注数据里“悟”出动作模式。

可扩展框架解决了啥？

可以说，这篇综述等于给行业画了一张地图：不用总盯着昂贵的机器人演示了，用人类视频真的能低成本训练出好用的VLA模型。当然，具身差异和缺失标注这两个坎儿还没完全踏平，但方向确实对了。

相关文章