ZeroWBC:从人类自我中心视频学习自然全身人形交互

作者:袖梨 2026-06-04

ZeroWBC:从人类自我中心视频学习自然全身人形交互

一项名为ZeroWBC的全新框架近日问世,它试图解决人形机器人交互控制中的一个老大难问题——如何让机器人做出自然、连贯的全身动作,而不是僵硬地只动上半身。这个框架厉害之处在于,它不需要昂贵且耗时的全身遥操作数据,而是直接学习人类日常活动中拍摄的第一人称(自我中心)视频,就学会了全身交互控制。

为什么说这是个突破?

人形机器人要跟人协作,比如递个杯子、扶一把、做个体检,其实挺难的。传统做法是靠遥操作,就是人套上动作捕捉设备,机器人跟着学。但全身动作的数据采集成本太高,而且每个动作都得重新录,不可能覆盖所有场景。ZeroWPC的做法是先“生成”再“跟踪”——给定一张初始的第一人称图像和一句语言指令(比如“从桌上拿起水杯”),它能生成合理的全身运动轨迹并执行。这不也挺自然的吗?

具体是怎么做到的?

  • 生成阶段:框架首先接收一张来自人类视角的静态图像,结合用户的自然语言指令,通过一个微调的视觉-语言模型生成相应的全身动作序列。这一步解决了“机器人该做什么”的问题。
  • 跟踪阶段:生成的动作序列会被转化为低层次的关节控制指令,驱动机器人实际执行。由于模型是基于大量真实人类交互视频训练的,生成的动作品质相当自然,避免了传统控制中常见的机械感。

零遥操作数据:整个训练过程完全不依赖遥操作数据,而是以“人类自我中心视频+同步的全身运动+文本标注”三元组作为学习素材。这意味着只要海量的人类日常交互视频(比如第一人称做饭、搬东西、与人接触的画面),就能教会机器人做新任务。

挑战何在?

ZeroWBC目前主要针对静态场景中的全身交互控制问题,也就是说,场景里的物体和背景不能是动态变化的。如果场景自己会变(比如人在走动、物体被移动),当前框架的生成-跟踪方案可能还跟不上。另外,虽然文本指令支持自然语言,但对复杂任务(比如“先把杯子放好,再转身开门”)的分解能力还有待提高。

未来值得看:如果这套方法能进一步扩展到非静态场景,并兼容更复杂的任务指令,那你我生活中出现真正“会干活”的人形机器人,可能就不远了。

相关文章

精彩推荐