ZeroWBC：从人类自我中心视频学习自然全身人形交互

作者：袖梨 2026-06-04

ZeroWBC：从人类自我中心视频学习自然全身人形交互

一项名为ZeroWBC的全新框架近日问世，它试图解决人形机器人交互控制中的一个老大难问题——如何让机器人做出自然、连贯的全身动作，而不是僵硬地只动上半身。这个框架厉害之处在于，它不需要昂贵且耗时的全身遥操作数据，而是直接学习人类日常活动中拍摄的第一人称（自我中心）视频，就学会了全身交互控制。

为什么说这是个突破？

人形机器人要跟人协作，比如递个杯子、扶一把、做个体检，其实挺难的。传统做法是靠遥操作，就是人套上动作捕捉设备，机器人跟着学。但全身动作的数据采集成本太高，而且每个动作都得重新录，不可能覆盖所有场景。ZeroWPC的做法是先“生成”再“跟踪”——给定一张初始的第一人称图像和一句语言指令（比如“从桌上拿起水杯”），它能生成合理的全身运动轨迹并执行。这不也挺自然的吗？

具体是怎么做到的？

生成阶段：框架首先接收一张来自人类视角的静态图像，结合用户的自然语言指令，通过一个微调的视觉-语言模型生成相应的全身动作序列。这一步解决了“机器人该做什么”的问题。
跟踪阶段：生成的动作序列会被转化为低层次的关节控制指令，驱动机器人实际执行。由于模型是基于大量真实人类交互视频训练的，生成的动作品质相当自然，避免了传统控制中常见的机械感。

零遥操作数据：整个训练过程完全不依赖遥操作数据，而是以“人类自我中心视频+同步的全身运动+文本标注”三元组作为学习素材。这意味着只要海量的人类日常交互视频（比如第一人称做饭、搬东西、与人接触的画面），就能教会机器人做新任务。

挑战何在？

ZeroWBC目前主要针对静态场景中的全身交互控制问题，也就是说，场景里的物体和背景不能是动态变化的。如果场景自己会变（比如人在走动、物体被移动），当前框架的生成-跟踪方案可能还跟不上。另外，虽然文本指令支持自然语言，但对复杂任务（比如“先把杯子放好，再转身开门”）的分解能力还有待提高。

未来值得看：如果这套方法能进一步扩展到非静态场景，并兼容更复杂的任务指令，那你我生活中出现真正“会干活”的人形机器人，可能就不远了。