研究人员日前在arXiv上发布了一项名为MetaWorld的研究,提出了一种基于单视角视频数据来扩展多智能体视频世界模型的新方法。这项工作的目标,是打破现有视频世界模型只能处理单智能体、单视角的根本限制,让AI能理解和模拟多个智能体在共享物理世界中的协同互动。这意味着一台机器人只能从一个角度观察世界,多台机器人协作时就会出现信息断层。
视频世界模型究竟是什么?说白了,它是一种能预测视频帧序列演变的生成式AI技术,被看作具身AI(能在物理环境中行动的AI)和元宇宙的基础设施。但问题在于,现有模型都默认只有一个观察者、一个行动者,这跟现实世界相差太远了。现实中哪项任务不是多角色、多视角的?

想把模型扩展到多智能体场景,研究者要跨越两个关键障碍。第一个是数据稀缺问题——要采集多视角协调的视频数据,在开放域场景中成本高得吓人,几乎不可行。没有足量的多视角数据,模型就无法学习不同视角之间的关联,多智能体场景的训练也就无从谈起。
第二个是世界状态对齐问题。就算你有办法生成几路独立的视频流,它们之间也没法保证共享的物理环境和事件能演化得一致。这就好几个人各演各的戏,剧情根本没法对得上,多智能体协作又从何谈起?世界状态对不齐,每个智能体感知到的环境都不一样,协同决策就成了空中楼阁。
MetaWorld的解决思路确实挺巧妙:既然多视角数据那么难获取,那能不能从单视角视频数据出发,通过某种扩展机制让模型自己学会多智能体、多视角的世界状态表示?这样一来,数据稀缺的问题不就有解了嘛。这种从单视角到多视角的扩展,如果能实现,就等于让模型自己掌握了“视角切换”的能力。
这项研究的潜在影响不容小觑。一旦MetaWorld的方法被验证可行,它就能为具身AI和元宇宙提供更真实、更复杂的多智能体模拟环境。在机器人领域,多台机器人可以共享一个世界模型协同工作;在元宇宙中,多个用户可以在同一个虚拟空间里互动,体验会真实得多。你说,这算不算是行业一直在等的一个突破?
当然,这项研究目前还在论文阶段,从理论到落地还有一段路要走。但方向确实让人兴奋,不是吗?