arXiv上近日发布的论文《Cosmos 3: Omnimodal World Models for Physical AI》正式推出Cosmos 3全模态世界模型。这套模型能够统一处理语言、图像、视频、音频和动作序列,算是在AI领域向前迈了一大步。
全模态统一架构

Cosmos 3采用混合Transformer架构,把语言、图像、视频、音频和动作这五种模态揉进一个框架里。这意味着同一个模型既能当视觉语言模型用,又能做视频生成、世界模拟,甚至直接输出动作指令——这不正是Physical AI梦寐以求的能力吗?
其实这套模型的设计挺灵活。输入输出配置可以自由组合,比如输入图像加音频,输出视频加动作序列,或者输入语言描述,直接生成对应的视频和动作。这种灵活性让Cosmos 3能适应各种复杂的现实场景,机器人看一段视频后自动模仿动作只是其一。
Physical AI的核心引擎
Cosmos 3真正厉害的地方,在于它把视觉语言模型、视频生成器、世界模拟器和世界动作模型全部收进了一个统一框架。机器人拿到这个模型,看视频、听声音、理解指令、做动作全都能搞定。咱们离真正的智能机器人是不是又近了一步?
评估结果显示,Cosmos 3在多项任务上达到了新的状态最优。无论是跨模态理解——比如根据一段音频配上文字描述生成对应的视频——还是纯生成任务,这套模型都展现了挺强的实力。没错,全模态世界模型的路线正在被打开。
Cosmos 3的处理能力覆盖了语言、图像、视频、音频和动作五大模态。世界模型的核心是让AI能模拟物理世界的变化——比如预测一个杯子掉下来会碎,或者机器人怎么搬箱子最稳。Cosmos 3让这类模拟变得更自然,因为它统一了感知和行动。
其实回头想想,之前的视觉语言模型、视频生成器、世界模拟器都是各自为战。Cosmos 3把它们融在一起,AI终于可以像人一样,同时看、听、说、动。这难道不是迈向通用人工智能的重要一步吗!