持久3D状态世界模型:超越像素历史的交互式生成

作者:袖梨 2026-06-04

持久3D状态世界模型:超越像素历史的交互式生成

一项发表于 arXiv 的研究拿出了 PERSIST——持久3D状态世界模型。它通过维护持久的3D状态来生成交互式视频,这确实超越了传统像素历史的交互式生成方式。现有世界模型在生成视频时能响应操作,但它们真的理解3D空间吗?其实并不。

传统模型的问题在哪?说白了,它们缺乏3D表示,3D一致性只能靠数据隐式学习,空间记忆也限于短期窗口。这就好比一个画家只看前几帧画下一帧,物体在3D空间中的位置和形状,它心里没谱。生成的视频自然容易出现视角不一致、物体变形等问题,用户玩起来挺出戏的。

PERSIST 怎么解决?它维护一个持久的3D状态,相当于模型脑子里一直有一张3D场景地图。每次生成新帧,都基于这个3D状态来渲染,而不是靠像素猜像素。这样一来,3D一致性就稳了,空间记忆也不再受时间窗口限制。

这对下游任务意味着什么?对训练智能体来说意义挺大。你想,世界模型如果连3D空间都搞不定,智能体在里面学到的技能,搬到现实世界能用吗?PERSIST 提供的稳定3D状态,让智能体能学到更可靠的空间认知和交互策略。

用户体验有啥变化?交互式生成的感受会真实很多。你操控角色在场景里走动,3D结构连贯,视角转换自然,不会出现穿模或者空间错乱。可以说,这才是真正意义上的交互式生成!

未来会怎样?PERSIST 给世界模型研究指了个新方向——从像素历史走向持久3D状态。它能不能成为标准范式?确实值得关注。不管怎么说,咱们离真正的开放世界模拟又近了一步。

相关文章

精彩推荐