持久3D状态世界模型：超越像素历史的交互式生成

作者：袖梨 2026-06-04

持久3D状态世界模型：超越像素历史的交互式生成

一项发表于 arXiv 的研究拿出了 PERSIST——持久3D状态世界模型。它通过维护持久的3D状态来生成交互式视频，这确实超越了传统像素历史的交互式生成方式。现有世界模型在生成视频时能响应操作，但它们真的理解3D空间吗？其实并不。

传统模型的问题在哪？说白了，它们缺乏3D表示，3D一致性只能靠数据隐式学习，空间记忆也限于短期窗口。这就好比一个画家只看前几帧画下一帧，物体在3D空间中的位置和形状，它心里没谱。生成的视频自然容易出现视角不一致、物体变形等问题，用户玩起来挺出戏的。

PERSIST 怎么解决？它维护一个持久的3D状态，相当于模型脑子里一直有一张3D场景地图。每次生成新帧，都基于这个3D状态来渲染，而不是靠像素猜像素。这样一来，3D一致性就稳了，空间记忆也不再受时间窗口限制。

这对下游任务意味着什么？对训练智能体来说意义挺大。你想，世界模型如果连3D空间都搞不定，智能体在里面学到的技能，搬到现实世界能用吗？PERSIST 提供的稳定3D状态，让智能体能学到更可靠的空间认知和交互策略。

用户体验有啥变化？交互式生成的感受会真实很多。你操控角色在场景里走动，3D结构连贯，视角转换自然，不会出现穿模或者空间错乱。可以说，这才是真正意义上的交互式生成！

未来会怎样？PERSIST 给世界模型研究指了个新方向——从像素历史走向持久3D状态。它能不能成为标准范式？确实值得关注。不管怎么说，咱们离真正的开放世界模拟又近了一步。

相关文章