神经场作为世界模型：同构架构保留感官拓扑实现物理预测

作者：袖梨 2026-06-05

一篇arXiv预印本论文（编号2602.18690）日前提出“同构世界模型”架构，主张让AI的物理预测像人脑一样保留感官拓扑结构，而不是把视觉信息压缩成抽象向量。论文团队来自学术机构，核心思路是：既然人类能在脑海里预演投篮动作、甚至做梦，说明世界模型可以离线运行——那机器为什么非得把图像压扁才能做预测呢？

传统世界模型压缩了什么？

咱们先看看标准做法。当前主流的机器学习世界模型会先把视觉输入（比如摄像头拍到的场景）编码成潜变量向量，这个过程其实丢掉了空间结构——也就是感官皮层最看重的那层几何关系。就像把一张地图揉成一个小纸条，虽然保留了关键信息，但你没法在上面直接画路线了。论文认为，这恰恰是AI做物理预测时笨手笨脚的原因。

同构架构怎么保留拓扑？

解决办法挺直接：设计一种架构，让神经网络本身的排列方式跟传感器获取到的拓扑结构保持同构。说白了，就是输入图像的像素位置关系，在模型内部的计算图里也要有对应的空间映射。这样一来，物理预测就不再是抽象的“状态A→状态B”的符号跳转，而是变成几何空间里的传播——就像你推一下多米诺骨牌，力量沿着牌传递一样自然。

具体实现呢？论文用了运动门控神经场（motor-gated neural field）。这个神经场本身就是一个连续的空间函数，输入坐标输出对应属性；而“运动门控”的作用是让模型能根据当前的行动意图，动态调整哪些空间区域被激活。这不就是人类在做心理练习时，大脑一边模拟动作一边更新感觉区域的模式吗？

为什么说这可能是世界模型进化的关键？

说实话，过去几年很多世界模型都在做“压缩-预测-解压缩”的循环，效果虽然不错，但总感觉哪里不对劲——凭什么感官皮层花了几亿年演化出来的空间拓扑结构，到了AI这儿就被一脚踢开？这篇论文等于在问：咱们能不能不扔那块地图，直接在空间上做预测？如果这件事成立，未来机器人学、自动驾驶甚至虚拟世界的模拟都可能换一套底层架构。

当然，现在论文还属于概念验证阶段。但思路挺值得关注——毕竟人类做梦时的世界模型，确实没有把梦境场景先压缩成向量再展开。保留拓扑结构做几何传播，或许才是更接近生物智能的路径。