Spatial-MLLM：仅用二维输入提升多模态大模型空间智能

作者：袖梨 2026-05-31

多模态大模型空间智能的提升有了新路径。日前，研究团队在arXiv上提交的论文《Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence》正式更新，提出Spatial-MLLM框架。这一框架仅依靠二维输入（如图像或视频），就能推动多模态大模型在视觉空间推理上的表现，解决了传统模型必须依赖3D或2.5D数据的痛点。

二维输入是解题关键

现有的多模态大模型在处理2D视觉任务上确实进步明显，但空间智能始终是个瓶颈。为什么？因为大多数3D多模态大模型需要额外引入3D或2.5D数据来感知空间信息，这就限制了它们在只有二维输入场景下的应用——比如咱们日常接触的普通照片或短视频。Spatial-MLLM则直接绕过这个限制，让模型从纯2D观察中理解空间关系。

它跟传统视频多模态大模型有何不同？

Spatial-MLLM的核心理念其实挺颠覆的。常规视频模型依赖CLIP之类的视觉编码器，但面对空间深度、物体遮挡等问题时，它们往往没办法精准判断。新框架通过专为空间智能设计的训练策略，让模型学会从二维画面中“脑补”出三维结构——这不就是人类视觉系统做的事吗？我们看一张照片，也能大概感觉出物体远近、大小比例，Spatial-MLLM等于给机器安上了类似的能力。

实用场景瞬间打开

想想看，自动驾驶、机器人导航、增强现实这些领域，哪样不依赖空间理解？但过去部署3D多模态大模型需要昂贵的深度传感器或点云数据，成本高、落地难。Spatial-MLLM只靠普通摄像头拍下的2D图像就能干活，这意味着低成本方案成为可能。对于地平线、摩尔线程这类专注AI硬件的公司来说，这无疑是个好消息——算法复杂度降低，算力消耗也能跟着优化。

同时要看到技术局限

当然，纯二维推理在极端复杂场景下还有改进空间。比如玻璃反光、透明物体等极端情况，单张图像的信息量确实不足。不过研究团队已经证明了方向可行：不用额外数据，仅靠算法架构创新，多模态大模型的空间能力就能往上提一截。这让大家对后续升级版本更感兴趣。