Spatial-MLLM：仅2D输入增强多模态大模型空间智能

作者：袖梨 2026-05-31

日前，arXiv 公布了 Spatial-MLLM 研究，提出仅用 2D 输入增强多模态大模型的空间智能。这算是视觉 AI 领域一次挺关键的推进，因为空间智能一直是 MLLM 的薄弱环节，现有方法很难在不引入额外 3D 数据的前提下突破这个瓶颈。这项研究来自 arXiv 的更新，版本号为 2505.23747v2。

多模态大模型在 2D 视觉任务上表现确实不错，比如识别物体、理解场景语义。可空间智能呢？一直是个难题。现有的 3D MLLM 为了获得空间感知能力，总要引入额外的 3D 或 2.5D 数据，这就让它们在只有 2D 输入——比如普通图像或视频——的场景里施展不开。这不是个小问题，毕竟大量实际应用都只能提供 2D 数据，比如监控视频、网络图像、手机照片。

Spatial-MLLM 打破了这种限制。它构建了一个新框架，直接从纯 2D 观察中进行视觉空间推理，不用依赖 3D 点云或深度图。可以说，它在 2D 输入和空间智能之间搭了一座桥。这个思路真的挺巧妙，也很有实用性，因为它让空间推理的门槛大大降低了。

传统视频 MLLM 呢？它们往往依赖 CL 或其他机制来从序列中推断空间信息，但本质上仍然需要额外的 2.5D 数据辅助才能做出准确判断。Spatial-MLLM 跳出了这个路子，只靠纯 2D 输入，就能在空间推理任务上拿出表现。这个突破确实很实在，因为它在保持 2D 输入便利性的同时，实现了空间智能的提升。