视觉语言模型无法推理物理变换中的守恒原理

作者：袖梨 2026-06-02

arXiv 上刚刚公开的研究（论文编号 2603.07109）拿出了 23,040 道题、跑了 112 个视觉语言模型，结果发现：这些模型在物理变换中的守恒原理推理上，几乎是全军覆没。论文团队专门造了一套叫 ConservationBench 的评测，目标很明确——看看 VLM 到底能不能搞明白“东西变了形，但有些属性还是那个数”。答案很扎心：不行，系统性失败。

“守恒”到底是个啥？找个例子就懂了

咱们小时候玩泥巴，把一团圆球拍成饼，泥巴的总量变了吗？没变，这就是守恒。换成水倒进不同形状的杯子、纸片剪成碎片，数量和质量都不该变。这种“变换前后某些物理量保持不变”的直觉，人类小孩几岁就有，但视觉语言模型却彻底栽了。论文里把守恒拆成四个属性，每个属性都配了“守恒”和“不守恒”两种场景，说白了就是：你看得见变化，但变来变去，有的东西压根没动——模型能抓住那个“没动”的规律吗？答案是否定的。

112 个模型，一个都没跑掉

覆盖范围非常广：从开源小模型到闭源大模型，一共 112 个，参数从几亿到上千亿都有。
问题数量惊人：23,040 道题，每道都配了图，从单一物体到复杂场景，变换方式包括平移、旋转、拉伸、拼接、分割。
结果这里真的挺尴尬——几乎全部模型的准确率都显著低于人类基线，而且没有哪个模型能稳定应付“守恒”场景。

你说它们是不是根本没理解“不变”？确实。很多模型在守恒场景里瞎蒙，跟随机猜没啥区别；换成不守恒的干扰场景，反而表现得“好一点”——但这恰恰说明它们只是记住了表面形状，根本没搞懂物理量有没有变。这就让人想问了：连幼儿园小朋友都能懂的道理，为什么千亿参数的大模型就是学不会？

根源在哪？图像理解里藏着死穴

视觉语言模型擅长做的是“看图说话”，比如认出猫、描述场景。但应对物理变换中的守恒，需要的是在脑子里“操作”图像，想象物体变形后某个属性的变化。模型实际上缺乏这种“动起来”的推理能力，它们看到的是一帧帧静态图，压根没建立起“之前→之后”的因果链。论文指出，这个缺陷是系统性的——不管换什么架构、什么训练数据，结果都一样惨。说白了，就是底层的视觉表征根本没把“守恒”这个概念编码进去。

对现实应用的影响，实话实说挺大的

现在很多机器人、自动驾驶、工业质检都开始用 VLM 做感知和规划。如果模型连“东西切一半总质量不变”这种基本物理都不懂，让它去抓易碎品、组装零件，出错的概率可不小。ConservationBench 这次算把遮羞布掀开了——视觉语言模型看着挺聪明，其实在物理推理这块还是个学龄前水平。接下来研究团队得琢磨怎么让模型真的“理解”变换，而不是靠文本记忆蒙混过关吧？

视觉语言模型无法推理物理变换中的守恒原理

相关文章

精彩推荐