arXiv 上刚刚公开的研究(论文编号 2603.07109)拿出了 23,040 道题、跑了 112 个视觉语言模型,结果发现:这些模型在物理变换中的守恒原理推理上,几乎是全军覆没。论文团队专门造了一套叫 ConservationBench 的评测,目标很明确——看看 VLM 到底能不能搞明白“东西变了形,但有些属性还是那个数”。答案很扎心:不行,系统性失败。
“守恒”到底是个啥?找个例子就懂了

咱们小时候玩泥巴,把一团圆球拍成饼,泥巴的总量变了吗?没变,这就是守恒。换成水倒进不同形状的杯子、纸片剪成碎片,数量和质量都不该变。这种“变换前后某些物理量保持不变”的直觉,人类小孩几岁就有,但视觉语言模型却彻底栽了。论文里把守恒拆成四个属性,每个属性都配了“守恒”和“不守恒”两种场景,说白了就是:你看得见变化,但变来变去,有的东西压根没动——模型能抓住那个“没动”的规律吗?答案是否定的。
112 个模型,一个都没跑掉

你说它们是不是根本没理解“不变”?确实。很多模型在守恒场景里瞎蒙,跟随机猜没啥区别;换成不守恒的干扰场景,反而表现得“好一点”——但这恰恰说明它们只是记住了表面形状,根本没搞懂物理量有没有变。这就让人想问了:连幼儿园小朋友都能懂的道理,为什么千亿参数的大模型就是学不会?
根源在哪?图像理解里藏着死穴
视觉语言模型擅长做的是“看图说话”,比如认出猫、描述场景。但应对物理变换中的守恒,需要的是在脑子里“操作”图像,想象物体变形后某个属性的变化。模型实际上缺乏这种“动起来”的推理能力,它们看到的是一帧帧静态图,压根没建立起“之前→之后”的因果链。论文指出,这个缺陷是系统性的——不管换什么架构、什么训练数据,结果都一样惨。说白了,就是底层的视觉表征根本没把“守恒”这个概念编码进去。
对现实应用的影响,实话实说挺大的
现在很多机器人、自动驾驶、工业质检都开始用 VLM 做感知和规划。如果模型连“东西切一半总质量不变”这种基本物理都不懂,让它去抓易碎品、组装零件,出错的概率可不小。ConservationBench 这次算把遮羞布掀开了——视觉语言模型看着挺聪明,其实在物理推理这块还是个学龄前水平。接下来研究团队得琢磨怎么让模型真的“理解”变换,而不是靠文本记忆蒙混过关吧?