大型多模态模型在归纳物理推理中表现不佳

作者：袖梨 2026-06-03

大型多模态模型在归纳物理推理中表现不佳

一项来自arXiv的新研究（论文编号2509.12263v3）直接揭了大型多模态模型（LMMs）的短：它们在归纳物理推理任务上真的挺吃力。说白了，这些模型能回答“两个东西撞上会怎样”这类问题，靠的是在训练时“背”过的动量守恒等物理定律。可一旦碰到训练集里没出现过的物理规则，比如一个完全陌生的物理环境，模型就抓瞎了——这背后到底出了什么问题？

参数知识的“死穴”

咱们得先搞清楚一个概念：LMMs把训练中见过的物理规律编码成了参数知识——可以理解成大脑里存了一套“标准答案”。遇到熟悉的场景，比如小球碰撞，它能靠记忆直接推断结果。但归纳物理推理考验的不是记忆，而是面对新规则时的适应能力。论文指出，当物理定律是训练集里从未出现过的、全新的规律时，模型的推理表现就急转直下。这不就跟咱们人类考试时碰到超纲题一个样吗？可人类起码能试着猜一猜、推导一下，模型呢？它连猜都猜不对。

人类凭什么能适应？

那就奇怪了，为什么同样面对新物理环境，人类就能调整自己的物理推理？研究团队的发现其实挺扎心：人类靠的是对物理世界的一般性理解，比如“因果关系”“物体持续性”这类底层常识，而不是死记硬背具体的物理公式。大型多模态模型呢？它的知识几乎是“刻在参数里的”，改不了也无法灵活迁移。你说这不是硬件缺陷是什么？

这场“考试”到底考什么？

为了给模型打分，研究团队专门设计了一套叫InPhyRe的测试框架。它的核心思路很简单：先给模型展示一个全新的物理规则（比如“小球会反弹两次才停下”），然后扔出一个新情境问“这次会怎样？”——这其实就是归纳推理的标准考法。结果呢？LMMs在大多数题目上都答错了，尤其当规则变得复杂或者和训练数据差异大时，错误率直奔高点。这再次证明：参数知识再多，也撑不起真正的物理推理能力。

应用场景会受多大影响？

其实这类问题挺影响现实落地的。举个例子，如果让机器人学会在模拟环境里抓东西，但现实世界的摩擦力、重力略有不同，模型可能就从“优等生”变成“不及格”。所以论文这次敲响警钟：想靠训练集吃遍天？不行！咱们得想想怎么让模型学会“举一反三”。

大型多模态模型在归纳物理推理上表现不佳这件事，说到底就是“记忆”和“理解”的差距。人类能根据新情况调整思路，模型却只能翻旧账——这不就卡在瓶颈上了吗？下一步的研究方向或许该从“如何让模型真正理解物理”入手，毕竟光靠堆参数可不是出路。