大型多模态模型在归纳物理推理中表现不佳

作者:袖梨 2026-06-03

大型多模态模型在归纳物理推理中表现不佳

一项来自arXiv的新研究(论文编号2509.12263v3)直接揭了大型多模态模型(LMMs)的短:它们在归纳物理推理任务上真的挺吃力。说白了,这些模型能回答“两个东西撞上会怎样”这类问题,靠的是在训练时“背”过的动量守恒等物理定律。可一旦碰到训练集里没出现过的物理规则,比如一个完全陌生的物理环境,模型就抓瞎了——这背后到底出了什么问题?

参数知识的“死穴”

咱们得先搞清楚一个概念:LMMs把训练中见过的物理规律编码成了参数知识——可以理解成大脑里存了一套“标准答案”。遇到熟悉的场景,比如小球碰撞,它能靠记忆直接推断结果。但归纳物理推理考验的不是记忆,而是面对新规则时的适应能力。论文指出,当物理定律是训练集里从未出现过的、全新的规律时,模型的推理表现就急转直下。这不就跟咱们人类考试时碰到超纲题一个样吗?可人类起码能试着猜一猜、推导一下,模型呢?它连猜都猜不对。

人类凭什么能适应?

那就奇怪了,为什么同样面对新物理环境,人类就能调整自己的物理推理?研究团队的发现其实挺扎心:人类靠的是对物理世界的一般性理解,比如“因果关系”“物体持续性”这类底层常识,而不是死记硬背具体的物理公式。大型多模态模型呢?它的知识几乎是“刻在参数里的”,改不了也无法灵活迁移。你说这不是硬件缺陷是什么?

这场“考试”到底考什么?

为了给模型打分,研究团队专门设计了一套叫InPhyRe的测试框架。它的核心思路很简单:先给模型展示一个全新的物理规则(比如“小球会反弹两次才停下”),然后扔出一个新情境问“这次会怎样?”——这其实就是归纳推理的标准考法。结果呢?LMMs在大多数题目上都答错了,尤其当规则变得复杂或者和训练数据差异大时,错误率直奔高点。这再次证明:参数知识再多,也撑不起真正的物理推理能力。

应用场景会受多大影响?

其实这类问题挺影响现实落地的。举个例子,如果让机器人学会在模拟环境里抓东西,但现实世界的摩擦力、重力略有不同,模型可能就从“优等生”变成“不及格”。所以论文这次敲响警钟:想靠训练集吃遍天?不行!咱们得想想怎么让模型学会“举一反三”。

大型多模态模型在归纳物理推理上表现不佳这件事,说到底就是“记忆”和“理解”的差距。人类能根据新情况调整思路,模型却只能翻旧账——这不就卡在瓶颈上了吗?下一步的研究方向或许该从“如何让模型真正理解物理”入手,毕竟光靠堆参数可不是出路。

相关文章

精彩推荐