大语言模型类人推理的持续涌现被追踪

作者：袖梨 2026-06-01

arXiv上最新发布的一项研究（编号2605.21299）追踪了大语言模型中类人推理的持续涌现。该研究通过一项人口匹配实验，系统评估了25款大语言模型在理解条件语句时的表现。实验发现，模型在处理“如果你割草，我就给你50美元”这种承诺性条件句，与“如果你饿了，烤箱里有披萨”这种提示性条件句时，展现了显著不同的逻辑路径——这跟人类的直觉反应可以说是高度一致。

类人推理的边界在哪？人类能轻松跨越字面意思，但大语言模型真的具备这种能力吗？实验中，模型对承诺句（如割草换钱）的理解更依赖逻辑演算，而对提示句（如烤箱有披萨）则更倾向于常识推断。这种差异其实挺接近人类的认知模式。不过挺有意思的是，同一款模型在不同条件句上的表现波动，暴露了推理机制并非完全稳定。