近日一项针对AI模型在经济学理论验证中的实际表现测试表明,ChatGPT Pro虽在多个模型中表现最优,但面对一篇包含已知错误的经济学论文时,仍未能在无人工引导的情况下独立定位问题。该实验由研究者设计,要求Gemini、Refine、Claude以及ChatGPT Pro共同检查四篇已经确认存在错误的经济学理论论文,其中每篇论文的错误均由研究者亲自识别并协助修正。结果显示,ChatGPT Pro可以构建部分反例并提供修正版证明,综合表现领先于其他模型,但所有模型在真正错误发现环节均需依赖大量人工干预,无法实现独立纠错。
实验设计:检验AI的经济学理论纠错能力

研究团队选择了四篇已发表的经济学理论论文,每篇都包含一处被研究者明确标记的逻辑或推演错误。参与者将论文原文输入上述AI模型,要求模型独立检查论文的正确性并报告是否存在问题。为了确保评估的客观性,研究者并未在提示词中暗示论文可能有误,而是让模型以常规审稿心态进行判断。这一设计试图模拟学术审稿中AI辅助识别问题的真实场景。
ChatGPT Pro表现领先,但仍有明显短板

在四篇论文的测试中,ChatGPT Pro在部分案例中成功构造了反驳性例子,并给出了修正后的逻辑推导,其输出质量明显高于Gemini、Refine和Claude。研究者指出,ChatGPT Pro在识别推演漏洞和生成替代论证方面展现出较强的能力,这是其成为表现最佳模型的主要原因。不过,即使ChatGPT Pro在辅助纠错方面有所进展,它仍然没有在没有人工明确提示的情况下,直接锁定论文中的根本错误。其他模型则几乎完全依赖人类一步步引导才能接近问题核心。
数据污染使评估复杂化
研究者还注意到一个重要的干扰因素:数据污染。由于这些被测试的经济学论文可能以某种形式出现在模型的训练语料中,模型在检查时可能并不是在真正推理,而是调用了记忆中的答案或模式。这一因素使得对模型纠错能力的评估变得复杂,也进一步说明目前AI在学术验证领域的能力边界仍然模糊。研究者强调,在缺乏对训练数据严格审计的前提下,很难判断模型的“发现”究竟是源于逻辑推理还是数据记忆。
对AI辅助学术验证的启示
这一实验为学术界使用AI辅助论文检查提供了现实参照。模型可以在人类明确指引下辅助构建反例或修补证明,但作为独立的错误发现工具仍不成熟。未来若要将AI真正嵌入学术审稿流程,需要解决数据污染问题,并建立更可靠的评估基准。此外,研究者也提出,经济学理论中的抽象推演与形式化逻辑对当前AI模型仍构成挑战,即使像ChatGPT Pro这样在自然语言推理上表现出色的模型,在特定理论领域的原始判断力仍然有限。
人类判断仍不可替代
该测试从侧面印证了一个事实:在严谨的学术理论校验中,人类专家对问题背景的理解、对领域常识的把握以及对隐含假设的敏感度,仍然是目前AI无法复制的核心能力。ChatGPT Pro虽然在辅助纠错上比以往模型更进一步,但距离独立完成理论验证还有相当距离。研究者建议,学术机构在引入AI工具时,应将其定位为辅助审稿的“第二道防线”,而非替代人类判断的“自动纠错器”。