RRB基准测试：Claude在文本扰动下推理能力落后于其他前沿模型

作者：袖梨 2026-06-01

arXiv最新发布的RRB（鲁棒推理基准测试）报告显示，Claude在文本扰动下推理能力落后于其他前沿模型。这项由研究人员构建的基准测试，对AIME 2024和AIME 2025的数学问题应用了13种确定性文本扰动，系统评估了8个最先进模型的鲁棒性。

测试结果发现，多数前沿模型对文本扰动表现出较大韧性，但Claude成了例外——它频繁拒绝回答许多变换后的提示。这确实挺让人意外，毕竟推理能力一向是各大模型比拼的核心指标。凭什么Claude会在文本格式变化后干脆“罢工”呢？

文本扰动到底施加了什么魔法？测试并非施加复杂逻辑陷阱，而是像换行、标点替换、乱序列表等格式层面的改动。这些扰动对人类解题几乎没影响，但Claude的拒答率却明显高于同场竞技的其他模型。其实，这暴露了模型在理解输入形式上的脆弱性——哪怕内容没变，“长得不一样”都可能让它不敢作答。

Claude的谨慎是优点还是短板？从安全角度看，模型拒绝回答疑似有毒输入值得称赞。但当标准数学题换个写法就被拒绝时，我们不禁要问：这种保守是过度还是必要？毕竟，前沿模型应该在保持高抗干扰性的同时，不轻易放弃解题。Claude在这方面真是落了下风。

开放权重推理模型表现如何？报告显示，开放权重的推理模型展现出一定的处理范围差异，但整体灾备水平仍不及GPT等闭源头部模型。值得注意的是，RRB测试针对的是数学推理——这被认为是衡量大模型逻辑能力的黄金场景之一。Claude在此翻车，意味着其实际应用中的可靠性存疑。

为什么这个基准测试值得关注？因为标准数学基准已沦为“刷分场”——模型通过训练语料过拟合取得高分，但换种问法就露馅。RRB刻意引入文本扰动，就是要把这层伪装撕开。现在它证明了：Claude在文本扰动下推理能力落后于其他前沿模型，这种“格式化脆弱性”可能成为用户部署时的致命伤。

截至目前，Claude的开发方Anthropic尚未就此事公开发表意见。但RRB的结论已经摆上台面：在快速迭代的AI竞赛中，唯有那些既强大又抗干扰的模型才能真正拿稳“推理能力”这顶桂冠。Claude呢？它或许得在“谨慎”与“强壮”之间找到更好的平衡了。

相关文章