RRB基准测试:Claude在文本扰动下推理能力落后于其他前沿模型

作者:袖梨 2026-06-01

arXiv最新发布的RRB(鲁棒推理基准测试)报告显示,Claude在文本扰动下推理能力落后于其他前沿模型。这项由研究人员构建的基准测试,对AIME 2024和AIME 2025的数学问题应用了13种确定性文本扰动,系统评估了8个最先进模型的鲁棒性。

测试结果发现,多数前沿模型对文本扰动表现出较大韧性,但Claude成了例外——它频繁拒绝回答许多变换后的提示。这确实挺让人意外,毕竟推理能力一向是各大模型比拼的核心指标。凭什么Claude会在文本格式变化后干脆“罢工”呢?

文本扰动到底施加了什么魔法?测试并非施加复杂逻辑陷阱,而是像换行、标点替换、乱序列表等格式层面的改动。这些扰动对人类解题几乎没影响,但Claude的拒答率却明显高于同场竞技的其他模型。其实,这暴露了模型在理解输入形式上的脆弱性——哪怕内容没变,“长得不一样”都可能让它不敢作答。

Claude的谨慎是优点还是短板?从安全角度看,模型拒绝回答疑似有毒输入值得称赞。但当标准数学题换个写法就被拒绝时,我们不禁要问:这种保守是过度还是必要?毕竟,前沿模型应该在保持高抗干扰性的同时,不轻易放弃解题。Claude在这方面真是落了下风。

开放权重推理模型表现如何?报告显示,开放权重的推理模型展现出一定的处理范围差异,但整体灾备水平仍不及GPT等闭源头部模型。值得注意的是,RRB测试针对的是数学推理——这被认为是衡量大模型逻辑能力的黄金场景之一。Claude在此翻车,意味着其实际应用中的可靠性存疑。

为什么这个基准测试值得关注?因为标准数学基准已沦为“刷分场”——模型通过训练语料过拟合取得高分,但换种问法就露馅。RRB刻意引入文本扰动,就是要把这层伪装撕开。现在它证明了:Claude在文本扰动下推理能力落后于其他前沿模型,这种“格式化脆弱性”可能成为用户部署时的致命伤。

截至目前,Claude的开发方Anthropic尚未就此事公开发表意见。但RRB的结论已经摆上台面:在快速迭代的AI竞赛中,唯有那些既强大又抗干扰的模型才能真正拿稳“推理能力”这顶桂冠。Claude呢?它或许得在“谨慎”与“强壮”之间找到更好的平衡了。

相关文章

精彩推荐