Claude Opus 4.6 借助 Rocq-MCP 工具集,自主完成了2025年 Putnam 数学竞赛中12道题的10道证明。实验在隔离虚拟机上进行,无网络访问,AI 部署了141个子代理,耗费17.7小时激活计算时间(墙上时间51.6小时)。arXiv:2603.20405v2 报告了这一结果,引发人工智能与数学推理领域的关注。
Rocq-MCP 工具集究竟做了什么?它其实是专为 Rocq 证明助手设计的一套模型上下文协议工具。研究人员通过分析此前 miniF2F-Rocq 实验的日志,与 Claude 共同设计了这套工具,核心策略是“编译优先,交互后备”。这挺有意思——不是让 AI 盲目尝试,而是先跑编译检查,失败后再逐步交互调试,效率确实高了不少。

Putnam 数学竞赛号称全球最难的大学生数学竞赛之一。Claude Opus 4.6 能一口气证明10道题,凭什么?它的 MCP 工具编码了一套严谨的推理流程,让 AI 在孤立环境中反复试错、拆解问题。141个子代理同时运转呢,这学习速度跟人类选手相比真是天壤之别!
有人可能会问:这种自主证明能力,对普通用户来说意味着什么?其实啊,Rocq-MCP 的价值不限于竞赛题目。它展现的是 AI 如何通过结构化工具链,在受限条件下解决复杂逻辑问题。这不就是咱们期待的人工智能推理突破吗?
实验消耗了171.7小时激活计算时间,但实际墙上时间只有51.6小时,说明多代理并行确实大幅提升了效率。可以说,这项成果是开源社区和商业模型合作的典范——研究人员没有隐藏代码,而是公开了 arXiv 论文。
接下来呢?Putnam2025 的挑战才刚刚开始。Claude Opus 4.6 证明了 AI 能胜任高级数学推理,但剩下的两道难题可能需更强逻辑工具。没错,这条路还长,但方向已经明确:借助 Rocq-MCP 之类工具,人工智能正在从“死记硬背”走向“自主证明”。