LEAP框架赋能通用大模型实现形式数学定理证明SOTA

作者：袖梨 2026-06-05

LEAP框架赋能通用大模型实现形式数学定理证明SOTA

近日，一项名为LEAP的智能体框架正式公开，它让通用大模型（LLM）在形式数学定理证明任务上直接冲到了SOTA水平。要知道，过去大模型能轻松解出中学奥数题，可一旦要求用Lean这类形式化语言写出机器可验证的证明，立刻就卡壳——因为那套语法严格得令人头疼，模型经常胡写。LEAP框架的厉害之处在于：它不要求模型专门训练，而是把现有通用基础模型（比如GPT、Claude）的“非形式推理”“指令遵循”和“迭代自改进”能力整合起来，用一套智能体协作机制把这些能力拧成一股绳。

形式数学定理证明为什么难？

说白了，数学证明分两种：一种是咱们日常写的“大概意思对就行”的非形式证明，另一种是像Lean语言那样每一个符号、每一步推理都必须严格符合逻辑的形式证明。大模型在第一种上已经挺强，但第二种需要精准的迭代——错了就改，改了还可能错，反复打磨。而LEAP正是抓住了这个痛点：它把复杂的定理证明拆成一个个小单元，每个单元由不同的智能体分工处理，有的负责找推理线索，有的负责检查语法，有的负责反馈错误。这就好比把一个大厨的活儿拆成洗菜、切菜、炒菜、摆盘，每个环节都有专人负责，效率自然上去了。

LEAP具体怎么干的？

分解问题：LEAP先把一个定理拆成若干子目标，每个子目标对应一个证明片段。大模型只需要专注于当前小片段，不用一次性面对整个庞然大物。
迭代自改进：每个智能体生成一段证明后，另一个智能体会用Lean编译器去验证，如果报错就反馈原因，然后让原智能体修改。这种“生成→验证→反馈→修改”的循环可以重复多次，直到通过。
利用非形式推理：在遇到复杂步骤时，LEAP会让模型先用自然语言写出大致思路，再把这个思路“翻译”成形式化证明——因为模型在自然语言推理上的表现往往更可靠。

这种设计其实挺符合常识：人写证明不也是先想思路再动笔吗？LEAP相当于给大模型配了一个“思路整理器”和一个“语法纠错师”，让它能一步一步稳稳地往前走。

效果怎么样？

根据公开信息，LEAP在几个主流形式数学定理证明基准上均刷新了纪录，实现了SOTA。注意这里的SOTA不是靠刷大量专业数据堆出来的，而是纯靠智能体框架的调度能力。换句话说，同一个基础模型，套上LEAP前后的性能差距巨大——这就证明问题的瓶颈不在模型本身，而在于怎么用。

这意味着什么？

对AI行业来说，这相当于给通用大模型插上了一根“形式化翅膀”。以前大家觉得数学定理证明只能靠专门训练的专家模型，现在LEAP证明：只要框架设计得够巧妙，通用模型也能干好这个活。而且LEAP的设计思路——分解、迭代、反馈——其实可以迁移到很多其他需要严格验证的任务上（比如代码形式化验证、程序合成）。

当然，目前LEAP只是arXiv上的技术报告，具体代码和数据集尚未全部公开。但咱们可以大胆期待：一旦这类框架普及，AI在科研、工程验证领域的实用性会成倍提升——这难道不是挺值得兴奋的吗？