LEAP框架赋能通用大模型实现形式数学定理证明SOTA
近日,一项名为LEAP的智能体框架正式公开,它让通用大模型(LLM)在形式数学定理证明任务上直接冲到了SOTA水平。要知道,过去大模型能轻松解出中学奥数题,可一旦要求用Lean这类形式化语言写出机器可验证的证明,立刻就卡壳——因为那套语法严格得令人头疼,模型经常胡写。LEAP框架的厉害之处在于:它不要求模型专门训练,而是把现有通用基础模型(比如GPT、Claude)的“非形式推理”“指令遵循”和“迭代自改进”能力整合起来,用一套智能体协作机制把这些能力拧成一股绳。

形式数学定理证明为什么难?
说白了,数学证明分两种:一种是咱们日常写的“大概意思对就行”的非形式证明,另一种是像Lean语言那样每一个符号、每一步推理都必须严格符合逻辑的形式证明。大模型在第一种上已经挺强,但第二种需要精准的迭代——错了就改,改了还可能错,反复打磨。而LEAP正是抓住了这个痛点:它把复杂的定理证明拆成一个个小单元,每个单元由不同的智能体分工处理,有的负责找推理线索,有的负责检查语法,有的负责反馈错误。这就好比把一个大厨的活儿拆成洗菜、切菜、炒菜、摆盘,每个环节都有专人负责,效率自然上去了。
LEAP具体怎么干的?
这种设计其实挺符合常识:人写证明不也是先想思路再动笔吗?LEAP相当于给大模型配了一个“思路整理器”和一个“语法纠错师”,让它能一步一步稳稳地往前走。
效果怎么样?
根据公开信息,LEAP在几个主流形式数学定理证明基准上均刷新了纪录,实现了SOTA。注意这里的SOTA不是靠刷大量专业数据堆出来的,而是纯靠智能体框架的调度能力。换句话说,同一个基础模型,套上LEAP前后的性能差距巨大——这就证明问题的瓶颈不在模型本身,而在于怎么用。
这意味着什么?
对AI行业来说,这相当于给通用大模型插上了一根“形式化翅膀”。以前大家觉得数学定理证明只能靠专门训练的专家模型,现在LEAP证明:只要框架设计得够巧妙,通用模型也能干好这个活。而且LEAP的设计思路——分解、迭代、反馈——其实可以迁移到很多其他需要严格验证的任务上(比如代码形式化验证、程序合成)。
当然,目前LEAP只是arXiv上的技术报告,具体代码和数据集尚未全部公开。但咱们可以大胆期待:一旦这类框架普及,AI在科研、工程验证领域的实用性会成倍提升——这难道不是挺值得兴奋的吗?