研究人员日前在arXiv上发布了一项新成果——Code-Guided Reasoning (CGR)协议,专门用于评估小语言模型的可执行推理支架效果。这项协议针对的是小语言模型在多选题问答(MCQA)任务中的表现,但与传统直接作答的评测方式不同,CGR关注的是模型借助外部工具、代码、重复调用等支架后能提升多少。
小语言模型的可执行推理支架评估:CGR协议的核心在于标准化六个组件。根据论文摘要,这六个组件包括归一化的试题接口、直接求解提示、生成提示、Python支架、求解器调用等。CGR协议想回答一个问题:当小语言模型不是孤零零地答题,而是用上代码执行环境,它的推理能力真的变强了吗?

其实,现在部署的语言模型系统越来越依赖外部支架——比如调用工具、写代码跑结果、反复问模型来修正答案。但以往的MCQA评测只把模型当“直接答题者”,忽略了实际场景。CGR协议就把这块补上了,它生成了一套可执行的程序资源,用来测量可执行推理支架究竟有多大帮助。挺有意思吧?
具体怎么测呢?CGR协议先是设计一个标准化的试题接口,然后给出直接求解的提示和生成提示,再配上Python执行环境。模型先尝试直接回答,接着利用代码支架进行推理并得到答案,两者对比就能看出支架的提升。没错,这种“带着工具做题”的思路,其实更贴近真实应用——小语言模型凭什么不能借助代码来算东西?

从方法上看,CGR协议属于评估协议层面的创新,而不是直接训练模型。它提供了一套可复现的基准,其他研究者可以用同样的资源来对比不同模型、不同支架的效果。这就让咱们能更清楚地知道,哪些推理任务小语言模型自己就能搞定,哪些必须靠外挂支架才能干好。
当前小语言模型在资源受限的场景下越来越吃香,但推理能力一直被诟病。CGR协议提供了一种更公平的评估方式——不是只看模型本身,而是看“模型+支架”的系统表现。这倒是挺务实的做法,毕竟用户需要的是能用的系统,而不是只会背答案的模型。
不过,CGR协议目前还只是arXiv上的一个预印本,后续有没有实验数据、有没有大规模验证,都还不清楚。但方向确实对味:评测要从静态答题转向动态执行。何来“小模型不行”的定论?也许配上代码支架,它们能爆发出超预期的实力呢。