FALSIFYBENCH：用规则发现游戏测试大模型归纳推理能力

作者：袖梨 2026-06-04

日前，一项名为FALSIFYBENCH的评估框架正式亮相，它专门用来考察大语言模型在规则发现游戏中的归纳推理能力。这个框架的灵感来自经典的Wason 2-4-6任务——说白了，就是让模型自己提出数字序列，根据反馈一步步摸索出背后的隐藏规则，跟科学家做实验找规律一个道理。

任务设计其实挺有意思

测试流程是这样的：模型先提交一个示例（比如“2-4-6”这个序列），系统告诉它符不符合隐藏规则；然后模型再改，再试，直到猜对为止。这不就是咱们平时玩游戏“猜数字”的升级版吗？但隐藏规则可不是简单的“递增偶数”，而是某种语义属性——比如“三个数都是奇数”这种抽象条件。模型得从反馈里硬生生归纳出来，靠的不是死记硬背。

为什么要搞这么个测评？

如今LLM被用在科研任务里当“智能助手”，可它们到底能不能像人一样进行归纳推理？答案是存疑的。FALSIFYBENCH等于给模型摆了个擂台：你连Wason 2-4-6都玩不转，还谈什么辅助科学发现？所以说，这个框架恰好抓住了科学推理的核心——提出假设、验证假设、推翻假设。问一句：现有的AI模型，真能做到吗？

具体测评流程可以概括为三步：

模型先初始猜测一个序列（比如“3-5-7”），系统反馈“符合”或“不符合”；
模型根据反馈修改猜测，再次提交；
如此反复，直到成功发现规则为止。测试会记录模型尝试的次数、以及最终能否精确说出规则。

这套流程模拟的就是科学家做实验的思维闭环。你可能会觉得：这不就是猜谜吗？没错，但正是这种“看似简单”的游戏，暴露了当前大模型的短板。

研究意义在哪？

其实，这类测评补齐了AI能力评估的一块空白。以前大家更关注模型记了多少知识、能不能写诗，却很少考它“自己找规律”的本事。FALSIFYBENCH强迫模型去推理、去试错，而非单纯匹配训练数据里的模式。以目前公开的信息看，这个框架已经在多个主流模型上做了初步测试（具体数据未在源材料中公开），结果想必会引发不少讨论。

归纳推理能力，听起来高深，本质上就是咱们日常生活里“举一反三”的本事。如果说连规则发现游戏里的隐藏规则都找不到，那AI要真在实验室里做出原创发现，恐怕还差得很远。这算是一块试金石吧。