DECK分类法：依一致性×置信度标记LLM幻觉的可检测性

作者：袖梨 2026-06-03

DECK分类法提出新视角：依一致性×置信度标记LLM幻觉的可检测性

日前，一项来自arXiv的研究（编号：2606.02289）提出了一种名为DECK的LLM幻觉分类法。它不再像传统方法那样，仅仅盯着模型输出“错在哪儿”——比如是记错了知识、推理有漏洞，还是纯粹在胡编乱造。相反，DECK分类法想回答一个更实际的问题：面对同一个错误，哪种不确定性评估工具才能把它揪出来？

为什么会出现DECK这个新分类法？

现有的幻觉分类法挺详细，也确实好用，但它们更像是“事后诸葛亮”——错误已经发生了，再分析它属于记忆型错误还是推理型错误。这固然有助于诊断，但对于防范系统来说，帮助有限。咱们真正想知道的，是能不能在输出之前就察觉不对劲，不是吗？DECK分类法恰恰抓住了这个痛点，它把目光从“错误是什么”转向了“错误能不能被测出来”。

DECK分类法的核心逻辑：一张2x2的检测地图

DECK这个名字其实蛮形象的，它把LLM输出的错误行为，沿着两个维度切成了四个区域。第一个维度是样本间一致性：同一个问题问模型多次，答案是不是都一个调调？第二个维度是词级置信度：模型生成每个词的时候，自己心里到底有底没底？把这两个维度交叉，就得到了一张2x2的分类矩阵：

高一致性 × 高置信度：模型很笃定，答案也很固定。这通常是正确回答，但万一错了，就是最难被检测的“硬错误”。
高一致性 × 低置信度：模型虽然每次都给出类似答案，但生成每个词时却底气不足。这种错误，靠置信度评分很容易发现。
低一致性 × 高置信度：模型每次回答不一样，但每次生成时各个词却显得很自信。这类幻觉，只能靠对比多次输出来暴露。
低一致性 × 低置信度：模型既摇摆不定，又每个词都虚。这种错误最明显，基本什么检测工具都能抓到。

DECK分类法意味着什么？

这个分类法的意义其实在于，它给评估幻觉的“可检测性”提供了一张清晰的地图。以前咱们可能稀里糊涂地选一种检测方法，或者一股脑全用上；现在不一样了，通过DECK分类，开发团队可以对应着不同的错误类型，去选择最精准的检测工具。比如，对于“低一致性”的区域，就优先用采样一致性检验；对于“低置信度”的区域，就优先看模型的内部置信度打分。这就好比医生看病，不只看症状，还知道该用什么仪器去查哪块地方，效率自然高很多。

DECK分类法的提出，算是给大模型可靠性研究打了个新的地基。未来，或许我们能基于这个框架，设计出更智能、更节省算力的幻觉预警系统，让模型在胡说八道之前就被系统“看穿”。