DECK分类法:依一致性×置信度标记LLM幻觉的可检测性

作者:袖梨 2026-06-03

DECK分类法提出新视角:依一致性×置信度标记LLM幻觉的可检测性

日前,一项来自arXiv的研究(编号:2606.02289)提出了一种名为DECK的LLM幻觉分类法。它不再像传统方法那样,仅仅盯着模型输出“错在哪儿”——比如是记错了知识、推理有漏洞,还是纯粹在胡编乱造。相反,DECK分类法想回答一个更实际的问题:面对同一个错误,哪种不确定性评估工具才能把它揪出来?

为什么会出现DECK这个新分类法?

现有的幻觉分类法挺详细,也确实好用,但它们更像是“事后诸葛亮”——错误已经发生了,再分析它属于记忆型错误还是推理型错误。这固然有助于诊断,但对于防范系统来说,帮助有限。咱们真正想知道的,是能不能在输出之前就察觉不对劲,不是吗?DECK分类法恰恰抓住了这个痛点,它把目光从“错误是什么”转向了“错误能不能被测出来”。

DECK分类法的核心逻辑:一张2x2的检测地图

DECK这个名字其实蛮形象的,它把LLM输出的错误行为,沿着两个维度切成了四个区域。第一个维度是样本间一致性:同一个问题问模型多次,答案是不是都一个调调?第二个维度是词级置信度:模型生成每个词的时候,自己心里到底有底没底?把这两个维度交叉,就得到了一张2x2的分类矩阵:

  1. 高一致性 × 高置信度:模型很笃定,答案也很固定。这通常是正确回答,但万一错了,就是最难被检测的“硬错误”。
  2. 高一致性 × 低置信度:模型虽然每次都给出类似答案,但生成每个词时却底气不足。这种错误,靠置信度评分很容易发现。
  3. 低一致性 × 高置信度:模型每次回答不一样,但每次生成时各个词却显得很自信。这类幻觉,只能靠对比多次输出来暴露。
  4. 低一致性 × 低置信度:模型既摇摆不定,又每个词都虚。这种错误最明显,基本什么检测工具都能抓到。

DECK分类法意味着什么?

这个分类法的意义其实在于,它给评估幻觉的“可检测性”提供了一张清晰的地图。以前咱们可能稀里糊涂地选一种检测方法,或者一股脑全用上;现在不一样了,通过DECK分类,开发团队可以对应着不同的错误类型,去选择最精准的检测工具。比如,对于“低一致性”的区域,就优先用采样一致性检验;对于“低置信度”的区域,就优先看模型的内部置信度打分。这就好比医生看病,不只看症状,还知道该用什么仪器去查哪块地方,效率自然高很多。

DECK分类法的提出,算是给大模型可靠性研究打了个新的地基。未来,或许我们能基于这个框架,设计出更智能、更节省算力的幻觉预警系统,让模型在胡说八道之前就被系统“看穿”。

相关文章

精彩推荐