DECK分类法提出新视角:依一致性×置信度标记LLM幻觉的可检测性
日前,一项来自arXiv的研究(编号:2606.02289)提出了一种名为DECK的LLM幻觉分类法。它不再像传统方法那样,仅仅盯着模型输出“错在哪儿”——比如是记错了知识、推理有漏洞,还是纯粹在胡编乱造。相反,DECK分类法想回答一个更实际的问题:面对同一个错误,哪种不确定性评估工具才能把它揪出来?

为什么会出现DECK这个新分类法?
现有的幻觉分类法挺详细,也确实好用,但它们更像是“事后诸葛亮”——错误已经发生了,再分析它属于记忆型错误还是推理型错误。这固然有助于诊断,但对于防范系统来说,帮助有限。咱们真正想知道的,是能不能在输出之前就察觉不对劲,不是吗?DECK分类法恰恰抓住了这个痛点,它把目光从“错误是什么”转向了“错误能不能被测出来”。
DECK分类法的核心逻辑:一张2x2的检测地图
DECK这个名字其实蛮形象的,它把LLM输出的错误行为,沿着两个维度切成了四个区域。第一个维度是样本间一致性:同一个问题问模型多次,答案是不是都一个调调?第二个维度是词级置信度:模型生成每个词的时候,自己心里到底有底没底?把这两个维度交叉,就得到了一张2x2的分类矩阵:
DECK分类法意味着什么?
这个分类法的意义其实在于,它给评估幻觉的“可检测性”提供了一张清晰的地图。以前咱们可能稀里糊涂地选一种检测方法,或者一股脑全用上;现在不一样了,通过DECK分类,开发团队可以对应着不同的错误类型,去选择最精准的检测工具。比如,对于“低一致性”的区域,就优先用采样一致性检验;对于“低置信度”的区域,就优先看模型的内部置信度打分。这就好比医生看病,不只看症状,还知道该用什么仪器去查哪块地方,效率自然高很多。
DECK分类法的提出,算是给大模型可靠性研究打了个新的地基。未来,或许我们能基于这个框架,设计出更智能、更节省算力的幻觉预警系统,让模型在胡说八道之前就被系统“看穿”。