在语言模型输出的最后一层,答案已然出错,但内部状态其实早已埋下矛盾的信号——这件事,被一个叫TriLens的新方法抓住了。日前,一项名为“TriLens: Per-Layer Logit-Lens Entropy for White-Box Hallucination Detection”的研究(arXiv:2606.01033v1)正式发布,提出一套白盒检测框架,能从模型每一层内部读取各模块信号,利用Logit透镜计算熵值,精准定位幻觉发生的位置。
原理很简单:模型里头的“分歧”会留下痕迹。

当一个大型语言模型胡编乱造时,最终的答案虽然错了,但错误在模型内部并非无迹可寻。不同的内部通路——比如自注意力模块、前馈网络、残差流——可能会互相吵架,有的迟疑不决,有的过早“定调”,有的则固执地跟随一条错误分支。TriLens正是抓住了这种内部分歧。它凭什么判断模型在信口开河?靠的就是逐层读取这些模块的输出,再通过Logit透镜映射到词汇空间,最后记录下每一层的熵值——熵越大,说明内部越混乱,幻觉风险越高。
那它到底是怎么工作的呢?
说白了,TriLens就像一个潜望镜,把模型运算过程中每一层“开会”的情况都拍下来。具体来说,它会在每一层同时做三件事:读取多头自注意力模块的输出、读取前馈网络的输出、以及读取残差流的状态。这三路信号各自经过模型的Logit透镜(也就是把内部表示投影回词汇概率分布的机制),形成三个独立的熵值。这套流程其实挺直观的:一个正常生成答案的模型,内部各层的熵会平稳收敛;而一个即将幻觉的模型,熵值会在某些层突然跳升或长期震荡。
这种设计带来了什么好处?
整体来看,TriLens算是给白盒幻觉检测找到了一条新路——它不依赖外部知识库,不靠答案一致性投票,而是真的钻进模型内部去“抓现行”。这种思路对于理解语言模型为何犯错、如何修复,确实挺有价值的。未来,这套方法或许能集成到模型训练或推理管线中,让开发者实时看到幻觉的“心电图”,在输出之前就提前预警。