TriLens：逐层Logit透镜熵实现白盒幻觉检测

作者：袖梨 2026-06-03

在语言模型输出的最后一层，答案已然出错，但内部状态其实早已埋下矛盾的信号——这件事，被一个叫TriLens的新方法抓住了。日前，一项名为“TriLens: Per-Layer Logit-Lens Entropy for White-Box Hallucination Detection”的研究（arXiv:2606.01033v1）正式发布，提出一套白盒检测框架，能从模型每一层内部读取各模块信号，利用Logit透镜计算熵值，精准定位幻觉发生的位置。

原理很简单：模型里头的“分歧”会留下痕迹。

当一个大型语言模型胡编乱造时，最终的答案虽然错了，但错误在模型内部并非无迹可寻。不同的内部通路——比如自注意力模块、前馈网络、残差流——可能会互相吵架，有的迟疑不决，有的过早“定调”，有的则固执地跟随一条错误分支。TriLens正是抓住了这种内部分歧。它凭什么判断模型在信口开河？靠的就是逐层读取这些模块的输出，再通过Logit透镜映射到词汇空间，最后记录下每一层的熵值——熵越大，说明内部越混乱，幻觉风险越高。

那它到底是怎么工作的呢？

说白了，TriLens就像一个潜望镜，把模型运算过程中每一层“开会”的情况都拍下来。具体来说，它会在每一层同时做三件事：读取多头自注意力模块的输出、读取前馈网络的输出、以及读取残差流的状态。这三路信号各自经过模型的Logit透镜（也就是把内部表示投影回词汇概率分布的机制），形成三个独立的熵值。这套流程其实挺直观的：一个正常生成答案的模型，内部各层的熵会平稳收敛；而一个即将幻觉的模型，熵值会在某些层突然跳升或长期震荡。

这种设计带来了什么好处？