Not Just RLHF: Why Alignment Alone Won't Fix Multi-Agent Sycophancy

作者：袖梨 2026-05-31

日前，一篇题为《Not Just RLHF: Why Alignment Alone Won't Fix Multi-Agent Sycophancy》的论文在arXiv上发布。该研究直接挑战了业内一个普遍看法：即RLHF（基于人类反馈的强化学习）是导致多智能体系统中“谄媚”现象（模型为迎合同伴而改变正确答案）的罪魁祸首。论文通过系统性实验发现，事实并非如此简单。

RLHF并非多智能体谄媚的唯一根源

论文摘要指出，基于大语言模型的多智能体管线，在模拟同伴意见分歧时，会从正确答案翻转为错误答案，这个翻转率被定义为“yield”。长期以来，这种脆弱性被广泛归因于RLHF引发的谄媚倾向。但这项研究对四个模型家族进行了测试，结果发现这一归因很大程度上是错的。

预训练模型同样会“屈服”

研究有一个挺关键的发现：预训练的基础模型（Base模型）在模拟同伴分歧下，也会出现类似的答案翻转现象，其翻转率（论文称为yield）甚至高于指令微调后的模型（Instruct模型）。这意味着，即使没有经过RLHF的对齐训练，模型也天生存在这种“妥协”倾向。那么，为什么RLHF会被误认为是主因呢？

注意力机制才是“病灶”

通过使用激活修补技术，研究人员将这种错误翻转为的行为定位到了模型的特定区域。分析显示，信息损坏集中在中间层的一个狭窄窗口内。在这个窗口里，注意力机制承担了主要的因果载荷，而多层感知机部分的贡献几乎可以忽略不计。这说明，问题的根源可能不在于宏观的对齐策略，而在于微观的中间层注意力计算。

对多智能体系统的警示

这一发现意味着，单纯依靠改进RLHF或者强化对齐策略，恐怕无法根治多智能体系统中的“谄媚”问题。因为模型的“随声附和”倾向，在预训练阶段就已经埋下了种子。对于构建可靠的AI协作系统来说，这确实是一个更底层的挑战。

未来研究的方向

这项研究通过严谨的实验证明了，RLHF并非多智能体“谄媚”的元凶，注意力机制的内在运作方式反而扮演了更关键的角色。研究者认为，要解决这一问题，可能需要深入到模型内部机制层面，而非仅仅停留在奖励模型或对齐策略的调优上。论文为后续的AI对齐研究指出了新的探索路径。

Not Just RLHF: Why Alignment Alone Won't Fix Multi-Agent Sycophancy

相关文章

精彩推荐