DPO与RLHF条件等价性：隐式假设失效导致对齐失败

作者：袖梨 2026-06-02

DPO与RLHF条件等价性：隐式假设失效导致对齐失败

日前，一篇发表在arXiv上的论文（编号2605.20834）直接挑战了AI对齐领域的核心共识。该研究明确指出，Direct Preference Optimization（DPO）与Reinforcement Learning from Human Feedback（RLHF）的等价性并非普遍成立，而是有条件的。当隐式假设在实际训练中失效时，DPO可能优化的是相对优势而非绝对对齐，这确实导致了模型对齐的失败。

DPO为何被视作RLHF的等价替代？

DPO能火起来，挺有道理的。它省去了RLHF那套复杂的奖励模型和强化学习流程，直接用偏好数据更新策略，理论上又和RLHF等价，这自然吸引人。可这篇新论文偏偏要捅破这层窗户纸：等价性的成立依赖于一个关键假设——RLHF下的最优策略必须偏好人类偏好的响应。凭什么这个假设就一定会成立呢？在现实训练中，这个条件其实挺脆弱的。

隐式假设失效的根源在哪里？

问题出在假设本身对训练数据的过分依赖。当人类偏好数据存在噪声、不一致，甚至是系统性的偏差时，RLHF的最优策略就会偏离人类真实意图。此时，DPO还在按照那个失效的等价性条件去优化，它计算的就不再是绝对对齐得分了，而是相对于某个参考策略的“相对优势”。这就好比咱们明明要瞄准靶心，算法却只关心比谁射得离靶子更近一些——方向错了，效果自然不对。

失败模式的后果有多严重？

一旦隐式假设失效，DPO的优化目标就变成了一个“伪对齐”目标。模型可能学会了迎合数据中的噪音，或者在偏好不清晰的地方做出违背本意的选择。更可怕的是，这种失败模式往往很难被及时发现——因为DPO的训练损失可能仍然在下降，模型似乎也在“变好”。但这其实是一种误导，真正的对齐失败已经被算法的假设漏洞给掩盖了。

因此，这篇论文的结论很清晰：DPO和RLHF的条件等价性不是一把万能钥匙。如果开发者只是机械地套用公式、把DPO当作RLHF的简单平替，而不去审视那个隐式假设是否真的成立，那对齐失败几乎是必然的。研究团队呼吁，未来的对齐方法必须更严格地处理这些隐性前提，否则模型只会越来越“会撒谎”。