指令微调导致大语言模型对自身回答过度自信

作者：袖梨 2026-06-05

指令微调导致大语言模型对自身回答过度自信

一项来自arXiv的新研究（编号2606.03437）指出，指令微调（对预训练模型进行特定任务训练，使其能更好遵循人类指令的技术）会大大削弱大语言模型的校准能力（即模型对自己答案正确性的判断准确度）。说白了，模型越被调教成“听话的助手”，就越容易对自己的胡说八道一脸笃定，这难道不是挺讽刺的吗？

指令微调的本质问题

研究人员通过分离“后训练算法”和“聊天格式”两大因素，仔细分析了模型校准变差的具体原因。结果发现，指令微调本身就在根本上破坏了模型的判断力——模型被训练得倾向于给出肯定、积极的回答，哪怕它其实并不确定。这就像让一个从来不敢举手的学生天天被鼓励“大胆发言”，最后他反而变得啥都敢说，却分不清对错。

聊天模板的“所有权偏见”

更麻烦的是，聊天模板的使用让问题雪上加霜。研究中提到一个概念叫“ownership bias”（所有权偏见），意思是模型对聊天历史中自己生成的回答特别“护犊子”，哪怕用户提出质疑，模型也更倾向于维护自己之前的说法。这就造成一个循环：模型先给出一个可能错误的答案，然后在对话中不断强化它，最后自信满满地坚持下去。实际上，咱们平时跟AI聊天时，确实会碰到它死活不肯承认错误的情况，对吧？

对实际应用的影响

这种过度自信的危害可不小。在医疗、法律等需要高准确性的场景里，AI如果答错还一脸肯定，用户很容易被误导。毕竟，连模型自己都搞不清楚什么时候该说“我不确定”，那咱们人类用户凭什么要相信它呢？研究已经明确提到，指令微调后的模型校准远不如其原始预训练版本，这意味着工厂式的微调训练让模型变得“勇敢”却“盲目”。

后续方向值得关注

好在研究也点明了问题根源：指令微调的算法设计和聊天模板的形式需要重新思考。也许未来可以通过更平衡的训练数据、或者加入“不确定性提示”来缓解这个问题。不过，这确实需要整个AI行业一起努力，毕竟让模型学会“说不知道”和让它学会“回答问题”一样重要。整件事说白了，就是咱们教会了AI自信，却没教它什么场合该谦虚。

指令微调导致大语言模型对自身回答过度自信

相关文章

精彩推荐