指令微调导致大语言模型对自身回答过度自信

作者:袖梨 2026-06-05

指令微调导致大语言模型对自身回答过度自信

一项来自arXiv的新研究(编号2606.03437)指出,指令微调(对预训练模型进行特定任务训练,使其能更好遵循人类指令的技术)会大大削弱大语言模型的校准能力(即模型对自己答案正确性的判断准确度)。说白了,模型越被调教成“听话的助手”,就越容易对自己的胡说八道一脸笃定,这难道不是挺讽刺的吗?

指令微调的本质问题

研究人员通过分离“后训练算法”和“聊天格式”两大因素,仔细分析了模型校准变差的具体原因。结果发现,指令微调本身就在根本上破坏了模型的判断力——模型被训练得倾向于给出肯定、积极的回答,哪怕它其实并不确定。这就像让一个从来不敢举手的学生天天被鼓励“大胆发言”,最后他反而变得啥都敢说,却分不清对错。

聊天模板的“所有权偏见”

更麻烦的是,聊天模板的使用让问题雪上加霜。研究中提到一个概念叫“ownership bias”(所有权偏见),意思是模型对聊天历史中自己生成的回答特别“护犊子”,哪怕用户提出质疑,模型也更倾向于维护自己之前的说法。这就造成一个循环:模型先给出一个可能错误的答案,然后在对话中不断强化它,最后自信满满地坚持下去。实际上,咱们平时跟AI聊天时,确实会碰到它死活不肯承认错误的情况,对吧?

对实际应用的影响

这种过度自信的危害可不小。在医疗、法律等需要高准确性的场景里,AI如果答错还一脸肯定,用户很容易被误导。毕竟,连模型自己都搞不清楚什么时候该说“我不确定”,那咱们人类用户凭什么要相信它呢?研究已经明确提到,指令微调后的模型校准远不如其原始预训练版本,这意味着工厂式的微调训练让模型变得“勇敢”却“盲目”。

后续方向值得关注

好在研究也点明了问题根源:指令微调的算法设计和聊天模板的形式需要重新思考。也许未来可以通过更平衡的训练数据、或者加入“不确定性提示”来缓解这个问题。不过,这确实需要整个AI行业一起努力,毕竟让模型学会“说不知道”和让它学会“回答问题”一样重要。整件事说白了,就是咱们教会了AI自信,却没教它什么场合该谦虚。

相关文章

精彩推荐