Distillation of Large Language Models via Concrete Score Matching

作者：袖梨 2026-06-03

大语言模型蒸馏迎来新解法：Concrete Score Matching 直击logit信息损失

在arXiv新近公开的论文中，研究者提出了一种名为Concrete Score Distillation (CSD) 的知识蒸馏方法，旨在解决大语言模型部署成本高昂的难题。这个方法直接针对现有蒸馏技术中logit信息被模糊化的痛点，提出一套离散得分匹配目标，算是给蒸馏领域的瓶颈带来了一个挺实在的突破口。

现有蒸馏方法为何会丢失关键信息？

目前流行的知识蒸馏（KD）大多用softmax函数来对齐学生与教师模型的概率分布。但softmax会放大高概率、压制低概率，把那些用于区分细微逻辑差异的logit信息给“缩”没了。而直接logit蒸馏（DLD）虽然绕开了softmax的平滑效应，却忽略了logit的平移不变性——说白了，它只管数值大小，不管相对位置，导致解空间被限制得死死的。问题来了：连教师模型自己都分不清哪些logit差异是关键的，学生模型凭什么能学到真本事呢？

CSD如何通过Concrete Score Matching破局？

CSD的核心思路是将蒸馏目标从概率空间拉回到离散得分空间。具体来说，它没有简单地去匹配logit的绝对值，而是把大语言模型推理过程里的token预测当成离散数据，然后用Concrete分布（连续化的离散分布）来定义得分函数。这样既避免了softmax对尾部分布的过度压缩，又通过连续松弛（relaxation）保留了logit的相对序关系——咱们可以把这理解成：教师模型不是丢给学生一张“结论列表”，而是教它“为什么这个token比那个更可能”的推理依据。

对比KD：KD像让学生临摹教师的答案，CSD像让学生理解教师的思考过程。
对比DLD：DLD只看答案的数值，CSD看的是数值背后的排序逻辑。

这套方法的实际意义何在？

对于需要落地部署大模型的公司来说，在推理阶段用蒸馏后的轻量化模型替换原始模型，是控制算力成本的关键。CSD的方案让蒸馏损失函数能更忠实地传递教师模型的logit结构——这其实意味着：学生模型在保持少算力的同时，能学到更多逻辑上的细微差别。你可能会问：效果提升真的明显吗？据论文实验，在多个标准基准测试上，CSD蒸馏出的模型性能确实优于KD和DLD，尤其在需要精细区分的推理任务上。

整体来看，Concrete Score Distillation算是给大语言模型知识蒸馏提供了一条更符合直觉的路径。它不靠复杂架构改动，而是从损失函数的本质出发，纠正了softmax和直接logit方案各自的偏科问题。对于AI行业里那些想在效率和精度之间找平衡的团队来说，这篇工作无疑是个挺值得关注的方向。

Distillation of Large Language Models via Concrete Score Matching

相关文章

精彩推荐