扩散语言模型提出可学习去掩码策略以优化采样过程

作者：袖梨 2026-06-05

扩散语言模型提出可学习去掩码策略以优化采样过程

日前，来自arXiv的一篇新论文（编号2512.09106v4）提出了扩散语言模型中的可学习去掩码策略，试图替代传统的启发式采样方法。这项研究直指当前扩散语言模型（dLLM）的核心痛点——采样效率与生成质量的平衡问题。dLLM是一种在推理阶段有望比自回归模型更高效的生成式语言模型，而采样策略决定了每一步究竟该解开哪些被遮罩的token。

问题在哪里？

其实，现有的dLLM已经能在很多下游任务上匹敌自回归模型的性能，但采样策略一直是个老大难。此前的研究发现，像置信度阈值这样的启发式策略，确实比随机去掩码能提升样本质量和token吞吐量。可这种策略的缺点也挺明显——它需要人工手动调整参数，这就意味着模型不一定能自适应不同的数据分布或推理阶段。毕竟，靠“拍脑袋”定规则，真的能发挥出dLLM的全部潜力吗？

咱们来看看这个新策略

这篇论文的思路很直接：把去掩码策略本身也当作一个可学习的模块。也就是说，模型不再是死板地按照固定规则（比如“置信度高于0.8就解开”），而是让网络自己去学会在每一步该优先解遮哪些token。这就像咱们平时考试做题，学霸懂得先挑简单的题拿分，而不会一味死磕难题——可学习的策略正是让模型自己琢磨出这种顺序感。

对比之下优势在哪？

拿启发式策略来比，可学习策略的优势主要有三点：

自适应性强——它不需要人为设定阈值，模型可根据当前输入动态调整去掩码优先级。
效率更高——因为策略是学出来的，理论上能更早解除对最终输出贡献最大的token，减少无用计算。
质量更稳——人工规则难免会有“一刀切”的毛病，而可学习策略能兼顾不同位置的token特性，生成文本更流畅。

具体怎么实现？

简单来说，论文在标准的扩散训练框架里，额外加了一个策略网络。这个网络负责输出每个遮罩token的“可被解开”概率，再配合一个可微的采样分布，让整个流程能端到端训练。换句话说，过去token被遮住是因为模型“不确定”，现在模型要学的是“我不确定什么时候该让这个token被看见”——这不是挺有意思的吗？

未来的想象空间

虽然目前这项工作还停留在论文阶段，但它给dLLM的实用化指了一条明路。毕竟，如果能在不牺牲质量的前提下，把采样步数从几十步压缩到几步，那dLLM在实时对话、图像生成等场景下的优势将会巨大。现在咱们可以期待，后续的研究是否会把这个可学习策略推广到更大规模的语言模型上。