扩散语言模型提出可学习去掩码策略以优化采样过程
日前,来自arXiv的一篇新论文(编号2512.09106v4)提出了扩散语言模型中的可学习去掩码策略,试图替代传统的启发式采样方法。这项研究直指当前扩散语言模型(dLLM)的核心痛点——采样效率与生成质量的平衡问题。dLLM是一种在推理阶段有望比自回归模型更高效的生成式语言模型,而采样策略决定了每一步究竟该解开哪些被遮罩的token。

问题在哪里?
其实,现有的dLLM已经能在很多下游任务上匹敌自回归模型的性能,但采样策略一直是个老大难。此前的研究发现,像置信度阈值这样的启发式策略,确实比随机去掩码能提升样本质量和token吞吐量。可这种策略的缺点也挺明显——它需要人工手动调整参数,这就意味着模型不一定能自适应不同的数据分布或推理阶段。毕竟,靠“拍脑袋”定规则,真的能发挥出dLLM的全部潜力吗?
咱们来看看这个新策略
这篇论文的思路很直接:把去掩码策略本身也当作一个可学习的模块。也就是说,模型不再是死板地按照固定规则(比如“置信度高于0.8就解开”),而是让网络自己去学会在每一步该优先解遮哪些token。这就像咱们平时考试做题,学霸懂得先挑简单的题拿分,而不会一味死磕难题——可学习的策略正是让模型自己琢磨出这种顺序感。
对比之下优势在哪?
拿启发式策略来比,可学习策略的优势主要有三点:
具体怎么实现?
简单来说,论文在标准的扩散训练框架里,额外加了一个策略网络。这个网络负责输出每个遮罩token的“可被解开”概率,再配合一个可微的采样分布,让整个流程能端到端训练。换句话说,过去token被遮住是因为模型“不确定”,现在模型要学的是“我不确定什么时候该让这个token被看见”——这不是挺有意思的吗?
未来的想象空间
虽然目前这项工作还停留在论文阶段,但它给dLLM的实用化指了一条明路。毕竟,如果能在不牺牲质量的前提下,把采样步数从几十步压缩到几步,那dLLM在实时对话、图像生成等场景下的优势将会巨大。现在咱们可以期待,后续的研究是否会把这个可学习策略推广到更大规模的语言模型上。