连续流语言模型FLM用确定性ODE突破离散扩散因子化采样瓶颈

作者：袖梨 2026-06-02

连续流语言模型FLM用确定性ODE突破离散扩散因子化采样瓶颈

日前，一篇新论文（arXiv:2605.11125v3）揭示了连续流语言模型（FLM）如何用确定性常微分方程（ODE，一种描述连续变化过程的数学工具）改写了语言生成的规则。简单说，它抛弃了离散扩散模型那种“猜概率”的因子化采样，转而用一条平滑的确定性路径，直接把噪声变成数据。

离散扩散模型的难言之隐

先说说现有的离散扩散语言模型。它们之所以能挑战自回归模型，靠的是并行生成能力——一次性生成整段文本，速度确实快。但问题在于，为了计算方便，它们用了因子化分布来采样，说白了就是每个位置独立地猜下一个词。这就像让一群人各自蒙着眼睛拼图，虽然拼得快，但整体画面难免不协调。它的表达能力真的比自回归模型差吗？事实就摆在眼前：缺乏全局依赖，生成的文本总有点“不对劲”。

FLM的做法：连续流加上确定性ODE

FLM的思路算是另辟蹊径。咱们知道，传统语言模型操作的是离散的token，但FLM干脆把文本转换成一种连续表示——one-hot向量（一种只有0和1的编码方式，每个词对应一个位置为1）。然后，用一个确定性ODE驱动这个过程：从随机噪声出发，沿着一条固定的、可微的路径，一步步演化到真实的文本数据。整个过程没有半点随机采样，每个词的出现都严格由ODE的解决定。这意味着什么？意味着模型完全可以捕捉词与词之间的复杂依赖，而不是独立瞎猜。

代价：计算开销与词汇表规模

不过，天下没有免费的午餐。FLM的代价也挺直接：它的连续向量维度跟词汇表大小一样。要知道，词汇表通常有数万甚至数十万个词，这意味着每一轮计算都要处理一个超大的矩阵。训练成本因此直线上升，这确实是FLM目前最头疼的地方。但你可能会问：既然这条路径在表达能力上赢了，这点成本算不算值得？从论文的初步结果看，答案或许是肯定的。

突破的意义：语言模型终于能“连续思考”了

这个工作的核心突破在于：它用连续的物理过程替代了离散的统计游戏。离散扩散模型采样时，每步都在做独立的选择，就像下围棋时每步只看眼前。而FLM的确定性ODE，则像在棋盘上画出一条连续的进攻路线，每一步都服务于整体策略。说实话，这对文本生成的质量提升是根本性的——尤其对长文本、多轮对话这类需要全局结构的任务而言，效果可能非常明显。

未来方向：成本与效率的博弈

当然，目前FLM还谈不上完美。训练成本高得让人皱眉，要落地到实际产品，看来还得等算法和硬件再进化几轮。不过，路子已经铺好了：用连续流绕开因子化采样的天花板，用确定性ODE保证生成的一致性和可解释性。这确实挺有意思的——当整个行业都在追逐更大的自回归模型时，FLM用一套完全不同的数学工具，回答了“语言模型能不能并行且不失表达力”这个问题。

总之，这项研究给语言模型领域注入了一股清流。它证明了在离散的世界里，连续的方法同样能开花结果。