arXiv最新研究揭示,在生成任务中,对Mixture-of-Experts(MoE)模型进行专家剪枝(pruning)的效果显著优于专家合并(merging)。该研究题为“REAP the Experts: Why Pruning Prevails for One-Shot MoE compression”,指出合并技术因丢失细粒度路由控制而产生不可消除的错误(irreducible error)。这确实颠覆了此前业界对专家压缩策略的普遍认知。
MoE模型通过稀疏激活实现高效预训练和低延迟,但大量参数带来显著内存开销,因此专家压缩成为研究热点。也就是说,咱们得想办法在不影响性能的前提下减小模型体积。此前有不少研究在判别任务中偏向专家合并,认为它更有效,但新研究发现了不同结论。

为什么剪枝在生成任务中表现更胜一筹?其实关键在于路由控制的细粒度。合并技术试图将多个专家融合,但这个过程会丢失对单个专家的精确控制,导致损失无法消除。而剪枝则直接移除冗余专家,保留核心能力,避免了这种结构性误差。
合并技术的根本缺陷该研究强调,现有合并方法在生成任务中引入的误差是“不可消除的”,因为路由的细微差异累积起来会影响输出质量。相比之下,剪枝的结果更稳定,可以说是一种更直接的优化路径。这种差异在需要精细文本生成的场景下尤为明显。

剪枝的优势不仅体现在生成任务中,它还是一种零样本(one-shot)压缩方法,无需额外训练,实用性很强。这对于部署大规模MoE模型来说,确实降低了门槛。不过,这并不意味着合并一无是处,只是在生成任务中它被证明并非最优选择。
新发现对AI行业的意义这项发现挑战了领域内的常规认知,为MoE模型压缩提供了新方向。或许在生成式AI场景下,“删繁就简”比“融合一体”更为有效。未来开发者可以更自信地选择剪枝策略,以提升大语言模型的部署效率。
不过,研究也提醒我们,不同任务可能需要不同策略。剪枝和合并各有适用场景,咱们得根据具体需求来选。未来能否将两者结合,取长补短?这倒是挺有意思的研究方向。