动态模型合并瘦身法优化精度与效率

作者：袖梨 2026-05-30

动态模型合并瘦身法优化精度与效率迎来一项新进展。

现有动态合并方法的瓶颈在哪？研究人员在arXiv:2605.18904v1中指出了问题核心。目前，动态模型合并虽然能灵活激活任务相关参数，但多数框架要么保留一个庞大的共享模型再外挂小专家，要么给专家分配过多的计算容量。这就导致一个矛盾：想提升精度就得堆参数，想提高效率就得砍容量，两者很难兼得。其实，这种“既要又要”的困境在深度学习领域并不少见，但这次论文团队确实给出了一个挺有意思的答案。

他们提出的DiDi-Merging框架走了一条截然不同的路。这套方案的核心在于“差异化可微路由”，它不再依赖传统的固定专家结构，而是让模型自己学会如何为不同任务分配最精简的参数组合。听起来很玄乎是吗？说白了，就是把决策权交还给模型本身，让它动态决定哪些参数该合并、哪些该激活。这就真的挺像一个“瘦身法”——不是盲目减重，而是精准去掉冗余脂肪，保留核心机能。

从技术路线上看，DiDi-Merging最大的突破在于引入了连续可微的路由策略。过去的方法往往只能做到离散选择，激活哪个专家、合并哪些层都是硬编码的规则。现在，这个框架将路由选择变成一个可训练的过程，整个系统能端到端优化。咱们想想看，这意味着什么？意味着模型不再需要人为预设的规则来指导合并，而是从数据中自主习得最优的协作模式。

效率提升的另一个关键在于参数共享机制。DiDi-Merging没有像传统方案那样给每个任务都保留一套完整的专家子网络，而是通过可微路由让不同任务共享大部分基础参数，仅在必要时激活极少量的任务特定参数。这既降低了模型整体的体量，又不牺牲任务间的差异化表达。可以说，这种设计思路把“合并”与“瘦身”真正统一到了一个框架里。

对于实际应用场景来说，这套方法的价值相当直观。当模型需要同时处理多项任务时，不需要再维护多个独立的微调版本，也不用担心合并后的精度下降。DiDi-Merging提供了一个自动化的平衡方案——它能在保持高精度的前提下，显著降低推理阶段的计算负荷。这不正是当前大模型落地时最头疼的痛点之一吗？

当然，这项研究目前还停留在学术验证阶段，代码和完整实验设置尚未开源。但论文中展示的对比结果已经足够让人期待。动态模型合并这个方向，终于有了一个真正兼顾精度与效率的“瘦身法”。未来能否进一步扩展到更大规模的模型集群，值得持续关注。