动态模型合并瘦身法优化精度与效率迎来一项新进展。
现有动态合并方法的瓶颈在哪?研究人员在arXiv:2605.18904v1中指出了问题核心。目前,动态模型合并虽然能灵活激活任务相关参数,但多数框架要么保留一个庞大的共享模型再外挂小专家,要么给专家分配过多的计算容量。这就导致一个矛盾:想提升精度就得堆参数,想提高效率就得砍容量,两者很难兼得。其实,这种“既要又要”的困境在深度学习领域并不少见,但这次论文团队确实给出了一个挺有意思的答案。

他们提出的DiDi-Merging框架走了一条截然不同的路。这套方案的核心在于“差异化可微路由”,它不再依赖传统的固定专家结构,而是让模型自己学会如何为不同任务分配最精简的参数组合。听起来很玄乎是吗?说白了,就是把决策权交还给模型本身,让它动态决定哪些参数该合并、哪些该激活。这就真的挺像一个“瘦身法”——不是盲目减重,而是精准去掉冗余脂肪,保留核心机能。
从技术路线上看,DiDi-Merging最大的突破在于引入了连续可微的路由策略。过去的方法往往只能做到离散选择,激活哪个专家、合并哪些层都是硬编码的规则。现在,这个框架将路由选择变成一个可训练的过程,整个系统能端到端优化。咱们想想看,这意味着什么?意味着模型不再需要人为预设的规则来指导合并,而是从数据中自主习得最优的协作模式。

效率提升的另一个关键在于参数共享机制。DiDi-Merging没有像传统方案那样给每个任务都保留一套完整的专家子网络,而是通过可微路由让不同任务共享大部分基础参数,仅在必要时激活极少量的任务特定参数。这既降低了模型整体的体量,又不牺牲任务间的差异化表达。可以说,这种设计思路把“合并”与“瘦身”真正统一到了一个框架里。
对于实际应用场景来说,这套方法的价值相当直观。当模型需要同时处理多项任务时,不需要再维护多个独立的微调版本,也不用担心合并后的精度下降。DiDi-Merging提供了一个自动化的平衡方案——它能在保持高精度的前提下,显著降低推理阶段的计算负荷。这不正是当前大模型落地时最头疼的痛点之一吗?
当然,这项研究目前还停留在学术验证阶段,代码和完整实验设置尚未开源。但论文中展示的对比结果已经足够让人期待。动态模型合并这个方向,终于有了一个真正兼顾精度与效率的“瘦身法”。未来能否进一步扩展到更大规模的模型集群,值得持续关注。