MotionMERGE：多粒度人体运动编辑与生成统一框架

作者：袖梨 2026-06-02

日前，arXiv上发布了一项新研究——MotionMERGE：多粒度人体运动编辑与生成统一框架。这篇论文（编号arXiv:2605.18956v1）首次尝试将细粒度语言理解融入人体运动模型，解决现有技术无法精准控制局部肢体动作的痛点。其实，传统方法只能处理“跑步”这类粗粒度指令，但动画师需要的可是“左臂摆动幅度减小10%”这种精准要求。

这个框架到底解决了什么问题？现在主流的人体运动语言模型虽然能完成理解、生成等任务，但操作粒度太粗，根本没法细致地控制脚踝、手腕这些部位。这背后既有模型结构的问题——它无法聚焦运动中的局部模式，也有训练数据的问题——缺乏细粒度标注。凭什么说动画师得靠手动调帧？因为现有工具不够智能，而MotionMERGE正是要打破这个僵局。

MotionMERGE的核心思路是架起粒度之间的桥梁。它首创了对细粒度语言的研究，让模型既能理解“跳起来转体360度”这种整体动作，也能处理“右手在转身时保持水平”这种局部指令。可以说，这项研究把人体运动编辑和生成统一到了一个框架里，让控制精度从“全身”下沉到“关节”。

这确实是个挺重要的突破。对于游戏动画、人机交互、虚拟现实这些领域，未来咱们可能只需要说一句话，就能让角色做出既符合逻辑又足够精细的动作。试想一下，如果动作捕捉数据残缺，或者导演想调整某个角色的呼吸节奏，传统方法就要重做，而MotionMERGE直接在语言层面就能完成局部修正——这不正是行业一直想要的吗？