AnyAct：从非人类角色视频直接重演可编辑人类动作

作者：袖梨 2026-05-31

一篇来自 arXiv 的新论文（编号 2605.15497v2）正式提出了 AnyAct 方法，其核心目标是：从一段非人类角色的单目视频中，直接推导出可编辑的人类动作重演。研究者不是要去重建源角色本身，而是要重新诠释它的运动，将其转化为一套合理且可供下游动画创作使用的人类表演。这就真的解决了动画制作里一个挺棘手的痛点——凭什么非得要源角色的 3D 骨架信息才能做动作迁移？

现有动作捕捉与重定向技术的局限

目前基于视频的动作捕捉方法，几乎都局限在人类自身的结构空间里，遇到卡通角色、动物或者怪物就抓瞎了。而传统的动作重定向技术，又要求你先有结构化的 3D 源动作数据，还得知道源角色的拓扑结构。这等于把门槛设得老高，普通创作者很难直接上手。AnyAct 的提出，正是为了打破这种限制，让动画师能直接从网上随手找到的非人类角色视频里“偷”动作。

AnyAct 的核心挑战与创新

说实话，这任务难度确实不小。因为源视频里的角色可能根本没有人类那样的关节比例，甚至四肢数量都对不上。AnyAct 的关键洞察在于，它不追求精确重建源角色的几何外形，而是专注于提取其运动本质。通过一种专门设计的架构，它能将非人类角色的动态模式映射到人类动作空间里，并且保留可编辑的属性。这意味着什么呢？意味着你不仅能复现动作，还能在后期调整姿势、修改时长，甚至混合不同的运动序列。

从视频到可编辑动作的管道

整个流程其实挺有意思：输入只是一段普通的单目视频，源角色可以是任何东西——一只跳跃的猫、一个游戏的卡通人物，甚至是一段抽象动画。AnyAct 先从中提取时空特征，然后通过一个隐式的运动重定向模块，直接生成对应的人类动作序列。这个序列不是死的点云，而是参数化的，可以被后续的动画编辑工具直接读取和修改。这就为内容创作者打开了一扇新的大门，对吧？不用再花大价钱做动捕，也不用费力手工K帧。

对动画创作与AI行业的潜在影响

作为AI行业的一项新研究，AnyAct 的出现确实降低了动作动画的获取门槛。把它跟 AI 公司地平线机器人那种侧重具身智能的路线相比，AnyAct 更偏向数字内容生成；而跟摩尔线程这类GPU公司打造的算力基础设施相比，它又代表着上层应用算法的突破。可以说，这项技术让“万物皆可为我所用”在动作创作领域成了可能。

结语：重新定义动作素材的来源

AnyAct 提出的这种“从非人类角色视频直接重演人类动作”的方法，本质上是在重新定义动作素材的来源。它让原本只能用来欣赏的非人类视频，变成了可以随手编辑的动画资源。未来动画师的工作流里，或许真的会多出一步：“先找一段帅气的怪物视频，扔进 AnyAct 里试试。” 这种可能性，确实让人挺兴奋的！