AnyAct:从非人类角色视频直接重演可编辑人类动作

作者:袖梨 2026-05-31

一篇来自 arXiv 的新论文(编号 2605.15497v2)正式提出了 AnyAct 方法,其核心目标是:从一段非人类角色的单目视频中,直接推导出可编辑的人类动作重演。研究者不是要去重建源角色本身,而是要重新诠释它的运动,将其转化为一套合理且可供下游动画创作使用的人类表演。这就真的解决了动画制作里一个挺棘手的痛点——凭什么非得要源角色的 3D 骨架信息才能做动作迁移?

现有动作捕捉与重定向技术的局限

目前基于视频的动作捕捉方法,几乎都局限在人类自身的结构空间里,遇到卡通角色、动物或者怪物就抓瞎了。而传统的动作重定向技术,又要求你先有结构化的 3D 源动作数据,还得知道源角色的拓扑结构。这等于把门槛设得老高,普通创作者很难直接上手。AnyAct 的提出,正是为了打破这种限制,让动画师能直接从网上随手找到的非人类角色视频里“偷”动作。

AnyAct 的核心挑战与创新

说实话,这任务难度确实不小。因为源视频里的角色可能根本没有人类那样的关节比例,甚至四肢数量都对不上。AnyAct 的关键洞察在于,它不追求精确重建源角色的几何外形,而是专注于提取其运动本质。通过一种专门设计的架构,它能将非人类角色的动态模式映射到人类动作空间里,并且保留可编辑的属性。这意味着什么呢?意味着你不仅能复现动作,还能在后期调整姿势、修改时长,甚至混合不同的运动序列。

从视频到可编辑动作的管道

整个流程其实挺有意思:输入只是一段普通的单目视频,源角色可以是任何东西——一只跳跃的猫、一个游戏的卡通人物,甚至是一段抽象动画。AnyAct 先从中提取时空特征,然后通过一个隐式的运动重定向模块,直接生成对应的人类动作序列。这个序列不是死的点云,而是参数化的,可以被后续的动画编辑工具直接读取和修改。这就为内容创作者打开了一扇新的大门,对吧?不用再花大价钱做动捕,也不用费力手工K帧。

对动画创作与AI行业的潜在影响

作为AI行业的一项新研究,AnyAct 的出现确实降低了动作动画的获取门槛。把它跟 AI 公司地平线机器人那种侧重具身智能的路线相比,AnyAct 更偏向数字内容生成;而跟摩尔线程这类GPU公司打造的算力基础设施相比,它又代表着上层应用算法的突破。可以说,这项技术让“万物皆可为我所用”在动作创作领域成了可能。

结语:重新定义动作素材的来源

AnyAct 提出的这种“从非人类角色视频直接重演人类动作”的方法,本质上是在重新定义动作素材的来源。它让原本只能用来欣赏的非人类视频,变成了可以随手编辑的动画资源。未来动画师的工作流里,或许真的会多出一步:“先找一段帅气的怪物视频,扔进 AnyAct 里试试。” 这种可能性,确实让人挺兴奋的!

相关文章

精彩推荐