多模态视讯生成技术突破,Web3 AI 有何机会?

作者:袖梨 2025-07-07

当 AI 从过去集中式大规模资源调配逐渐趋于模组化协作是一种对去中心化平台的新需求。
(前情提要:嘴撸编年史:从私域到公域,再到 AI 的矛与盾之争
(背景补充:Cloudflare 出杀招!预设「封锁 AI 爬虫」掀起付费抓取内容新战争

 

了 AI 本地化「下沉」之外,AI 赛道近段时间最大的变化莫过于:多模态视讯生成的技术突破了,从原先支援纯文字生成视讯演变成文字 + 影象 + 音讯的全链路整合生成技术。

随便说几个技术突破案例,大家感受下:

1)位元组跳动开源 EX-4D 框架:单目视讯秒变自由视角 4D 内容,使用者认可度达到 70.7%。也就是说,给一个普通视讯,AI 能自动生成任意角度的观看效果,这在以前需要专业的 3D 建模团队才能搞定;

2)百度「绘想」平台:一张图生成 10 秒视讯,宣称可以达到「电影级」品质。但是不是由行销包装夸大的成分,要等 8 月份的 Pro 版本更新后实际看效果;

3)Google DeepMind Veo:可以达到 4K 视讯 + 环境音的同步生成。关键技术亮点是「同步」能力的达成,之前都是视讯和音讯两套系统拼接,要能做到真正语义层面的匹配需要克服较大的挑战,比如複杂场景下,要做到画面中走路动作和脚步声的对应音画同步问题;

4)抖音 ContentV:80 亿引数,2.3 秒生成 1080p 视讯,成本 3.67 元 /5 秒。老实说这个成本控制的还可以,但目前生成品质看,遇到複杂的场景还差强人意;

为什么说这些案例在视讯品质、生成成本、应用场景等方面的突破,价值和意义都很大?

1、技术价值突破方面,一个多模态视讯生成的複杂度往往是指数级的,单帧影象生成大概 10^6 个画素点,视讯要保证时序连贯性(至少 100 帧),再加上音讯同步(每秒 10^4 个取样点),还要考虑 3D 空间一致性。

综合下来,技术複杂度可不低,原本都是一个超大模型硬刚所有任务,据说 Sora 烧了数万张 H100 才具备的视讯生成能力。现在可以通过模组化分解 + 大模型分工协作来实现。比如,位元组的 EX-4D 实际上是把複杂任务拆解成:深度估计模组、视角转换模组、时序插值模组、渲染优化模组等等。每个模组专门干一件事,然后通过协调机制配合。

2、成本缩减方面:背后其实推理架构本身的优化,包括分层生成策略,先低解析度生成骨架再高分辨增强成像内容;快取複用机制,就是相似场景的複用;动态资源分配,其实就是根据具体内容複杂度调整模型深度。

这样一套优化下来,才会有抖音 ContentV 的 3.67 元 /5 秒的结果。

3、应用冲击方面,传统视讯製作是重资产游戏:装置、场地、演员、后期,一个 30 秒广告片几十万製作费很正常。现在 AI 把这套流程压缩到 Prompt+ 几分钟等待,而且能实现传统拍摄难以达到的视角和特效。

这样一来就把原本视讯製作存在的技术和资金门槛变成了创意和审美,可能会促进整个创作者经济的再洗牌。

问题来了,说这么多 web2AI 技术需求端的变化,和 web3AI 有啥关係呢?

1、首先,算力需求结构的改变,以前 AI 拼算力规模,谁有更多同质化的 GPU 丛集谁就赢,但多模态视讯生成需求的是多样化的算力组合,对于分散式的闲置算力,以及各个分散式微调模型、演算法、推理平台上都可能产生需求;

2、其次,资料标注的需求也会加强,生成一个专业级视讯需要:精準的场景描述、参考影象、音讯风格、摄像机运动轨迹、光照条件等等都会成为专业的资料标注新需求,用 web3 的激励方式,可以刺激摄影师、音效师、3D 艺术家等提供专业的资料素,用专业垂类的资料标注增强 AI 视讯生成的能力;

3、最后,值得一说的是,当 AI 从过去集中式大规模资源调配逐渐趋于模组化协作本身就是一种对去中心化平台的新需求。届时算力、资料、模型、激励等共同组合形成自我强化的飞轮,继而带动 web3AI 和 web2AI 场景的大融合。

相关文章

精彩推荐