开源的风吹到视频生成：阿里开源登顶VBench的万相大模型：一手实测来了

作者：袖梨 2026-07-03

在这段视频中，万相严格遵循了文本描述。为了呈现多元种族，画面里有白人小哥、黑人小姐姐，他们跳舞、畅饮。即使生成多主体的运动镜头，画面也并未崩坏。

此外，万相不仅能看懂中文，还能 get 到英文。

物理建模

让模型从大量的视频数据中学到物理规律是所有视频生成模型的共同目标，因为违背物理规律的视频（比如椅子凭空飞起）会被鉴定为「一眼 AI」。万相大模型在这方面的表现让我们看到了视频生成大模型在学习物理规律方面的进展。

如下所示，我们给出的 prompt：透明玻璃杯在桌面倾倒，牛奶缓慢流出，液体在桌面形成蜿蜒流动轨迹，微距镜头展现液体表面张力，写实风格。

可以看到，模型展示出了牛奶流到桌上之后的动态痕迹，而且考虑了牛奶的粘稠度。杯子的反光特性以及牛奶与杯子接触留下的液膜也在视频中得到了还原。

而在下面这个草莓入水的视频中，模型则很好地展示了草莓和水之间复杂的相互作用力以及水珠的透明感，结合对特写和微距摄影的技巧运用，完整还原了草莓坠入水中那一刻的物理之美。

Prompt: 一颗草莓坠入清澈透明的水中，草莓轻轻旋转下沉，特写镜头捕捉这一刻的动态美，微距摄影风格，强调水珠的透明感和草莓的鲜艳色泽。

当然，除了下载开源模型，我们还可以通过通义万相的网页端直接体验新模型。

该网页端功能十分强大，支持文生视频、图生视频、首尾帧生成以及视频配乐等多种功能。在实际测试中，这些功能都展现出了良好的效果，凸显了其在广告、短视频等领域的应用潜力。

譬如我们上传一张图片，然后输入 Prompt：女生随着音乐跳舞。

通义万相立马就能让静态的画面动起来，主角的动作表情也更加丰富。

万相大模型核心技术创新

那么，问题来了，万相大模型是如何实现生成能力突破的呢？主要是两大核心创新。一个是高效的因果 3D VAE，另一个则是视频 Diffusion Transformer 。

高效的因果 3D VAE

万相团队自研了一种专为视频生成设计的新型因果 3D VAE 架构，并结合多种策略来改进时空压缩、降低内存使用以及确保时间因果性。

万相大模型视频 VAE。

实验结果表明，万相的视频 VAE 在各项指标上均表现出极具竞争力的性能。在相同的硬件环境（单个 A800 GPU）下，万相的 VAE 重建速度比现有的最先进方法（如 HunYuanVideo）快 2.5 倍。

视频 Diffusion Transformer

万相模型架构基于主流的视频 DiT 结构，通过 Full Attention 机制确保长时程时空依赖的有效建模，实现时空一致的视频生成。模型的整体训练则采用了线性噪声轨迹的流匹配（Flow Matching）方法。

如以下模型架构图所示，模型首先使用多语言 umT5 编码器对输入文本进行语义编码，并通过逐层的交叉注意力层，将文本特征向量注入到每个 Transformer Block 的特征空间，实现细粒度的语义对齐。此外，研究者通过一组在所有 Transformer Block 中共享参数的 MLP，将输入的时间步特征 T 映射为模型中 AdaLN 层的可学习缩放与偏置参数。实验发现，在相同参数规模下，这种共享时间步特征映射层参数的方法在保持模型能力同时可以显著降低参数和计算量。

此外，万相大模型还通过可扩展的预训练策略、大规模数据链路构建以及自动化评估指标，共同提升了模型的最终性能表现。

Qwen + 万相，阿里已实现全模态开源

时间回到 2023 年。当时，如果有人说开源模型有望追上闭源模型，很多人可能都不相信。然而正是在这样的背景下，一些顶级的 AI 公司走上了开源的路线，Meta、阿里都是其中的典型代表。

两年后的今天，阿里 Qwen 衍生模型已突破 10 万个，超越 Meta 的 Llama 系列，跻身全球最大 AI 模型家族之列。更引人注目的是，在 Huggingface 最新发布的开源大模型榜单（OpenLLMLeaderboard）中，前十名全部被基于 Qwen 开发的衍生模型包揽，充分展现了中国开源模型的蓬勃生命力。

Huggingface2 月 10 日官网榜单截图。

而且，阿里的开源大模型不止在语言方面表现出色，在多模态方面也处于领先地位：今年 1 月开源的视觉理解模型 Qwen2.5-VL 斩获了 OCRBenchV2、MMStar、MathVista 等 13 项评测冠军，全面超越了 GPT-4o 与 Claude3.5，在多模态这个赛道打破了「开源不如闭源」的固有认知。