Open-Sora V1.3发布：升级视频压缩与ST-DiT架构，强化图生视频

作者：袖梨 2026-05-30

日前，Open-Sora 1.3正式发布，这次更新聚焦于视频压缩技术升级与ST-DiT架构的深度优化，显著强化了图生视频与视频扩展功能。作为开源视频生成领域的重要迭代，新版在模型架构与生成质量上带来了肉眼可见的提升。

视频压缩能力是本次升级的核心亮点之一。通过更高效的数据压缩方案，Open-Sora 1.3能够处理更高分辨率、更长帧数的视频素材。这意味着生成的画面在细节保留与色彩准确性上有了质的飞跃——以往视频生成中常见的模糊与伪影问题得到有效抑制。有意思的是，团队并没有盲目追求参数规模，而是在压缩效率与生成流畅度之间找到了更好的平衡点。

全新的ST-DiT架构更为关键。说实话，空间-时间注意力机制的增强，让模型在处理连续帧之间的动作连贯性时表现得更聪明。它不再只是简单堆叠像素，而是学会了理解物体在时间维度上的运动逻辑。举个例子：当你用一张静态图片生成视频，新架构能更自然地对风吹草动、人物眨眼这类细微动作进行预测与补全。这难道不是图生视频领域真正需要的进步吗？

数据质量与训练策略同样获得了升级。团队引入了更多高画质训练素材，并采用多阶段训练方法。第一阶段让模型学会基础的运动规律，第二阶段则专注于细节优化与长序列生成。这种阶梯式的训练路径，确实让输出结果的稳定性提升了一个档次。图片转视频时，场景过渡不再生硬，光影过渡也更加自然——挺让人惊喜的。