Stability AI推出Stability Audio 3.0，可生成6分钟完整歌曲

作者：袖梨 2026-06-02

Stability AI 日前正式推出 Stability Audio 3.0，新模型能够生成最长 6 分钟的完整歌曲。这确实是一次挺大的产品升级——你想想，之前的音频模型大多只能生成几十秒的片段，现在跨度直接拉到了分钟级。可以说，对于音乐创作者来说，这是个实实在在的福音。

模型架构：大小两个版本，适配不同场景

Stability Audio 3.0 这次提供了大小两种规模的模型。其中小型模型已经可以在设备端本地运行，并且支持生成两分钟长度的曲目。这意味着什么呢？——用户不用全程依赖云服务器，在手机或本地电脑上就能直接干活。对于移动创作场景，这个设计确实很实用。

生成能力：从片段到完整歌曲，跨越在哪？

从产品逻辑上看，6 分钟的歌曲生成能力意味着模型对音乐结构——比如主歌、副歌、桥段之间的衔接——有了更强的把控力。它不再是简单拼接音频片段，而是在持续几秒甚至几分钟的时长里维持旋律的连贯性。凭什么能实现这种进步？靠的是底层训练数据和模型参数的升级。Stability AI 在音频领域的积累，真的是越来越扎实了。

行业影响：给独立音乐人带来了什么？

对于独立音乐人和小型工作室来说，这种工具的出现其实降低了音乐制作的门槛。以前要请编曲师、租录音棚，现在通过文本提示就能生成完整的音乐轨道——这不就给了创作者更多选择吗？虽然最终作品可能需要人工打磨，但起点的效率已经完全不同了。

实用价值：设备端运行能省多少事？

小型模型可以在设备端运行，这意味着隐私和延迟问题都得到了改善——数据不用上传云端，生成结果几乎即时返回。对于需要频繁迭代的创作流程，这一点确实很重要。两分钟的设备端生成长度，也足以覆盖短视频配乐、背景音设计等大量真实需求。性价比确实挺突出的！

未来方向：音频生成模型还能怎么进化？

从 Stability Audio 3.0 的发布可以看出，AI 音乐生成正在从“玩具级”走向“工具级”。更长的时间跨度、更稳定的结构输出、更低的硬件要求——这些改进其实都在指向同一个目标：让专业创作者愿意把它放进日常工作流。至于它能不能改变音乐产业的制作模式？咱们可以慢慢观察。