阶跃星辰推出音频推理模型 Step-Audio-R1.1

作者：袖梨 2026-05-31

阶跃星辰正式推出音频推理模型Step-Audio-R1.1，这款基于audio-text-to-text架构的模型能接收音频输入并生成文本输出。模型已在HuggingFace平台公开上线，开发者可直接获取使用，下载量已接近五百次。

技术细节与推理能力——从模型卡信息来看，Step-Audio-R1.1采用了transformers框架与safetensors格式，标签中包含了chain-of-thought、multi-modal、audio-reasoning等关键词。其中step_audio_2表明这是第二代音频处理技术，text-generation则说明它具备文本生成能力。也就是说，模型在音频处理之外还具备推理能力：它能在生成最终答案前先产生一段思考链，再输出结论。这就挺有意思了，音频模型不只能听懂话，还能“想”清楚再回答，和传统语音识别完全不是一回事。

模型的pipeline_tag为audio-text-to-text，属于音频到文本的生成任务。但Step-Audio-R1.1的特别之处在于它把“推理”作为核心卖点，标签中的chain-of-thought正是这一能力的体现。它可以在语音对话场景中理解上下文、识别意图，再组织语言回应。这不就是咱们期待的智能语音助手该有的样子吗？开发者完全可以用它做语音客服、会议纪要、语音问答等应用，可以说应用前景挺广的。

社区反响与扩展性——目前该模型在HuggingFace社区已获得479次下载和179次点赞。作为一个专业领域的模型，这个数据确实能说明开发者对它的兴趣。要知道，音频推理模型对算力和数据质量要求都挺高的，能有这样的关注度，说明市场需求真实存在。Step-Audio-R1.1的标签中还出现了custom_code，表明模型支持自定义代码扩展，给了开发者更大的发挥空间，这确实挺实在的。

阶跃星辰这次开源的Step-Audio-R1.1，属于step-audio-r1系列的迭代版本。从命名来看，“R1.1”暗示了它在推理能力上的升级方向。在音频AI赛道竞争日趋激烈的背景下，选择开源策略相当于向社区抛出了橄榄枝——开发者们，一起来玩吧！这种开放态度有助于加速技术迭代和生态建设，也让更多人能参与到音频推理模型的探索中来。

可以说，Step-Audio-R1.1的推出为音频推理领域提供了一个新的选择。未来它会如何在语音助手、实时翻译、音频分析等场景中落地，值得持续观察。但有一点可以肯定：能“推理”的音频模型，正在打开一扇新的大门。