OpenAI首发GPT-5级推理语音模型，传统同传不存在了？

作者：袖梨 2026-05-13

OpenAI在5月7日于Realtime API中推出三款音频模型，其中GPT‑Realtime‑2成为首个具备GPT‑5级推理能力的语音模型。这一发布直接冲击了传统同声传译行业，实时翻译演示中法语语音输入几乎同步生成英语译文，传统同传真的不存在了吗？

三款模型各司其职

OpenAI这次一口气放出三款模型：GPT‑Realtime‑2面向复杂推理场景，GPT‑Realtime‑Translate专攻实时翻译，GPT‑Realtime‑Whisper则负责流式转录。它们的目标是帮开发者构建能听、能想、能翻译、能转录还能实时行动的“语音代理”智能体。这确实挺有意思，语音交互终于不再是简单的问答了。

演示效果令人惊叹

在长达约40秒的双人对话演示中，新语音模型对连续的法语语音输入进行了实时翻译，英语译文在对方说话过程中便几乎同步生成。这意味着什么？意味着未来跨国会议、国际直播可能不再需要人工同传坐在玻璃房里了。咱们得承认，这技术进步的速度有点吓人。

Altman亲自站台

OpenAI CEO Sam Altman在X平台上发文称：“人们真的开始大量使用语音与AI交互，尤其是当他们需要快速传递大量上下文的时候。GPT-Realtime-2今天在API中上线，这是一个相当大的进步。”没错，Altman这番话算是给新模型定了调——语音交互正在成为主流。

榜单数据佐证实力

据Scale Labs公布的榜单，GPT-Realtime-2（xHigh）以48.45%的平均通过率（APR）位居A。这个数据说明新模型在推理能力上确实有突破，凭什么传统同传还能稳坐钓鱼台？技术迭代从来不讲情面，跟不上就得被淘汰。

行业格局正在重塑

传统同声传译依赖人工实时翻译，成本高且受限于译员精力。现在GPT‑Realtime‑2能同时处理推理和翻译，效率上已经拉开差距。当然，人工同传在文化语境、情感表达上仍有优势，但技术迭代的速度，谁说得准呢？