OpenAI首发GPT-5级推理语音模型,传统同传不存在了?

作者:袖梨 2026-05-13

OpenAI在5月7日于Realtime API中推出三款音频模型,其中GPT‑Realtime‑2成为首个具备GPT‑5级推理能力的语音模型。这一发布直接冲击了传统同声传译行业,实时翻译演示中法语语音输入几乎同步生成英语译文,传统同传真的不存在了吗?

三款模型各司其职

OpenAI这次一口气放出三款模型:GPT‑Realtime‑2面向复杂推理场景,GPT‑Realtime‑Translate专攻实时翻译,GPT‑Realtime‑Whisper则负责流式转录。它们的目标是帮开发者构建能听、能想、能翻译、能转录还能实时行动的“语音代理”智能体。这确实挺有意思,语音交互终于不再是简单的问答了。

演示效果令人惊叹

在长达约40秒的双人对话演示中,新语音模型对连续的法语语音输入进行了实时翻译,英语译文在对方说话过程中便几乎同步生成。这意味着什么?意味着未来跨国会议、国际直播可能不再需要人工同传坐在玻璃房里了。咱们得承认,这技术进步的速度有点吓人。

Altman亲自站台

OpenAI CEO Sam Altman在X平台上发文称:“人们真的开始大量使用语音与AI交互,尤其是当他们需要快速传递大量上下文的时候。GPT-Realtime-2今天在API中上线,这是一个相当大的进步。”没错,Altman这番话算是给新模型定了调——语音交互正在成为主流。

榜单数据佐证实力

据Scale Labs公布的榜单,GPT-Realtime-2(xHigh)以48.45%的平均通过率(APR)位居A。这个数据说明新模型在推理能力上确实有突破,凭什么传统同传还能稳坐钓鱼台?技术迭代从来不讲情面,跟不上就得被淘汰。

行业格局正在重塑

传统同声传译依赖人工实时翻译,成本高且受限于译员精力。现在GPT‑Realtime‑2能同时处理推理和翻译,效率上已经拉开差距。当然,人工同传在文化语境、情感表达上仍有优势,但技术迭代的速度,谁说得准呢?

相关文章

精彩推荐