OpenAI联合英伟达等五巨头发布MRC协议,重塑AI训练网络架构

作者:袖梨 2026-05-09

2026年5月6日,OpenAI联合英伟达、AMD、博通、英特尔及微软五巨头,正式发布多路径可靠连接(MRC)协议,并通过开放计算项目(OCP)向行业开源,旨在重塑大规模AI训练网络架构。

为什么需要MRC?在星际之门项目之前,OpenAI已与合作伙伴历时数年,开发并维护了三代超级计算机。这段经历让OpenAI深刻认识到,要在超大规模下高效使用算力,必须重新思考网络设计。训练大模型时,每一步都可能涉及数百万次数据传输,任何一次延迟都会让GPU白白等待。网络拥塞、链路故障、设备故障,都是造成训练不稳定的关键因素。

MRC协议正是为解决这些问题而生。它通过多路径可靠连接技术,实现微秒级故障检测,大幅提升数据传输的带宽、低延迟与容错能力。麦肯锡2025年《全球AI算力发展报告》指出,当训练集群节点数超过1000个时,通信延迟导致的算力利用率损失可达35%以上。MRC协议的应用,有望将这一损失降到最低。

可以说,MRC协议的发布是AI基础设施领域的一次重要合作。OpenAI携手英伟达、AMD、博通、英特尔、微软,共同推进该协议的集成与标准化。这五家巨头在芯片、网络、云计算等领域各有优势,它们的联合意味着MRC协议将得到广泛支持。

其实,MRC协议的开源性质也值得关注。通过OCP向行业开放,任何组织都可以采用和贡献该协议。这有助于加速AI训练网络的创新,降低超大规模集群的部署门槛。没错,开源正是推动技术普及的关键。

总的来说,MRC协议为大规模AI训练网络架构带来了新的可能性。它解决了通信瓶颈,提升了训练效率,为万亿级模型的训练铺平了道路。这确实是AI行业的一大进步!

MRC协议不仅适用于训练,也适用于推理场景。在分布式推理中,同样需要高效的数据传输。MRC的多路径可靠连接特性,可以确保推理任务的低延迟和高可靠性。这确实是个挺实用的设计。

相关文章

精彩推荐