在人工智能基础设施建设的赛道上,一场围绕网络效率的变革正在悄然展开。当全球AI企业还在比拼GPU数量时,中美两国科研团队已将目光投向更深层的系统优化——通过重构网络架构提升集群整体效能。这一转变标志着AI基建从"堆卡竞赛"进入"效率时代",而中国科研团队提出的ZCube架构与OpenAI的MRC协议,成为这一转型的标志性成果。
传统AI集群采用分层组网方式,数据传输需经过多层交换机中转,这种设计在处理不均匀流量时极易形成局部拥塞。以大模型推理场景为例,负责理解问题的GPU与生成回答的GPU分属不同节点,中间需要频繁传输KV Cache数据。这种非对称传输模式导致部分交换机长期过载,而其他链路利用率不足,形成"卡等数据"的尴尬局面。清华大学团队通过实验发现,在保持GPU配置不变的情况下,将网络带宽从100Gbps提升至200Gbps,可使推理吞吐量提升19%,首Token时延降低22%,充分暴露了网络瓶颈对算力释放的制约。
中国科研团队提出的ZCube架构通过"扁平化"设计破解了这一难题。该架构取消传统分层结构,将底层交换机分为两组并实现完全互联,每张GPU同时连接两组交换机。这种设计使任意两张GPU之间只需经过两台交换机即可通信,路径长度缩短50%以上。在千卡级GLM-5.1推理集群的实测中,ZCube使GPU平均推理吞吐提升15%,首Token时延的99分位值降低40.6%,同时将交换机与光模块成本削减三分之一。按万卡规模估算,仅硬件成本就可节省2.1亿至6.4亿元。
与ZCube侧重架构创新不同,OpenAI推出的MRC协议选择在现有网络基础上进行协议层优化。该协议针对训练场景中同步预训练的特殊需求,通过多路径并发传输和智能路由技术,实现微秒级故障绕行。在由英伟达GB200芯片组成的超算集群中,MRC已成功支撑多个前沿模型的训练任务,并通过Open Compute Project向全行业开放技术规范。这两种技术路线虽路径不同,但都指向同一个结论:当GPU数量达到临界点后,网络效率将成为决定集群性能的关键因素。
这场效率革命的背后,折射出全球AI产业面临的共同挑战。在芯片供应受限的背景下,中国AI企业通过"国产芯片+架构优化"的组合策略,探索出独特的突围路径。ZCube架构不依赖特定硬件生态的特性,使其能兼容华为昇腾、寒武纪、摩尔线程等多家国产芯片平台。这种技术路线选择,既是对现实约束的应对,也蕴含着产业升级的深层逻辑——当算力增长不再单纯依赖芯片迭代时,系统级优化将成为新的竞争焦点。
从Clos架构到ZCube,从单路径传输到MRC协议,AI集群的网络设计正在经历根本性变革。这些创新不仅解决了当下的效率瓶颈,更为未来十万卡级超大规模集群的构建奠定了技术基础。当全球AI基建进入深水区,系统级优化能力正在重新定义产业竞争规则,而中国科研团队在这场变革中展现出的工程化能力,已成为不可忽视的技术力量。






