在人工智能大模型训练的赛道上,随着万卡、十万卡集群成为新常态,网络性能正从幕后走向台前,成为决定训练效率的关键变量。当GPT-4突破万亿参数、Llama 3训练集群规模达数万卡时,通信耗时对算力利用率的侵蚀问题愈发凸显——据行业统计,大规模集群训练中通信时间占比普遍超过30%,且集群规模每扩大一个数量级,这一比例就呈指数级上升。
这场变革中,曾被视为"经济之选"的RoCE(RDMA over Converged Ethernet)网络正遭遇前所未有的挑战。其基于优先级的流控机制(PFC)在应对超大规模集群时暴露出致命缺陷:当接收端缓冲区压力达到阈值时,PFC会向上游发送暂停帧,这种"事后补救"模式不仅无法避免丢包风险,更会在多级网络中引发"暂停帧风暴"。某互联网巨头内部数据显示,其万卡级RoCE集群每月因PFC风暴导致的训练中断达3-5次,每次恢复耗时数分钟至半小时不等。
运维复杂度成为压垮RoCE的最后一根稻草。为抑制PFC风暴,网络团队需持续调整"水线"参数,但这项工作犹如在高压线上行走——参数调高会导致降速不及时引发丢包,调低则造成带宽浪费。某智算中心负责人透露:"我们组建了10人专项团队,每天花费4小时进行参数调优,这对大多数用户而言根本不可行。"
与之形成鲜明对比的是,原生RDMA架构的InfiniBand(IB)网络展现出独特优势。其基于信用的流控机制要求发送端在传输前必须确认接收端缓冲区空间,这种"先确认后发送"的机制从根源上杜绝了丢包可能。更关键的是,IB的集中式管理架构可实现全网路径规划,彻底消除分布式管理带来的死锁风险。在链路故障恢复方面,IB通过快速容错路由技术将恢复时间压缩至毫秒级,而RoCE通常需要数秒,这在大规模集群中意味着数十分钟的算力浪费。
成本账本正在发生逆转。虽然IB硬件采购成本仍高于RoCE,但万卡级集群的运维成本已呈现此消彼长态势。某服务商测算显示,RoCE集群的专职团队人力成本、算力闲置成本、故障排查成本综合计算后,已接近IB方案的硬件差价。更值得关注的是组网效率差异:新一代国产IB方案在单子网支持超11万卡,较传统方案提升133%,这意味着更少的交换机层级、更低的光模块功耗和成本。
市场数据印证着这种转变。Dell'Oro Group报告显示,在AI后端网络市场,InfiniBand长期占据主导地位。某网络设备厂商销售总监观察到:"去年客户还在纠结RoCE能否满足需求,今年问得最多的是万卡以上集群的稳定性保障。"这种转变在大模型落地阶段尤为明显——当训练任务周期延长至数十天,一次网络抖动造成的损失就可能覆盖IB的硬件溢价。
国产化突破为这场变革注入新变量。中科曙光推出的scaleFabric原生无损RDMA网络系统,实现了从112G SerDes IP到软件平台的全栈自研。该系统端到端时延低于1微秒,转发时延260纳秒,性能指标直追国际顶尖的NVIDIA NDR方案。更关键的是,其已在国家超算互联网郑州核心节点完成3万卡商用部署,累计运行超10万项作业,验证了大规模真实负载下的稳定性。
中国工程院院士邬贺铨指出,智算集群规模化部署对网络提出"超低延迟、超高带宽、全程无损"的严苛要求,RDMA高速网络已成为算力集群的"神经中枢"。随着十万卡级集群成为新基建标配,网络技术路线的选择将超越简单的成本计算,真正回归到"能否让集群高效运行"的本质需求。在这场算力竞赛中,网络性能正在重新定义游戏规则。







