近日,中科曙光在郑州宣布其全自研的scaleFabric高速网络产品正式发布,并成功在国家超算互联网核心节点部署了全国产化的万卡级智算集群。这一突破标志着国产算力基础设施在关键技术领域迈出了重要一步,为应对国际竞争提供了新的支撑。
当前,国产算力集群正面临从万卡向十万卡规模跨越的挑战。中国科学院计算技术研究所专家王展指出,中科曙光此次实现的万卡集群是全国首个全栈国产化方案,涵盖CPU、GPU、交换机芯片及网卡芯片。相比之下,国际巨头英伟达已通过CUDA生态和InfiniBand(IB)网络技术构建了十万卡级集群,并在持续扩大规模。这种差距不仅体现在数字上,更反映了技术、生态和系统工程的全面挑战。
长期以来,IB网络技术被英伟达垄断。该公司通过收购迈络思掌握了核心技术,形成难以突破的技术壁垒,制约了国内算力产业向超大规模发展。中科曙光高级副总裁李斌表示,从万卡到十万卡的核心挑战不在于计算节点本身,而在于互联系统。当集群规模呈数量级增长时,计算效率的可扩展性和超高可靠性成为关键难题。
据行业调查,到2025年底全球智算基础设施投资规模将持续扩大,支撑下一代万亿参数大模型需要八万到十万卡规模的集群。奇异摩尔联合创始人祝俊东从技术角度分析,超大规模集群对交换机带宽和存储容量提出极高要求,同时端侧网卡和协议层面面临更大挑战。传统基于IB或RoCEv2的协议在万卡以上规模会变为"有损网络",引发丢包处理、拥塞管理等连锁问题。
北京科技大学储根深教授的实践印证了软硬件协同的重要性。其团队通过GPU显存直接互联技术优化通信路径,使万卡规模下某些软件的通信开销从50%降至10%。这表明硬件能力必须通过软件栈深度适配才能转化为实际性能。李斌强调,超大规模集群需要网络侧、计算侧、供电系统及上层控制系统的整体协同,并与应用算法和分布式训练流程深度耦合。
实现十万卡集群面临三大核心挑战:大规模可靠性、与算法流程的深度协同、系统级调优门槛。曙光信息产业副总裁李柳指出,可靠性是十万卡集群的生命线,故障恢复时间随规模扩大呈指数级增长。scaleFabric采用基于信用的流控机制和链路故障快速恢复技术,将恢复时间降至毫秒级,并通过长期稳定性测试验证其可靠性。
在技术路线选择上,国产算力面临IB与以太网RoCE的分野。中科曙光选择兼容IB生态的路线,认为其无损网络特性对RDMA性能至关重要。但部分行业专家指出,全球多数智算中心仍基于RoCE技术,且互联网企业已形成成熟的以太网架构体系。这种分歧源于用户背景差异:超算从业者倾向IB体系,而智算领域以互联网企业为主,更熟悉以太网。
这种技术路线分歧带来市场双轨并存的格局。李斌表示,中科曙光支持国内不同算力芯片的适配,同时需应对增量部署的兼容性挑战。王展指出,全新国产集群可实现应用无缝迁移,但若用户想保留原有英伟达IB交换机,可能因私有协议限制导致通信障碍。这凸显了掌握自主核心技术的必要性。
国产算力正探索差异化发展路径。祝俊东认为,美国采取"暴力堆算力"策略,而中国通过提升算力效率、降低成本推动AI普惠。在软件层面,国产厂商通过精细化优化挖掘硬件潜力;在架构层面,存算一体、重构计算等新型架构为突破海外限制提供新可能。这种发展模式依托电力优势和互联技术追赶,有望实现"以系统优势弥补单点差异"的高质量发展。






