随着人工智能技术的飞速发展,AI大模型训练对算力的需求呈现指数级增长,万卡集群已成为行业标配。在这一背景下,网络性能成为制约算力效率的关键因素。传统InfiniBand(IB)网络和RoCE网络是当前主流的两种高速网络方案,但前者长期被国外企业垄断,后者则存在技术短板和国产化瓶颈。如何突破技术封锁,打造自主可控的高速网络,成为国内科技企业面临的重要课题。
3月12日,中科曙光正式发布首款全栈自研400G无损高速网络产品——scaleFabric,标志着国内在高端计算网络领域实现重大突破。该产品采用国产InfiniBand原生无损RDMA技术,专为大规模万卡集群设计,可全面适配AI大模型训练、超算任务等高端场景,为国产算力网络自主可控提供了核心支撑。中科曙光高级副总裁李斌表示,在AI算力需求每九个月翻一番的背景下,高速网络已成为制约行业发展的关键瓶颈,而scaleFabric的推出正是为了解决这一痛点。
当前,RDMA网络已成为算力中心的事实标准,但其实现路径存在显著差异。RoCE网络通过在以太网上嫁接RDMA技术,虽兼容IP生态,但存在协议冗余、带宽低、时延高等先天缺陷,难以满足大规模集群需求。相比之下,IB网络作为原生RDMA方案,具有协议栈精简、包头信息短、有效载荷高等优势,其交换机采用VCT交换技术,时延可控制在300ns以内,远优于RoCE的500ns以上。中科曙光高速网络互联产品部总工程师万伟指出,在大规模集群场景下,网络性能直接决定系统整体效率,IB技术是当前最优解。
scaleFabric的研发历时三年,实现了从底层芯片到上层软件的全栈自研。其核心包括两颗自研芯片:网卡芯片支持400G高带宽和自研RDMA引擎,交换芯片具备64T双向交换容量和260ns转发时延。产品系列涵盖400G单口标准网卡、1U 80口液冷交换机和2U 80口风冷交换机,可灵活适配不同场景需求。测试数据显示,scaleFabric在端到端时延、单端口带宽等关键指标上已达到国际顶尖水平,在3万卡集群实测中,网络效率提升超40%,故障恢复时间缩短至毫秒级。
该产品的技术突破不仅体现在性能指标上,更在于其完整的自主技术体系。通过自研112G SerDes IP、交换芯片、网卡等核心部件,中科曙光构建了从硬件到软件的自主生态,彻底摆脱了对海外技术的依赖。万伟强调,scaleFabric在兼容性方面也做了大量优化,可无缝对接主流通信库,支持HPC/AI应用零代码迁移,最大限度降低用户迁移成本。针对IB协议组网规模限制的问题,曙光通过技术创新将单子网支持规模提升至11.4万卡,较市面主流产品提升133%,同时组网成本下降30%。
目前,scaleFabric已在郑州国家超算互联网节点实现规模化部署,三套万卡集群仅用36小时即完成上线,累计服务客户超1万家,处理作业超10万次。这一成果的取得,源于中科曙光在IB技术领域的长期积累。李斌透露,公司自2000年起便开始使用Myrinet高速网络,2005年后全面切换至IB体系,对相关技术和应用场景有着深刻理解。正是这种技术积淀,使得曙光能够在自研过程中精准改进原有设计,实现部分性能的超越。
在大算力领域,中科曙光的布局涵盖核心计算芯片研发、硬件高效实现和系统级协同三个层面。公司特别强调算、存、传的深度融合,通过与国内产业链上下游紧密合作,共同构建自主可控的算力生态。李斌表示,曙光不仅是scaleFabric的研发者,更是其最大用户,这种身份使得公司能够始终以用户需求为导向,持续优化产品性能。万伟则透露,曙光计划将关键技术开放给合作伙伴,共同打造类InfiniBand的网络生态,为中国AI算力发展提供更强支撑。






