在2026 MWC上海展期间,华为携手中国移动通信集团湖北有限公司(以下简称“湖北移动”)共同宣布,双方已顺利完成全国运营商首个AI推理加速解决方案的现网测试,标志着AI技术在运营商领域的应用迈出重要一步。
此次测试依托华为OceanStor A800存储系统与昇腾A3超节点架构,并引入UCM(Unified Cache Manager,推理记忆数据管理)技术,在长序列AI推理场景中实现了显著突破。测试数据显示,Token吞吐率最高提升达372%,为运营商智算业务的高效部署提供了强有力的技术支撑。
测试在湖北移动现网环境中展开,采用vLLM-Ascend框架,针对MiniMax M2.5、GLM-5.1等主流大模型,模拟了8K至190K的长序列输入场景。这一设计旨在全面评估AI推理加速方案在不同长度上下文下的性能表现。
在MiniMax M2.5模型测试中,启用UCM技术后,首Token延迟(TTFT)优化幅度达到26%至62%,单NPU卡Token输出效率(TPS)显著提升。具体而言,在64K序列长度下,TPS提升58%;在128K序列长度下,TPS提升78%,展现了该方案在长序列推理中的高效性。
而在GLM-5.1模型测试中,UCM的加速效果更为突出。TTFT优化幅度高达51%至93%,TPS提升范围则达到56%至372%。特别是在64K序列长度下,TPS提升313%;在128K序列环境下,TPS最高提升372%,进一步验证了AI推理加速方案在复杂场景下的卓越性能。
华为方面表示,测试结果表明,随着上下文长度的增加,AI推理加速方案的优势愈发明显。该方案有效解决了长序列推理中的KV Cache容量瓶颈问题,为运营商在大模型推理、智能客服、内容生成、行业智能体等长序列AI业务场景中提供了更高效的资源利用方案,同时降低了长上下文推理带来的性能压力。







