5月25日消息,2025年5月23日,在鲲鹏昇腾开发者大会2025——昇腾AI开发者峰会上,华为推出了全新的昇腾超节点技术,并成功实现了业界最大规模的384卡高速总线互联。这一技术突破标志着AI计算架构的重大进展,进一步推动了大模型发展的步伐。
当前,大模型的发展正在经历参数与效率的交替演进。一方面,Scaling Law持续推动模型能力的极限突破;另一方面,以DeepSeek为代表的创新架构和工程技术,正在加速这些模型在各个行业的实际应用。在这种背景下,MoE(混合专家模型)成为主流结构,但它复杂的混合并行策略也带来了巨大的挑战,特别是在TP、SP、EP等分布式计算的单次通信量高达GB级别时,传统的服务器架构已经无法满足日益增长的需求,跨机带宽成为性能瓶颈。
传统服务器依赖以太网络进行跨机互联,但以太网络的带宽较低,特别是在当TP、SP或EP等并行计算域超过8卡时,跨机通信带宽已经成为系统性能的大障碍,导致整体性能大幅下降。
对此,华为昇腾超节点技术打破了以CPU为中心的冯诺依曼架构,提出了一种全新的对等计算架构。通过高速总线互联技术,华为将总线扩展到整机柜,甚至跨越多个机柜,实现了显著的突破。超节点内部采用高速总线替代传统的以太网络,通信带宽提升了15倍,单跳通信时延从2微秒降低至200纳秒,减少了10倍的延迟,使得集群能够像一台计算机一样协同工作,打破了传统架构的性能瓶颈。
据了解,华为推出的昇腾384超节点由12个计算柜和4个总线柜组成,是目前业内规模最大的超节点。通过华为在ICT领域深厚的技术积累和最佳负载均衡组网方案,这一超节点能够进一步扩展,支持数万卡的Atlas 900 SuperCluster超节点集群,为未来更大规模的模型演进提供强大支撑。
根据性能测试数据显示,昇腾超节点集群上的LLaMA 3等千亿参数的稠密模型相比传统集群的性能提升了2.5倍以上;对于通信需求更高的Qwen、DeepSeek等多模态和MoE模型,性能提升可达3倍以上,且相较于业界其他集群,提升幅度达到1.2倍,显示出华为在该领域的领先地位。