扫描打开手机站
随时逛,更方便!
当前位置:首页 > 财经纵横

华为灵衢超节点架构:破解AI算力统一语言难题

时间:2025-10-20 16:09:32 来源:光锥智能 作者:光锥智能



文|白 鸽

编|王一粟

AI大模型浪潮持续席卷算力行业,从CPU到GPU再到NPU,各类AI芯片成为市场焦点。中国AI芯片产业借此机遇快速崛起,华为、阿里、百度等科技巨头,以及寒武纪、云天励飞、壁仞科技、摩尔线程等新兴企业,不断推动单颗芯片性能突破。

然而,单颗芯片算力再强,仍难以满足大模型指数级增长的需求。当模型参数翻倍时,企业常面临8卡服务器无法承载的困境,即便拆分任务至多台机器,CPU、AI芯片与存储间的数据传输也会因协议不兼容而‘堵车’,导致算力损耗高达50%。



更严峻的是,不同厂商设备间的协议壁垒如同‘方言障碍’:A厂CPU用一套协议,B厂GPU用另一套,数据传输需反复‘翻译’,浪费大量时间。即便是同一厂商的设备,规模扩大后性能也会‘打折’——例如10个节点本应发挥10倍算力,实际可能仅达1倍,这就是行业俗称的‘线性度’问题。

单芯片算力不足、设备间沟通低效,已成为制约AI算力发展的核心瓶颈。如何突破这一困局,支撑大模型持续进化?

答案或许在于‘团队作战’。当单兵作战难以取胜时,系统化协同成为关键。华为推出的‘超节点’架构与配套技术‘灵衢’(UnifiedBus),正是为解决这一难题而生。

超节点架构将CPU、GPU、NPU及存力等算力部件整合为一个大型节点,而灵衢技术则提供了一套‘算力普通话’——统一协议,覆盖超节点内部及集群间的所有通信场景。这就像全国推广普通话,无需因地域切换‘方言’,沟通效率大幅提升。

灵衢技术的突破在于打破了两个关键界限:一是计算机网络(物理层、链路层)与计算机内部架构(内存管理、节点控制)的隔离。过去,数据需在两者间‘开门、进门、再开门’,而灵衢直接拆除了这堵‘墙’,底层用网络逻辑连接设备,上层用架构逻辑管理资源,数据传输路径大幅优化。

华为专家强调,灵衢超节点并非简单堆砌部件,而是构建‘超级单一节点’。例如,将多间小房子改造成一套大平层,所有家具(CPU、GPU、NPU、内存)通过‘统一高速总线’连接,无需绕路。交换机从‘数据中转站’升级为‘处理单元’,直接参与算力协作。

基于这些创新,灵衢技术实现了四大目标:提升计算性能(不同算力‘组队干活’)、增强系统可用性(快速恢复故障)、实现资源池化(内存带宽等集中共用)、支持组件货架化(不同厂商部件即插即用)。

这些目标的最终指向,是让算力系统更高效、更灵活、更经济。

华为灵衢之所以能实现‘一套通吃’,源于其从系统层面出发的设计理念,而非局限于单一产品。同时,华为将自研IT设备经验、集群工程经验与鲲鹏、昇腾芯片反复测试,确保技术成熟度。

‘灵衢1.0已完成产品化,通过了芯片验证与集群交付验证,是工业化级别的可靠系统。’华为集群计算总经理朱照生表示。


华为集群计算总经理朱照生

在实际落地中,灵衢技术充分考虑客户现有设备兼容性。例如,客户已有以太网基础设施,灵衢可直接运行,无需大规模改造,同时与现有应用无缝互通。

为推动行业标准化,华为开放了灵衢的‘全套说明书’——从物理层到事务层的协议规范全部公开,并引入第三方‘协议验证仪’。朱照生透露:‘无论是CPU厂商还是GPU厂商,只要按规范执行,就能使用灵衢技术,未来还可通过第三方验证合规性。’

这一举措打破了过去厂商协议不互通导致的‘绑定困境’。客户无需局限于单一供应商,选择更自由且成本更低。朱照生表示:‘我们希望先形成企业标准,再逐步推广为团体标准甚至国家标准,共同完善算力基础设施。’

据灵衢系统架构师介绍,在AI大模型训练场景中,超节点互联可降低通信占比,端到端性能提升超20%;在通算数据库场景中,通过三层池化支撑多写多读,TPCC性能提升20%。灵衢技术尤其适合高并行、高同步的负载特征,能显著提升业务效率。

针对超节点规模争议,朱照生坦言:‘目前尚无明确‘甜点区’,因为AI发展总超预期。我们能做的,是扩大超节点规模,为行业留足空间。’

基于此,灵衢2.0作为核心技术底座,支撑华为发布两款超大规模算力产品:

  • Atlas 950 SuperCluster(2026年Q4上市):由64个Atlas 950超节点组成,FP8算力达524 EFLOPS,规模与算力超越全球最大集群xAI Colossus;
  • Atlas 960 SuperCluster(2027年Q4上市):百万卡级集群,FP8算力2 ZFLOPS、FP4算力4 ZFLOPS,支持UBoE(灵衢推荐模式)与RoCE协议,适配未来更大规模AI训练与推理需求。

以Atlas 950 SuperPoD为例,其支持8192张昇腾卡,训练吞吐达4.91M TPS,推理吞吐达19.6M TPS,远超前代产品。

‘如果我们无法预判未来负载模型是否收敛于某一类或某一个大小,就无法在算力基础设施层面设定限制。否则,这些限制反而会制约模型发展。’朱照生强调。

当前,算力竞争已从‘单芯片性能’转向‘系统效率’。灵衢技术的价值,在于通过统一协议将分散算力聚合为整体力量。它或许不会立即改变所有现状,但至少为行业指明了方向:未来的计算,不应存在‘语言壁垒’或‘设备孤岛’。