单卡推理吞吐2300Tokens/s,昇腾AI云服务正在改写算力法则
半个月前的HDC 2025上,华为云全面上线了基于CloudMatrix384超节点的昇腾AI云服务,在行业内外掀起了不小的轰动。
让我们印象最为深刻的是一组数据:与非超节点相比,CloudMatrix384超节点的单卡吞吐量从600Tokens/s提升到了2300Tokens/s;增量Token的输出时延,也从原来的100ms降低到了50ms以下。
为了探究指标背后的技术密码,我们找到了华为联合硅基流动发表的一篇论文,详细介绍了CloudMatrix的架构创新和CloudMatrix384的生产级实践,并在测试结果中写道——运行DeepSeek-R1时的单卡吞吐,已经超过英伟达H100。
在大模型的产业叙事从训练转向推理局面下,新一代昇腾AI云服务刷新纪录的单卡吞吐能力,对整个算力行业意味着什么?
01 怎么做到的?一场“系统工程的胜利”
需要回答的第一个问题是:单卡吞吐量近乎4倍的性能跃升,CloudMatrix384超节点到底是怎么做到的?
答案在于工程创新。
为了提高大模型的推理性能,传统的做法集中在单点优化:增加更多的节点数量,通过堆叠算力来提升推理能力;对模型进行量化与剪枝,减少不必要的计算量;对KV Cache进行优化,加速增量推理;以及利用自动图优化工具将多个算子融合为一个高效核函数,减少中间内存拷贝……
可大模型的参数量仍在增长、MoE架构被广泛采用、上下文长度急剧扩展,单点优化暴露出了越来越多的局限性:比如多卡并行推理的通信瓶颈、芯片与内存之间的耦合差、“整卡”调度的资源浪费等等,无论是吞吐性能,还是推理成本,均已经满足不了快速增长的应用部署需求。
CloudMatrix384超节点提出了新的设计架构,不同于简单的“算力叠加”,进一步实现了一切可池化、一切皆对等、一切可组合。
理解了三个“一切”,也就读懂了工程创新的价值。
一切可池化:通过统一的、超高性能的网络(MatrixLink),将NPU、CPU、内存、网络等资源解耦,形成可独立扩展的资源池。
一切皆对等:有别于传统GPU为中心的计算范式,资源池里的所有资源不再是“主从式”关系,而是更高效、更灵活的对等架构。
一切可组合:意思是CloudMatrix384超节点池化的所有资源,可以根据不同的任务需求,像搭积木一样进行灵活调配组合。
用一句话来总结:CloudMatrix384超节点将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联,形成了一台拥有超大带宽、超大内存、超高算力的超级“AI服务器”。
之所以采用全对等互联的架构,目的是为了匹配大模型的训推任务,特别是MoE混合架构的大模型。
传统集群模式下进行推理,要在每张单卡上分配所有“专家”,将所有问题都计算一遍,导致每个“专家”只能获得少量的计算和通信能力。
而一个CloudMatrix384超节点可以支持数百个专家并行推理,实现“一卡一专家”模式,即每张卡只部署一个“专家”,集中处理所有相关问题,增加单次推理的批量大小,减少单位计算的调度开销,大幅提升推理效率。同时,超节点还可以支持“一卡一算子任务”,灵活分配资源,提升任务并行处理,减少等待,将算力有效使用率(MFU)提升50%以上。
再比如大模型的推理过程分为Prefill和Decode两个阶段,Prefill生成KV Cache,Decode使用和更新KV Cache。CloudMatrix384超节点的解耦式共享内存池,可以保存更多的KV Cache,让Prefill和Decode任务更快、更均衡地访问KV Cache,大幅降低系统延迟。
也就是说,2300Tokens/s的单卡推理吞吐量和50ms以下的输出延迟,可以归结为一场“系统工程的胜利”。在摩尔定律逐渐放缓,单卡算力提升有限的背景下,通过重构计算互联架构,实现了整体系统级最优,完成了国产算力从“能用”到“好用”的跨越。
02 改变了什么?大模型落地“越过山丘”
进入2025年后,大模型的角色快速蜕变,走出了实验室,在政务、金融、医疗、能源等领域加速落地。
但在落地过程中,响应慢、吞吐低、成本高等现实问题,成了不少企业在部署大模型时难以绕开的“瓶颈”,不仅拖慢了业务节奏,还拉高了技术回报的门槛。如果说“训得好”是一场军备竞赛,“用得起”则是产业拐点。
华为在工程创新上的“弯道超车”,为大模型落地部署的挑战,提供了一种经过验证的解题范式。
先从大模型训练来看。
万亿、十万亿参数的大模型训练任务,催生了万卡乃至十万卡的集群需求,也带来了算力紧缺的“危机”。
一个乐观的消息在于,在云数据中心,CloudMatrix384超节点最高可以将432个超节点级联成16万卡的超大集群,提供10万PFlops的算力。其中一个关键指标是线性度,即节点数量增加后,性能是否能“按比例提升”。目前CloudMatrix384万卡集群的线性度已经超过95%,实现了性能提升与资源扩展的比例接近1:1,可同时支持1300个千亿参数大模型训练。
为了帮助客户最优使用资源,CloudMatrix384超节点昇腾AI云服务还支持训推算力一体部署,比如“日推夜训”模式,白天推理,晚上训练;以及“40天长稳训练、10分钟快速恢复”能力,保障长周期训练的稳定性和中断后的快速恢复。
更深刻的影响在于推理层面。
正如前面所提到的,CloudMatrix384超节点的单卡吞吐量提升到了2300Tokens/s,一同被改变的还有推理成本。
根据一位知乎网友的方式推算:单卡吞吐量2300Tokens/s,每小时可以产出828万Token,每小时租金按照15元计算,百万Token的成本约为1.8元,推理成本比英伟达的GPU方案还要低。
在大模型推理领域,有一个著名的“不可能三角”——推理成本低、响应速度快、输出准确性高几乎不可能同时满足。
CloudMatrix384超节点给出了否定的答案,以DeepSeek-R1为例,有256个固定专家、32个共享专家,CloudMatrix384超节点的“一卡一专家”模式完美契合了DeepSeek-R1的推理需求,保障推理性能的同时,仍可以实现高吞吐、低时延的目标。
在“推理成本决定最终胜利”的大模型竞赛中,CloudMatrix384超节点可以说是现阶段的“最优解”,在技术上攻克了响应速度、吞吐能力与输出准确性的三重矛盾,为千行万业搬开了大模型落地的“大山”。
可以佐证的案例有很多。
新浪基于CloudMatrix384昇腾AI云服务,为“智慧小浪”智能服务体系构建了统一的推理平台,推理的交付效率提升超过50%。
面壁智能使用CloudMatrix384昇腾AI云服务,让“小钢炮”模型的推理业务性能得到了2.7倍的提升。
360正在开启与昇腾AI云服务的全面合作,纳米AI搜索已经实现了上百款大模型的高效协作,为用户提供超级AI搜索服务。
03 写在最后
巴克莱银行曾在2025年初的研报中表示:AI推理计算需求将快速提升,预计将占到通用人工智能总计算需求的70%以上,推理计算的需求甚至将大幅超过训练,达到后者的4.5倍。
谁解决了推理效率,谁就掌握了大模型落地的主导权。
由此再来审视CloudMatrix384超节点昇腾AI云服务,不仅仅是技术指标的跃升,而是系统级工程创新的深度验证,重新定义了未来的算力范式:“芯片性能”不再是唯一的衡量尺度,以“整体系统效率”“推理成本”“模型结构适配性”构建新的竞争标准,为整个AI产业打开了一条更加高效、普惠、可持续的技术道路。
截止到目前,基于CloudMatrix384超节点的昇腾AI云服务已经在芜湖、贵安、乌兰察布、和林格尔等地的华为云数据中心上线,依托百TB级带宽的光纤骨干网,10毫秒时延圈覆盖了全国19个城市群。正在通过工程创新的胜利,承接大模型时代的产业落点。
