单卡推理吞吐2300Tokens/s，昇腾AI云服务正在改写算力法则

2025-07-03 14:34

半个月前的HDC 2025上，华为云全面上线了基于CloudMatrix384超节点的昇腾AI云服务，在行业内外掀起了不小的轰动。

让我们印象最为深刻的是一组数据：与非超节点相比，CloudMatrix384超节点的单卡吞吐量从600Tokens/s提升到了2300Tokens/s；增量Token的输出时延，也从原来的100ms降低到了50ms以下。

为了探究指标背后的技术密码，我们找到了华为联合硅基流动发表的一篇论文，详细介绍了CloudMatrix的架构创新和CloudMatrix384的生产级实践，并在测试结果中写道——运行DeepSeek-R1时的单卡吞吐，已经超过英伟达H100。

在大模型的产业叙事从训练转向推理局面下，新一代昇腾AI云服务刷新纪录的单卡吞吐能力，对整个算力行业意味着什么？

01 怎么做到的？一场“系统工程的胜利”

需要回答的第一个问题是：单卡吞吐量近乎4倍的性能跃升，CloudMatrix384超节点到底是怎么做到的？

答案在于工程创新。

为了提高大模型的推理性能，传统的做法集中在单点优化：增加更多的节点数量，通过堆叠算力来提升推理能力；对模型进行量化与剪枝，减少不必要的计算量；对KV Cache进行优化，加速增量推理；以及利用自动图优化工具将多个算子融合为一个高效核函数，减少中间内存拷贝……

可大模型的参数量仍在增长、MoE架构被广泛采用、上下文长度急剧扩展，单点优化暴露出了越来越多的局限性：比如多卡并行推理的通信瓶颈、芯片与内存之间的耦合差、“整卡”调度的资源浪费等等，无论是吞吐性能，还是推理成本，均已经满足不了快速增长的应用部署需求。

CloudMatrix384超节点提出了新的设计架构，不同于简单的“算力叠加”，进一步实现了一切可池化、一切皆对等、一切可组合。

理解了三个“一切”，也就读懂了工程创新的价值。

一切可池化：通过统一的、超高性能的网络（MatrixLink），将NPU、CPU、内存、网络等资源解耦，形成可独立扩展的资源池。

一切皆对等：有别于传统GPU为中心的计算范式，资源池里的所有资源不再是“主从式”关系，而是更高效、更灵活的对等架构。

一切可组合：意思是CloudMatrix384超节点池化的所有资源，可以根据不同的任务需求，像搭积木一样进行灵活调配组合。

用一句话来总结：CloudMatrix384超节点将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联，形成了一台拥有超大带宽、超大内存、超高算力的超级“AI服务器”。

之所以采用全对等互联的架构，目的是为了匹配大模型的训推任务，特别是MoE混合架构的大模型。

传统集群模式下进行推理，要在每张单卡上分配所有“专家”，将所有问题都计算一遍，导致每个“专家”只能获得少量的计算和通信能力。

而一个CloudMatrix384超节点可以支持数百个专家并行推理，实现“一卡一专家”模式，即每张卡只部署一个“专家”，集中处理所有相关问题，增加单次推理的批量大小，减少单位计算的调度开销，大幅提升推理效率。同时，超节点还可以支持“一卡一算子任务”，灵活分配资源，提升任务并行处理，减少等待，将算力有效使用率（MFU）提升50%以上。

再比如大模型的推理过程分为Prefill和Decode两个阶段，Prefill生成KV Cache，Decode使用和更新KV Cache。CloudMatrix384超节点的解耦式共享内存池，可以保存更多的KV Cache，让Prefill和Decode任务更快、更均衡地访问KV Cache，大幅降低系统延迟。

也就是说，2300Tokens/s的单卡推理吞吐量和50ms以下的输出延迟，可以归结为一场“系统工程的胜利”。在摩尔定律逐渐放缓，单卡算力提升有限的背景下，通过重构计算互联架构，实现了整体系统级最优，完成了国产算力从“能用”到“好用”的跨越。

02 改变了什么？大模型落地“越过山丘”

进入2025年后，大模型的角色快速蜕变，走出了实验室，在政务、金融、医疗、能源等领域加速落地。

但在落地过程中，响应慢、吞吐低、成本高等现实问题，成了不少企业在部署大模型时难以绕开的“瓶颈”，不仅拖慢了业务节奏，还拉高了技术回报的门槛。如果说“训得好”是一场军备竞赛，“用得起”则是产业拐点。

华为在工程创新上的“弯道超车”，为大模型落地部署的挑战，提供了一种经过验证的解题范式。

先从大模型训练来看。

万亿、十万亿参数的大模型训练任务，催生了万卡乃至十万卡的集群需求，也带来了算力紧缺的“危机”。

一个乐观的消息在于，在云数据中心，CloudMatrix384超节点最高可以将432个超节点级联成16万卡的超大集群，提供10万PFlops的算力。其中一个关键指标是线性度，即节点数量增加后，性能是否能“按比例提升”。目前CloudMatrix384万卡集群的线性度已经超过95%，实现了性能提升与资源扩展的比例接近1:1，可同时支持1300个千亿参数大模型训练。

为了帮助客户最优使用资源，CloudMatrix384超节点昇腾AI云服务还支持训推算力一体部署，比如“日推夜训”模式，白天推理，晚上训练；以及“40天长稳训练、10分钟快速恢复”能力，保障长周期训练的稳定性和中断后的快速恢复。

更深刻的影响在于推理层面。

正如前面所提到的，CloudMatrix384超节点的单卡吞吐量提升到了2300Tokens/s，一同被改变的还有推理成本。

根据一位知乎网友的方式推算：单卡吞吐量2300Tokens/s，每小时可以产出828万Token，每小时租金按照15元计算，百万Token的成本约为1.8元，推理成本比英伟达的GPU方案还要低。

在大模型推理领域，有一个著名的“不可能三角”——推理成本低、响应速度快、输出准确性高几乎不可能同时满足。

CloudMatrix384超节点给出了否定的答案，以DeepSeek-R1为例，有256个固定专家、32个共享专家，CloudMatrix384超节点的“一卡一专家”模式完美契合了DeepSeek-R1的推理需求，保障推理性能的同时，仍可以实现高吞吐、低时延的目标。

在“推理成本决定最终胜利”的大模型竞赛中，CloudMatrix384超节点可以说是现阶段的“最优解”，在技术上攻克了响应速度、吞吐能力与输出准确性的三重矛盾，为千行万业搬开了大模型落地的“大山”。

可以佐证的案例有很多。

新浪基于CloudMatrix384昇腾AI云服务，为“智慧小浪”智能服务体系构建了统一的推理平台，推理的交付效率提升超过50%。

面壁智能使用CloudMatrix384昇腾AI云服务，让“小钢炮”模型的推理业务性能得到了2.7倍的提升。

360正在开启与昇腾AI云服务的全面合作，纳米AI搜索已经实现了上百款大模型的高效协作，为用户提供超级AI搜索服务。

03 写在最后

巴克莱银行曾在2025年初的研报中表示：AI推理计算需求将快速提升，预计将占到通用人工智能总计算需求的70%以上，推理计算的需求甚至将大幅超过训练，达到后者的4.5倍。

谁解决了推理效率，谁就掌握了大模型落地的主导权。

由此再来审视CloudMatrix384超节点昇腾AI云服务，不仅仅是技术指标的跃升，而是系统级工程创新的深度验证，重新定义了未来的算力范式：“芯片性能”不再是唯一的衡量尺度，以“整体系统效率”“推理成本”“模型结构适配性”构建新的竞争标准，为整个AI产业打开了一条更加高效、普惠、可持续的技术道路。

截止到目前，基于CloudMatrix384超节点的昇腾AI云服务已经在芜湖、贵安、乌兰察布、和林格尔等地的华为云数据中心上线，依托百TB级带宽的光纤骨干网，10毫秒时延圈覆盖了全国19个城市群。正在通过工程创新的胜利，承接大模型时代的产业落点。

特别声明

本文为正观号作者或机构在正观新闻上传并发布，仅代表该作者或机构观点，不代表正观新闻的观点和立场，正观新闻仅提供信息发布平台。

打开正观新闻客户端，阅读体验更佳