文|白 鸽
编|王一粟
中国智能算力市场,苦英伟达久矣。
无论是从价格还是性能,中国公司都要付出比其他公司更多的代价,还有可能存在断供的风险。
痛点就是需求。华为云这次能够硬刚英伟达,除了昇腾本身的升级,更是因为华为云在大规模算力调配上取得了重要突破。
近期,华为云上线了国内首个商用级别的大规模超节点CloudMatrix 384,该超节点在规模、性能和可靠性上全面超越了英伟达NVL72。
性能能超越,是因为CloudMatrix 384超节点跳出单点技术限制,通过系统性软件算法创新,能够“以小博大”,实现AI算力资源从服务器级供给到矩阵级供给的转变。
说白了,单卡打不过,我们就上群架。
打破对单一处理器的“算力依赖”,打造系统化算力,已逐渐成为业界共识。
华为轮值董事长徐直军曾表示,华为的战略核心就是:充分抓住人工智能变革机遇,基于实际可获得的芯片制造工艺,计算、存储和网络技术协同创新,开创计算架构,打造‘超节点+集群’系统算力解决方案,长期持续满足算力需求。
我们能看到,尽管在GPU通用性和高精度计算方面,英伟达仍处于行业领先,但华为云正在通过系统性的工程优化,开辟了一条DeepSeek式的道路。
近年来,凭借自身在政务等市场的优势,华为云赶超腾讯云,成为中国市场第二大云计算厂商。
那么,硬刚英伟达的华为云,能否凭借在国产算力上的布局,在新一轮云厂商们的AI军备赛中实现突围?
从“堆芯片”到“拼架构”,国产算力的崛起
迈入2025年,大模型应用正在快速落地,“小而多”的推理需求逐渐爆发。
原本在大模型预训练阶段,大家比拼的是谁有高性能算力显卡、大规模的算力集群,而迈入推理计算时代,尤其是随着DeepSeek的爆火,整个底层推理计算范式已经发生改变。
DeepSeek在AI Infra层面提出了大规模跨节点专家并行(Expert Parallelism/EP)技术,通过软件层面的系统性创新,能够降低大模型推理计算在硬件门槛、集群建设等方面的要求。
也就是说,通过EP的方式,或许能够用H800跑出H100的性能。
“DeepSeek让更多人看到软硬件协同创新、算法工程系统创新的重要性。”科大讯飞副总裁、AI工程院院长潘青华如此说道。
而这种软件算法层面的系统性创新能力,无疑给国产AI芯片市场带来了更大的发展空间。另外,信创的需求,也成为催生国产算力市场的关键因素。
毕竟,当前众多地区相关政策都明确要求在智算集群建设中,国产AI芯片要占据一定比例。
不过,有多位行业人士都对光锥智能表示,当前国产芯片性能仍与国际厂商存在差距,“成熟度跟英伟达还是有明显的差距,主要表现在稳定性和效率上,国产芯片的故障率还是非常高的。”
但通过软件算法的系统性技术创新,国产AI芯片也能够满足大模型推理计算的需求。
“通过算法加速提升国产芯片算力性能是非常肯定的答案,概括来说,通过算法加速可以让整个集群国产算力表现提升一两倍,甚至两三倍,而针对几代卡,吞吐量则能提升七八倍。”北电数智战略与市场负责人CMO杨震如此对光锥智能说道。
这也就意味着,借“软实力”弯道超车,成为国产算力崛起的关键。
华为云更是深谙其道,“以空间换算力、带宽换算力、能源换算力,应把算力、存力、运力、电力作为一个复合要素考虑。”华为公司副总裁、中国云业务部部长张修征如此说道。
华为公司副总裁、中国云业务部部长张修征
这一系统性思维在CloudMatrix 384超节点上体现得尤为明显。
CloudMatrix 384超节点的核心技术,是将昇腾芯片组网,单卡算力达781.25TFlops,通过集成384张昇腾算力卡,将传统单节点8卡昇腾服务器扩展至384卡,算力规模提升50倍,达到300PFlops,为万亿参数规模的大型语言模型训练提供强大算力。
同时,通过采用 “一切可池化、一切皆对等、一切可组合” 的新型高速互联总线技术,全对等互联总线和共享以太网技术,该超节点将资源互联带宽提升10倍以上,实现2.8Tbps 卡间互联带宽,直接连接GPU、CPU等计算设备,无需经过CPU中转通信,大幅提升数据传输速度。
另外,该超节点在内存池上,还通过统一内存编址、统一标识、统一通信技术,打通内存带宽传输通道,将内存带宽提升至3.2TB/s,卡间单向带宽突破350GB/s,有效提升内存访问效率,满足大模型对内存的高需求。
也就是说,通过高带宽互联技术,将384张昇腾AI芯片、内存等全部连接起来,形成算力池、内存池,其中包括鲲鹏CPU也会形成一个单独的算力池,“在其中进行池化共享。”华为公司常务董事、华为云计算CEO张平安说道。
事实上,如果从单芯片能力来说,据DeepSeek的测试数据,华为昇腾910C在推理任务中的表现仅能够达到英伟达H100的60%。
同时,在单位算力功耗方面,国产芯片也仍比英伟达高得多。
但此次通过系统架构的创新,华为云CloudMatrix 384超节点,相比NVL72算力提升67%。
同时,基于CloudMatrix的昇腾AI云服务可以让大模型训练作业稳定运行40天,互联带宽断点恢复控制在10秒级别,为系统稳定运行提供保障。
这也意味着,国产算力建设从原本堆芯片的模式,进化到拼架构的阶段。
而系统性软件算法创新,也让国产算力能够与国际顶级算力平台比肩,让中国AI落地应用摆脱国际算力依赖,实现算力资源的自主可控。
“华为云,就是要为世界提供第二选择。”张修征说。
大模型落地千行万业,国产算力的练兵场
可以明显看到,当前国产算力的基础设施已经搭建起来,但想要算力真正用起来,却离不开千行万业的真实场景需求。
而大模型的落地应用,无疑成为了国产算力的练兵场。毕竟,大模型落地,早已不只停留在一线城市,而是真正在千行万业中生根。
比如在制造行业,芜湖海螺水泥通过探索AI在水泥建材行业的深度应用,打造水泥建材行业模型,服务多种业务场景;金龙电机通过构建智能 BOM 检索系统与企业级 AI 问答助手,推动电机行业研发效率与知识管理的双重突破等等。
位于天津的石油化工企业天辰工程,更是在短短3个月时间,就完成了DeepSeek的私有化部署,内部资料可以通过智能体快速查询;工业设计端也把AI融入进了工作流,提升了质量效率;就连项目管理,差旅报销等由OA系统处理的高频工作也实现了“一键秒查”。
这些企业能够如此快速地落地AI大模型应用的背后,都是由华为提供的算力支持。
相比其他云厂商,华为云在行业中落地应用最突出的一个特点,就是中国智造升级是其业务中的一个重要板块,目前在国内只有阿里云能在部分头部领域,和华为云分庭抗礼。
而除制造业外,政务云也是支撑起华为云业务的半壁江山。
今年DeepSeek的爆火,带动了国产算力的落地潮,以及政务业务的智能化升级,这对于国产算力及云计算厂商来说,都将是一个不错的市场增量机会。
于华为云而言,国产算力+政务市场需求,无疑更具有市场增长潜力。毕竟,在政务市场中,华为云则是始终保持领先地位,7年蝉联政务云市场第一。
比如,长沙的“政务一朵云”,通过华为云提供的昇腾AI云服务,在强大的算力支持下,让长沙城市运行综合指挥中心接入近160万个城市管理部件,长沙规频云平台汇聚27万余路规频资源,实时掌握城市运行管理状态,快速指挥调度处置各类突发状况。
相关数据显示,华为云目前已经累计服务超过800个政务云项目,包括国家部委级项目40多个,省/直辖市项目40多个,市县政府和委办局项目630多个。
“盘古大模型将会坚定走行业AI的道路,帮助各行各业的客户打造属于自己的大模型。华为并不发布面向C端的大模型应用,我们更关注的是怎么能让行业客户真正落地AI。”张平安说道。
截至目前,华为云的盘古大模型已在30多个行业、400 多个场景中应用,如矿山、铁路、制造、具身智能等,推动了行业智能化升级。
相关数据显示,盘古大模型在政务、工业、金融3个市场份额位列第一,并位居医疗、药物、气象以及汽车4个领导者象限。
更值得关注的一点是, 今年已经是华为云重点提及云云协同的第四年,而所谓的云云协同,就是华为云与终端云之间的协同。
如华为新一代折叠屏旗舰Pura X搭载全新智慧助手小艺,正是华为云和终端云能力协同之作,得益于昇腾云算力的底座支持,盘古大模型与DeepSeek双模型驱动,为用户带来智慧体验。
当然,除了手机端外,华为目前最大的智能终端体系中,智能汽车绝对占据着举足轻重的地位。而随着鸿蒙生态逐渐向汽车端的融合,想必未来华为云的云云协同也将扩展至汽车端。
无疑,大模型在千行万业的落地,带动了算力市场的增长。而国外算力供应链存在的极大不稳定性和不确定性,更是助推了国产算力在大模型落地应用中的重要作用。
据IDC报告预计,2025年,中国智能算力规模将达到1037.3EFLOPS,较2024年增长43%;中国人工智能算力市场规模将达到259亿美元,较2024年增长36.2%。
日前,中国移动董事长杨杰也表示:“预计,未来3年中国智能算力规模增长超2.5倍,年均复合增速近40%。同时,到2028年推理算力规模将超过训练算力规模。”
得益于国产算力替代市场的崛起和发展,无疑再次给华为云带来了前所未有的机遇,
近年来,华为云实现了飞速增长,在华为内部从原本的边缘业务,逐渐发展为核心业务,在外部,更是赶超腾讯云,成为中国云计算市场规模第二的厂商。
据华为年报显示,华为云2024年实现销售收入688亿元,同比增长24.4%,海外公有云收入增长超过50%,而昇腾AI云服务则实现6倍增长。
那么,华为云想要成为数字世界的“黑土地”,而是否能够借国产算力和大模型落地应用的东风,平遥直上,值得期待。