新华三的网络杠杆,撬动AI智算新天地
《悟空传》里有一句话:“若天压我,劈开那天;若地拘我,踏碎那地。”道尽了孙悟空打破束缚的决心。今天的中国AI乃至各行各业,都无法忽视AI算力受到制约的无形枷锁。
近年来,我国加快夯实算力基础设施建设,全国算力一体化网络作为“东数西算”的核心组成部分,正加速铺开,国产AI硬件在智算中心的占比,也在持续提升。
就在中国AI算力基础逐渐稳固的时候,大家越来越强烈意识到:如果说智算是国之重器,那么网络就是撬动这一重器的杠杆。
试想一下,万卡集群的智算中心,满负荷运转如何无阻塞互联?
万里跨域的“东数西算”枢纽,如何减少传输时的时延和抖动?
多元异构的国产AI算力集群,互联瓶颈该怎么破?
这些问题,我们在第九届未来网络发展大会上找到了答案。
网络在AI基建投资中的占比仅约10%,但通过性能优化与调优,网络却能撬动30%的智算业务提升,减少千卡集群30万/天的停机损失,降低运维成本——新华三集团高级副总裁、网络产品线总裁乔剡在大会上的观点,精准戳中产业痛点。
(新华三集团高级副总裁、网络产品线总裁 乔剡)
网络不只是一根算力杠杆,更撑起了中国智算“我命由我不由天”的硬脊梁。可以说,新华三找到了智算产业的命门,此次大会上,也凭借“算力×联接”双领域的头部优势,亮出了“以网强算”的系统性解决方案。
我们不妨就以此为契机,来探讨一下,网络这根算力杠杆如何变成了中国AI的定海神针。
长期以来,智算中心预算多向GPU等算力硬件倾斜,网络被视为辅助设施,投资占比仅约10%,但乔剡在采访中揭示的行业真相,或许会颠覆大家的认知:网络性能优化,对算力业务能力的提升幅度超过20%~30%。
“如果网络调优调得好,相当于没有成本,这就是网络在AI基础设施中的作用”,乔剡说道。
那么问题来了,要实现以小博大的杠杆效应,智算网络需要跨越哪些难关呢?
从单集群建设的角度看,DeepSeek等轻量化大模型的普及,以及N卡受限后,超节点(Scale Up)思路的兴起,推动智算集群从百卡/千卡级,向万卡甚至十万卡突破。单集群的规模跃升,考验着网络承载能力。
乔剡在采访中明确指出,当前中小算力服务商、企业私域AI场景青睐“超节点”方案,需在紧凑空间内实现数百GB级卡间带宽;另一方面,互联网大厂、大型智算中心仍依赖Scale Out横向扩展,需应对200-400Gbps参数面带宽、100Gbps数据面带宽的传输需求。这两种模式都对网络提出“大容量、低时延、高可靠”的硬性要求。如果网络端口容量不足、时延过高,或无法支持无阻塞通信,大量算力资源折损在网络传输过程中,那么万卡集群将沦为低效堆卡,成为算力释放的瓶颈。
从算力应用场景的角度看,算力结构正从中心训练到边缘推理,集群规模扩大和场景延伸,带来了更复杂的流量动态,以及多品牌异构产品组成的多元算力集群接入需求,端网割裂造成的问题愈发凸显。
传统智算场景中,以网卡为分界线,“端”(GPU卡)与“网”属于两套独立运维体系:算卡归服务器团队管理,网络设备归网络团队负责,二者缺乏协同机制。新华三集团交换机产品线产品管理部部长陈伯超举了一个例子:“GPU发送AI数据时,不知道哪条网络路径最优;若链路突发故障,网卡仍按原路径走,会导致数据丢失或重传,严重拖慢训练进度。”流量无法被端侧感知、网侧适配,可能造成网络拥塞与算力浪费。
从智算生态的角度看,中国解决AI算力“卡脖子”问题,必须打造异构算力底座,而网络封闭会阻碍多元算力协同。
在中美技术博弈的大背景下,国产GPU、网卡迎来快速发展机遇。各厂商芯片技术标准不一,适配的通信协议与优化方案也千差万别。乔剡在采访中指出,若网络仅适配单一品牌算力芯片,易陷入封闭生态的桎梏,难以满足多厂商混合部署的应用需求;而兼容性的缺失,则会严重影响不同算力设备间的数据通信效率。新华三秉持多元异构的战略,积极与众多品牌厂商展开合作。然而,适配不同GPU厂商产品、兼容多样化算力模型与应用模式,也对底层技术提出了更高的挑战。
不难看到,中国在智算方面的关键问题已经变了。以前是发愁有没有算力用,现在更头疼的是怎么让AI算力不浪费、效率更高。解决这个难题,只懂计算还不够,必须同时精通网络。举个例子,AI芯片极为敏感,对网络时延、拥塞控制要求极高,只有懂得算和通信怎么配合,才能实现端网协同的实时路径优化,让数据跑得又快又稳。
新华三“算力×联接”的双赛道布局,使其更有可能以网络为杠杆,撬动巨大的算力潜能。于是,新华三迎难而上。
一个强大的网络杠杆,能够撬动智算业务的更大潜能,而这需要产品与解决方案的硬实力,像金箍棒一样经得起实战检验。新华三的差异化就在于此。
一方面,新华三在联接与计算上都处于行业TOP级领航者,构建了覆盖芯片、设备、方案、服务等在内的智算网络体系。而且,所有方案均基于实际落地经验,正如乔剡所说:“新华三不是卖PPT的公司,我们是实打实地交付产品方案和服务。”
那么,未来网络发展大会的比武场上,新华三带来了哪些让人眼前一亮的网络产品与方案呢?
最基础的是产品的硬核能力。
搭建好算力基础设施,网络设备必须得过硬。新华三在大会上推出的AI交换机H3C S9828-128EP,有128个800G端口,交换容量达到102.4T,单机容量在行业里是最领先的。并且,只用两层架构,就能支持超10K个800G端口,这样一来,设备用量能减少70%,光模块用量能减少50%,不仅能降低智算中心的耗电量,还能让设备更稳定,维护起来也更简单,实实在在给智算客户省钱省力。
除了这款适用于大规模集群的交换机产品,新华三还带来了适用于不同场景的产品系列。其中,H3C S12500AI系列交换机采用DDC架构设计,满足算力解耦的使用需求;使用国产芯片的H3C S9825-8C-G智算交换机,能很好地适配国内的算力生态环境,一亮相就引起了会场观众的关注。
除此之外,新华三的解决方案,让网络适配智算全场景,像大小随心的金箍棒一样灵活破局。
比如智算集群的场景下,端网协同成为释放算力潜能、提升集群效率的关键技术路径。乔剡介绍,新华三自主研发的端网协同方案,通过有序分配熵值与增强的CBRC算法,实现更智能的网络调度;AD-DC智算版则为集群提供全生命周期保障,将万卡集群上线周期从数周压缩至数天,并支持自动化性能验证与故障实时监控。目前,该方案已在50余款新华三交换机及多家GPU、网卡厂商的联合验证中落地。
端网协同方案解决了端网割裂问题,那么DDC(多元动态联接)架构则实现算力与网络解耦,为行业提供新一代算力调度能力。
具体来说,传统方案ECMP存在负载不均问题,InfiniBand成本高且生态封闭。新华三自研的DDC架构,以信元转发技术将数据切为512字节切片均匀分发,彻底消除HASH极化,达成100%负载均衡,实现网络带宽充分利用,支持多元算力平滑接入,兼具性能、成本与开放性优势,为多元异构的智算底座筑基。
在“东数西算”这种广域算力调度场景下,新华三携手未来网络集团历时四年,基于IPv6+与广域RDMA打造确定性网络存算拉远方案。在500公里尺度的跨域链路上,配套RDMA加速网关可将传输效率提升至原来的6倍。这使算力枢纽可以直接服务于其他省市政企客户的推训业务,实现普惠型算力供给;对于更长距离的业务,则可通过IPv6+实现端到端优化,满足更多业务场景需要。确定性网络让绿色算力得以就近高效调用,稳固国家算力供给。
到了边缘场景,比如家庭、园区等,是AI算力接入终端设备的“最后一公里”,你我手中的AI设备、无人车、巡检机器人等想要算的快、算的稳,新华三也带来了解决方案。通过 Cloudnet云管网络方案、SD-WAN等方案,让边缘算力部署变得更简单、高效。
上述产品和方案融合在一起,让我们看到了新华三网络在智算产业中,起到了定海神针一样的作用,成为中国打破算力桎梏的一股关键力量。
新华三铸造的网络杠杆,让国产GPU不再因兼容问题而频繁撞墙,让万卡集群不再为互联瓶颈而浪费算力,让“东数西算”不再受辽阔地域的传输限制。这根杠杆承得起大国智算的重托,也护得住千行百业的算力需求,成为行业智能化的底气。
那么紧接着的问题就是,为什么新华三能提供更优解?作为智算网络服务商,新华三有几个独特的地方:
一是双腿有力。
新华三是两条腿走路,计算、联接两大领域的深耕,可以实现算网的深度融合创新,是其他纯网络或纯计算厂商难以复制的壁垒。
比如交换机的工程化能力,让新华三的网络设备具备光模块适配、液冷架构兼容等细节设计,从而突破物理极限。在计算领域,对GPU通信协议、AI训练流量模型的深刻理解,让网络不再是被动传输的管道,可以为数据、算子和模型提供最优路线。
二是心态开放。
强大如孙悟空也得跟人组队,才能取到真经,新华三智算网络方案能兼容国产GPU与异构算力,核心就在于“不搞封闭全家桶”的开放战略。
不仅是心态上开放,也切实贡献了力量。首创的DDC架构的信元转发技术,让各家国产AI芯片能在同一套网络体系中协同作战,释放最大威力,是国芯提高市占率的助力。与江苏省未来网络创新研究院联合攻关确定性网络,与江苏电信合作边缘网关方案,与GPU厂商共建测试认证体系……作为系统级厂商的新华三,把自己变成了生态枢纽,让产业链各方在其网络底座上各展神通,自然能打造出别具竞争力的产品和解决方案。
三是实战能打。
技术从实验室到产业有一条死亡之谷,无法被工程化、产品化的技术只能束之高阁。新华三的工程化能力,擅长将技术创新转化成客户易用、易部署的产品。
乔剡就提到,S9828-128EP交换机的液冷设计,既要考虑散热效率,又要兼容现有机房,所以在产品背后,新华三做了大量复杂的技术工作。而因为实战中能打,新华三可以“把困难留给自己,便利留给客户”,用优质的产品与服务打动客户。
对于中国AI和智算产业来说,当网络从配套设施变成关键杠杆,当新华三的技术方案支撑起从中心到边缘的全场景算力释放,才算真正握住了不被算力卡脖子的未来。
