推理成本砍掉一半以上,OpenAI摸着DeepSeek过河


在控制成本这方面,OpenAI如今正准备走DeepSeek走过的老路。
外媒报道称,OpenAI找到了一种新的系统优化方案,能把模型推理成本砍掉一半以上。
原文中是这样描述的,说过去几万张GPU才能满足的需求,现在几百张就足够了。
其实AI公司现在最头疼的,不是模型能不能再聪明一点,而是聪明一次到底要花多少钱。
过去,行业的主线一直是把模型的性能做强、把上下文的窗口拉大。可结果呢?能力是上去了,然而账单也上去了。
尤其是OpenAI这种月活8亿的公司,推理成本是他们商业运作的根基。
当所有人都在把AI编程、Agent当作核心叙事的时候,OpenAI准备去讲一个新故事。
01
OpenAI从很久之前就在想办法降低推理成本
OpenAI虽然到现在也没公开这个方案的具体技术细节,但外媒援引知情人士的说法,称推理优化方向,主要来自于KV cache上的优化。
啥是KV cache?
一句话概括,KV cache就是模型读完前文后留下的“笔记”。
大模型生成一句话,不是一次性写完的,而是一个token一个token地往外蹦。每蹦一个新token,它都要回头看前面已经出现过的内容,判断下一个该说什么。
如果没有KV cache,模型每生成一个新token,都要把前面整段话重新读一遍、重新算一遍。比如你问了1万字材料,它生成第1个字要读一遍,生成第2个字还要再读一遍,生成到第10000个字还要再读一遍的话,那成本就炸了。
海外科技博主安德鲁·库兰(Andrew Curran)表示,OpenAI在架构上出现了一个重大突破,尤其是在内存效率方面。最关键的是,开发了这个新架构的团队,是一个从OpenAI剥离出去的团队,并且这个新团队大概很快就会公布结果。
其实OpenAI盯上KV cache已经不是一两天的事情了。
早在2024年10月的一次开发者文档更新中,OpenAI就加入了Prompt Caching(提示词缓存)机制。

Prompt Caching本质上就是对KV cache的复用,模型第一次读完一段前缀后,会生成对应的中间结果;如果后续请求用了相同前缀,系统就可以直接复用这部分KV cache,而不是重新计算整段prompt。
前缀是指开头那段重复出现的内容。比如“你是一个严谨的法律助手,你可以调用搜索、数据库、计算器,以下是合同全文……请找出风险条款”
它的底层逻辑很简单,很多请求并不是完全从零开始的。
尤其像是系统提示、代码库上下文、长对话历史,往往会反复出现。如果每次都把这些前缀重新跑一遍prefill,等于在浪费算力。
官方文档表示,通过Prompt Caching,最高可以把延迟降低80%,把输入token成本降低90%。
其实2024年5月的时候,DeepSeek就提出过类似的想法,以压缩KV cache。在DeepSeek-v2的技术报告中,DeepSeek团队提出了一个新的机制,叫做Multi-head Latent Attention(MLA)。
MLA的核心目的就是压缩KV cache。报告里表示,MLA把KV cache压进latent vector,从而保证高效推理。相较于 DeepSeek 67B,DeepSeek-V2的KV cache减少了93.3%,最大生成吞吐提升到5.76倍。
DeepSeek在V4发布后很快调整缓存命中价格,其实也是因为发现KV cache可以复用。
目前GPT并未有类似的折扣的机制,所以这次OpenAI推理优化,很有可能是想走DeepSeek走过的路。
02
KV Cache是怎么扼住HBM喉咙的
KV cache和显存是强相关的,因为KV cache就放在显存里。
KV cache跟图片、视频这类可以慢慢加载的冷数据不同,它是模型生成每一个新token时都要频繁读取的热数据。如果把KV cache放在CPU内存、SSD或者普通存储里,它也可以读取,但是读取的时间就会比较久。
模型每生成一个token,GPU都要去KV cache里查历史信息,所以为了减少延迟、提高吞吐,KV cache必须放在离GPU计算单元最近,带宽最高,延迟最低的地方,也就是HBM里。
进一步来说,HBM越大,首先意味着GPU能同时装下更多东西。比如更大的模型权重、更长上下文的KV cache、更多并发用户的缓存。

所以HBM越大,模型服务的能力上限也就会越强,尤其是长上下文和高并发推理能力。
也正是因为推理对HBM的需求大到这个地步,所以行业才会去拼命地迭代HBM4,英特尔另起炉灶搞ZAM。
HBM4是正统路线,继续堆带宽。
JEDEC在2025年4月发了标准,核心变化是内存接口从1024位翻到2048位,单堆栈带宽从HBM3E的1.18TB/s直接拉到2.8TB/s,容量从24GB提到48GB。SK 海力士和三星在今年2月同时量产,全年产能被英伟达最新的Rubin架构提前订光。
但问题就是,从H100上的HBM3(819 GB/s)到Rubin上的HBM4(2.8 TB/s),带宽翻了3倍多,然而在AI面前,仍然是无底洞。
ZAM是英特尔和软银旗下SAIMEMORY联合发布的新型显存,全称Z-Angle Memory。
它跟HBM的区别在工艺,HBM靠微凸块和硅通孔把DRAM一层一层叠起来,ZAM用铜对铜混合键合直接把9层(8层存储加1层控制)熔在一起。
结果是堆叠更矮、散热更好、功耗更低、成本更便宜。带宽约2.5TB/s,接近HBM4。不过短期内还是取代不了HBM的。只是说当前HBM的产能被SK 海力士和三星两家吃死,价格和交期都不受下游控制,ZAM的出现,是给行业多一条活路。
理解完这些技术路线,再来看HBM的逻辑,就很有意思了。
当KV cache压缩、分页、量化这些技术足够成熟,单个请求需要的HBM容量肯定会下降。尤其对推理集群来说,HBM容量和带宽的利用效率会系统性提升。
但是你反过来去想,一旦推理的成本降下来了,模型厂商马上会把省出来的显存拿去做更长上下文、更高并发、更复杂agent。
以前8K上下文贵,那就少给;现在KV cache优化了,就推128K、1M上下文。以前agent跑10步嫌贵,现在就让它跑50步、100步。以前一个用户占一份缓存,现在要同时服务更多用户。
单个请求占用的HBM可能下降,但总的HBM需求未必下降。
还有一个点,HBM不只是装KV cache,它还要装模型权重、激活值、中间计算结果,也决定数据喂给GPU计算单元的速度。
就算KV cache被优化了,HBM容量和带宽仍然是核心瓶颈。
03
OpenAI想上市就必须降低推理成本
6月24日,OpenAI和博通联合发布了Jalapeño。这是OpenAI参与设计的首款AI芯片。
这玩意从第一行电路设计开始,就是为LLM推理而生的,甚至于它都没办法跑通用任务。
从2025年10月公开宣布合作到2026年6月亮相,Jalapeño只用了9个月。可是在半导体行业里,一颗新处理器的开发周期通常以年为单位,这个速度有点“太快了”。
OpenAI的官方说法是,能这么快是因为软件和硬件深度协同开发,而且OpenAI用自己的模型,加速了芯片设计中的部分优化流程。用AI设计AI的芯片,然后AI芯片再去跑AI模型。

Jalapeño瞄准的方向就是推理。据外媒报道,Jalapeño能把LLM服务成本砍掉约50%。如果叠加上这次KV cache方面的优化,那OpenAI的推理成本,恐怕会降低一个数量级。
更关键的是,Jalapeño还不是OpenAI在推理芯片这方面下的唯一筹码。
2026年1月14日,OpenAI和Cerebras签下了一份超过100亿美元的协议。协议中提到,后者给前者提供,750MW的推理算力,持续到2028或2029年。未来可能还将扩展到2GW。
5月,Cerebras在纳斯达克IPO,估值一度冲到230亿美元以上。
英伟达和AMD做GPU,底层逻辑是把很多小芯片用高速网络连起来组成集群。这是因为生产这些芯片的光刻机,它的单次最大曝光面积约858mm²(光罩固定尺寸)。而H100裸片已经达到了814mm²,如果强行做更大单片,需要多次拼接曝光,光刻缺陷、对位误差暴增,流片工艺基本不可行。
然而Cerebras不一样,它是直接造一颗跟整片硅晶圆一样大的芯片。WSE-3,4万亿个晶体管,90万个计算核心,44GB片上SRAM。一块芯片的内存带宽是英伟达B200的2625倍。
这么做的好处在于降低通信成本。在传统的GPU集群里,数据传输要在芯片之间、节点之间跳来跳去,通信成本非常大。
Cerebras把所有东西放在一块晶圆上,省掉了绝大部分通信延迟。结果就是推理速度可以比GPU方案快15倍。GPT-5.3-Codex-Spark在Cerebras上跑到了超过1000 tokens/秒。
目前,Cerebras CEO确认,GPT-5.4已经可以在Cerebras硬件上跑起来了,在未来,GPT-5.5也会运行在Cerebras的硬件上面。
而且不只是OpenAI,AWS在6月宣布和Cerebras合作搞“推理分解”(inference disaggregation),把推理拆成prefill和decode两个阶段。prefill是计算密集的,用AWS的Trainium;decode是内存带宽密集的,用Cerebras的CS-3。
如今的OpenAI就是在两条腿走路,从硬件方面先压推理成本,然后再从软件方面压。奥特曼口口声声说不着急上市,并且外媒也表示,受SpaceX上市后股价不稳的影响,OpenAI倾向于推迟到2027年再上市。
OpenAI在6月中旬泄露的财务数据显示,OpenAI2025年全年收入为130.7亿美元,总成本和费用却高达340亿,运营亏损209亿。光付给微软的云计算账单就超过172亿。
2026年预计烧在推理和训练方面烧掉141亿。唯一的好消息是毛利率提高了,2026年Q1,OpenAI的API业务毛利率达到了39%,目标是年底冲到52%。
不过这只是皮毛而已,大家心里都清楚,再不控制成本,OpenAI可能就再也控制不住成本了。
