推理成本砍掉一半以上，OpenAI摸着DeepSeek过河正观新闻

推理成本砍掉一半以上，OpenAI摸着DeepSeek过河

字母榜原创

2026-07-02 17:59

关注

在控制成本这方面，OpenAI如今正准备走DeepSeek走过的老路。

外媒报道称，OpenAI找到了一种新的系统优化方案，能把模型推理成本砍掉一半以上。

原文中是这样描述的，说过去几万张GPU才能满足的需求，现在几百张就足够了。

其实AI公司现在最头疼的，不是模型能不能再聪明一点，而是聪明一次到底要花多少钱。

过去，行业的主线一直是把模型的性能做强、把上下文的窗口拉大。可结果呢？能力是上去了，然而账单也上去了。

尤其是OpenAI这种月活8亿的公司，推理成本是他们商业运作的根基。

当所有人都在把AI编程、Agent当作核心叙事的时候，OpenAI准备去讲一个新故事。

OpenAI从很久之前就在想办法降低推理成本

OpenAI虽然到现在也没公开这个方案的具体技术细节，但外媒援引知情人士的说法，称推理优化方向，主要来自于KV cache上的优化。

啥是KV cache？

一句话概括，KV cache就是模型读完前文后留下的“笔记”。

大模型生成一句话，不是一次性写完的，而是一个token一个token地往外蹦。每蹦一个新token，它都要回头看前面已经出现过的内容，判断下一个该说什么。

如果没有KV cache，模型每生成一个新token，都要把前面整段话重新读一遍、重新算一遍。比如你问了1万字材料，它生成第1个字要读一遍，生成第2个字还要再读一遍，生成到第10000个字还要再读一遍的话，那成本就炸了。

海外科技博主安德鲁·库兰（Andrew Curran）表示，OpenAI在架构上出现了一个重大突破，尤其是在内存效率方面。最关键的是，开发了这个新架构的团队，是一个从OpenAI剥离出去的团队，并且这个新团队大概很快就会公布结果。

其实OpenAI盯上KV cache已经不是一两天的事情了。

早在2024年10月的一次开发者文档更新中，OpenAI就加入了Prompt Caching（提示词缓存）机制。

Prompt Caching本质上就是对KV cache的复用，模型第一次读完一段前缀后，会生成对应的中间结果；如果后续请求用了相同前缀，系统就可以直接复用这部分KV cache，而不是重新计算整段prompt。

前缀是指开头那段重复出现的内容。比如“你是一个严谨的法律助手，你可以调用搜索、数据库、计算器，以下是合同全文……请找出风险条款”

它的底层逻辑很简单，很多请求并不是完全从零开始的。

尤其像是系统提示、代码库上下文、长对话历史，往往会反复出现。如果每次都把这些前缀重新跑一遍prefill，等于在浪费算力。

官方文档表示，通过Prompt Caching，最高可以把延迟降低80%，把输入token成本降低90%。

其实2024年5月的时候，DeepSeek就提出过类似的想法，以压缩KV cache。在DeepSeek-v2的技术报告中，DeepSeek团队提出了一个新的机制，叫做Multi-head Latent Attention（MLA）。

MLA的核心目的就是压缩KV cache。报告里表示，MLA把KV cache压进latent vector，从而保证高效推理。相较于 DeepSeek 67B，DeepSeek-V2的KV cache减少了93.3%，最大生成吞吐提升到5.76倍。

DeepSeek在V4发布后很快调整缓存命中价格，其实也是因为发现KV cache可以复用。

目前GPT并未有类似的折扣的机制，所以这次OpenAI推理优化，很有可能是想走DeepSeek走过的路。

KV Cache是怎么扼住HBM喉咙的

KV cache和显存是强相关的，因为KV cache就放在显存里。

KV cache跟图片、视频这类可以慢慢加载的冷数据不同，它是模型生成每一个新token时都要频繁读取的热数据。如果把KV cache放在CPU内存、SSD或者普通存储里，它也可以读取，但是读取的时间就会比较久。

模型每生成一个token，GPU都要去KV cache里查历史信息，所以为了减少延迟、提高吞吐，KV cache必须放在离GPU计算单元最近，带宽最高，延迟最低的地方，也就是HBM里。

进一步来说，HBM越大，首先意味着GPU能同时装下更多东西。比如更大的模型权重、更长上下文的KV cache、更多并发用户的缓存。

所以HBM越大，模型服务的能力上限也就会越强，尤其是长上下文和高并发推理能力。

也正是因为推理对HBM的需求大到这个地步，所以行业才会去拼命地迭代HBM4，英特尔另起炉灶搞ZAM。

HBM4是正统路线，继续堆带宽。

JEDEC在2025年4月发了标准，核心变化是内存接口从1024位翻到2048位，单堆栈带宽从HBM3E的1.18TB/s直接拉到2.8TB/s，容量从24GB提到48GB。SK 海力士和三星在今年2月同时量产，全年产能被英伟达最新的Rubin架构提前订光。

但问题就是，从H100上的HBM3（819 GB/s）到Rubin上的HBM4（2.8 TB/s），带宽翻了3倍多，然而在AI面前，仍然是无底洞。

ZAM是英特尔和软银旗下SAIMEMORY联合发布的新型显存，全称Z-Angle Memory。

它跟HBM的区别在工艺，HBM靠微凸块和硅通孔把DRAM一层一层叠起来，ZAM用铜对铜混合键合直接把9层（8层存储加1层控制）熔在一起。

结果是堆叠更矮、散热更好、功耗更低、成本更便宜。带宽约2.5TB/s，接近HBM4。不过短期内还是取代不了HBM的。只是说当前HBM的产能被SK 海力士和三星两家吃死，价格和交期都不受下游控制，ZAM的出现，是给行业多一条活路。

理解完这些技术路线，再来看HBM的逻辑，就很有意思了。

当KV cache压缩、分页、量化这些技术足够成熟，单个请求需要的HBM容量肯定会下降。尤其对推理集群来说，HBM容量和带宽的利用效率会系统性提升。

但是你反过来去想，一旦推理的成本降下来了，模型厂商马上会把省出来的显存拿去做更长上下文、更高并发、更复杂agent。

以前8K上下文贵，那就少给；现在KV cache优化了，就推128K、1M上下文。以前agent跑10步嫌贵，现在就让它跑50步、100步。以前一个用户占一份缓存，现在要同时服务更多用户。

单个请求占用的HBM可能下降，但总的HBM需求未必下降。

还有一个点，HBM不只是装KV cache，它还要装模型权重、激活值、中间计算结果，也决定数据喂给GPU计算单元的速度。

就算KV cache被优化了，HBM容量和带宽仍然是核心瓶颈。

OpenAI想上市就必须降低推理成本

6月24日，OpenAI和博通联合发布了Jalapeño。这是OpenAI参与设计的首款AI芯片。

这玩意从第一行电路设计开始，就是为LLM推理而生的，甚至于它都没办法跑通用任务。

从2025年10月公开宣布合作到2026年6月亮相，Jalapeño只用了9个月。可是在半导体行业里，一颗新处理器的开发周期通常以年为单位，这个速度有点“太快了”。

OpenAI的官方说法是，能这么快是因为软件和硬件深度协同开发，而且OpenAI用自己的模型，加速了芯片设计中的部分优化流程。用AI设计AI的芯片，然后AI芯片再去跑AI模型。

Jalapeño瞄准的方向就是推理。据外媒报道，Jalapeño能把LLM服务成本砍掉约50%。如果叠加上这次KV cache方面的优化，那OpenAI的推理成本，恐怕会降低一个数量级。

更关键的是，Jalapeño还不是OpenAI在推理芯片这方面下的唯一筹码。

2026年1月14日，OpenAI和Cerebras签下了一份超过100亿美元的协议。协议中提到，后者给前者提供，750MW的推理算力，持续到2028或2029年。未来可能还将扩展到2GW。

5月，Cerebras在纳斯达克IPO，估值一度冲到230亿美元以上。

英伟达和AMD做GPU，底层逻辑是把很多小芯片用高速网络连起来组成集群。这是因为生产这些芯片的光刻机，它的单次最大曝光面积约858mm²（光罩固定尺寸）。而H100裸片已经达到了814mm²，如果强行做更大单片，需要多次拼接曝光，光刻缺陷、对位误差暴增，流片工艺基本不可行。

然而Cerebras不一样，它是直接造一颗跟整片硅晶圆一样大的芯片。WSE-3，4万亿个晶体管，90万个计算核心，44GB片上SRAM。一块芯片的内存带宽是英伟达B200的2625倍。

这么做的好处在于降低通信成本。在传统的GPU集群里，数据传输要在芯片之间、节点之间跳来跳去，通信成本非常大。

Cerebras把所有东西放在一块晶圆上，省掉了绝大部分通信延迟。结果就是推理速度可以比GPU方案快15倍。GPT-5.3-Codex-Spark在Cerebras上跑到了超过1000 tokens/秒。

目前，Cerebras CEO确认，GPT-5.4已经可以在Cerebras硬件上跑起来了，在未来，GPT-5.5也会运行在Cerebras的硬件上面。

而且不只是OpenAI，AWS在6月宣布和Cerebras合作搞“推理分解”（inference disaggregation），把推理拆成prefill和decode两个阶段。prefill是计算密集的，用AWS的Trainium；decode是内存带宽密集的，用Cerebras的CS-3。

如今的OpenAI就是在两条腿走路，从硬件方面先压推理成本，然后再从软件方面压。奥特曼口口声声说不着急上市，并且外媒也表示，受SpaceX上市后股价不稳的影响，OpenAI倾向于推迟到2027年再上市。

OpenAI在6月中旬泄露的财务数据显示，OpenAI2025年全年收入为130.7亿美元，总成本和费用却高达340亿，运营亏损209亿。光付给微软的云计算账单就超过172亿。

2026年预计烧在推理和训练方面烧掉141亿。唯一的好消息是毛利率提高了，2026年Q1，OpenAI的API业务毛利率达到了39%，目标是年底冲到52%。

不过这只是皮毛而已，大家心里都清楚，再不控制成本，OpenAI可能就再也控制不住成本了。

特别声明

本文为正观号作者或机构在正观新闻上传并发布，仅代表该作者或机构观点，不代表正观新闻的观点和立场，正观新闻仅提供信息发布平台。

打开正观新闻客户端，阅读体验更佳