DeepSeek推翻了两座大山

字母榜 原创

2025-01-27 19:44

DeepSeek的压力,终于还是传递到了黄仁勋身上。

北京时间1月27日晚,英伟达美股股价盘前暴跌近11%,按目前市值34928亿美元计算,英伟达市值恐将缩水超3500亿美元。

DeepSeek所掀起的低成本大模型训练策略,正在让资本市场怀疑,即当用相对较少的算力也能实现不输于OpenAI的模型性能表现时,英伟达所代表的高端算力芯片是否正迎来新的泡沫? 

这股担忧情绪正进一步助推着DeepSeek的热度攀升。趁着DeepSeek R1新模型发布档口,短短一周时间,到1月27日,DeepSeek应用就拿下了美区App Store和中国区App Store免费榜的双料第一。

值得一提的是,这是首次有AI助手类产品超越OpenAI的ChatGPT,且登顶美区App Store。

爆火的用户体验场面,直接导致DeepSeek在两天之内接连出现服务宕机现象。继1月26日出现短时闪崩后,1月27日,DeepSeek再次短暂出现网页/API不可用的服务提示。官方回应称,其可能和服务维护、请求限制等因素有关。

新模型DeepSeek R1,无疑是引发这场围绕DeepSeek的全球用户大讨论的直接导火索。1月20日,DeepSeek正式发布了性能比肩OpenAI o1完整版的R1。

在数据越多、效果越好的Scaling Law(模型规模定律)触达瓶颈之下,去年9月份,OpenAI对外发布了新推理模型o1,后者采用了RL(强化学习)的新训练方式,被行业视为是大模型领域的一次“范式转移”。

但直到DeepSeek R1发布之前,国内一众大模型厂商均尚未推出能够对标OpenAI o1的模型。DeepSeek成了第一个攻破OpenAI技术黑匣子的玩家。

更重要的是,相比OpenAI在模型上的闭源,以及o1模型付费使用限制,DeepSeek R1不仅开源,而且还免费供全球用户无限调用。

R1的出现,除了打破旗舰开源模型只能有科技大厂来推动的行业传统共识之外,还打破了业内在去年形成的另一条共识,即通用大模型,正越来越成为一场大厂间的资本比拼游戏。DeepSeek用不到OpenAI十分之一的资源,就做出了性能堪比o1的R1。

DeepSeek携一众用户带来的冲击,已经让一些大厂坐不住了。

首当其冲的是Meta。一贯被行业视为“大模型开源之王”的Meta,内部被曝出开始担心起还未发布的Llama 4,在性能上可能无法赶上DeepSeek R1。

被拿来全面对标的OpenAI,也开始感受到压力。OpenAI CEO奥特曼不仅通过发布首个智能体Operator抢热度,还开始对外剧透起即将上线的o3-mini新消息。

可以预见的是,DeepSeek掀起的行业地震,波及的将不只是国外公司,国内大厂也难逃例外。

A

作为一款开源模型,DeepSeek R1在数学、代码、自然语言推理等任务上的性能,号称可以比肩OpenAI o1模型正式版。

在AIME 2024数学基准测试中,DeepSeek R1得分率为79.8%,OpenAI o1的得分率为79.2%;在MATH-500基准测试中,DeepSeek R1得分率为97.3%,OpenAI o1的得分率为96.4%。

同为推理模型,DeepSeek R1不同于OpenAI o1的技术关键点,在于其创新的训练方法,如在数据训练环节使用的R1-Zero路线,直接将强化学习(RL)应用于基础模型,而无需依赖监督微调(SFT)和已标注数据。

此前,OpenAI的数据训练非常依赖人工干预,旗下数据团队甚至被建设成为不同水平的层级,数据量大、标注要求简单明确的浅层数据,交给肯尼亚等廉价外包劳工,高等级的数据则交给更高素质标记人员,不少都是训练有素的高校博士。

DeepSeek R1的直接强化学习路线,就像让一个天才儿童在没有任何范例和指导的情况下,纯粹通过不断尝试和获得反馈来学习解题。

Perplexity公司CEO阿拉文·斯里尼瓦斯评价道:“需求是发明之母。因为DeepSeek必须找到解决办法,最终它们创造出了更高效的技术。”

除此之外,在获取高质量数据方面,DeepSeek也有所创新。

根据DeepSeek官方技术文档,R1模型使用数据蒸馏技术(Distillation)生成的高质量数据,提升了训练效率。数据蒸馏指的是通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。

这也是DeepSeek能够凭借更小参数量,就实现比肩OpenAI o1模型性能的一大关键。人工智能专家丁磊博士告诉字母榜(ID:wujicaijing),模型参数量大小与最终模型呈现的效果之间,两者“投入产出并不成正比,而是非线性的……数据多只是一个定性,更重要的是考验团队数据清洗的能力,否则随着数据增多,数据干扰也将随之变大。”

更重要的是,DeepSeek是在用不到十分之一的资源基础上,取得的上述成绩。

去年12月底发布的DeepSeek-V3开源基础模型,性能对标GPT-4o,但官方介绍的训练成本只有2048块英伟达H800,总花费约557.6万美元。

作为对比,GPT-4o模型的训练成本约为1亿美元,占用英伟达GPU量级在万块以上,且是比H800性能更强的H100。

当时,前OpenAI联创、特斯拉自动驾驶负责人安德烈·卡帕西就发文表示,DeepSeek-V3级别的能力,通常需要接近16,000颗GPU的集群。

目前,DeepSeek官方尚未公布训练推理模型R1的完整成本,但官方公布了其API定价,R1每百万输入tokens在1元-4元人民币,每百万输出tokens为16元人民币。作为对比,OpenAI o1的运行成本约为前者的30倍。

这样的表现也引发ScaleAI创始人亚历山大·王(Alexandr Wang)评价道,中国人工智能公司DeepSeek的AI大模型性能大致与美国最好的模型相当。“过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会‘改变一切’。”

a16z合伙人、AI大模型Mistral董事会成员Anjney Midha更是发文说道,从斯坦福到麻省理工,DeepSeek R1几乎一夜之间就成了美国顶尖大学研究人员的首选模型。

包括斯坦福大学计算机科学系客座教授吴恩达、微软董事长兼CEO萨提亚·纳德拉等大佬在内,也都开始关注起这款来自中国的新模型。

事实上,这并非DeepSeek第一次出圈。在宣布组建团队自研大模型以来,DeepSeek曾两度引发热议,只不过,之前更多局限在国内。

2023年4月,千亿量化私募巨头幻方量化发布公告,称将集中资源和力量,投身人工智能技术,成立新的独立研究组织,探索AGI(通用人工智能)。

一个月后的2023年5月,该组织被命名为“深度求索”,并发布了首款模型DeepSeek V1。当时,《财经十一人》报道称,国内拥有超过1万枚GPU的企业不超过5家,而DeepSeek就是其中之一,并由此开始得到外界关注。

及至2024年5月,DeepSeek再次借助大模型价格战一跃成名。当时,DeepSeek发布了DeepSeek V2开源模型,并在行业内率先降价,将推理成本降到每百万token仅1块钱,约等于GPT-4 Turbo的七十分之一。

随后,字节、腾讯、百度、阿里等大厂纷纷降价跟进。中国大模型价格战由此揭幕。

B

DeepSeek R1的出现,进一步向外界证明着,在大模型,尤其是通用大模型方面,创业公司依然有机会。

1月初,零一万物创始人李开复对外正式表态,自己将退出对AGI的追寻,未来公司主攻中小参数的行业模型。“从商业角度考虑,我们认为只有大公司能继续做超大模型。”李开复说道。

投资人们比李开复更激进。从2023年开始,作为金沙江创投主管合伙人的朱啸虎,便觉得大模型在摧毁创业,因为模型、算力和数据等三大支柱都向大厂集中,看不到创业公司的机会,且直接在大模型上做应用护城河太低,多次提醒创业者不要迷信通用大模型。

远望资本程浩更是直接认为中国版的ChatGPT,只会在5家公司里产生:BAT+字节+华为。在程浩看来,创业者只有在具有先发优势的情况下,才有可能跑赢大厂。

正是因为当初谷歌等国外大厂并不看好OpenAI的大语言模型路线,才让ChatGPT借助先发势能跑了出来。但是,当下研发大模型已经成为中国科技大厂的共识,甚至百度、阿里推出产品的动作,比创业公司还快。

但在接受暗涌采访中,DeepSeek创始人梁文锋在回应与大厂竞争中曾说道,“大厂肯定有优势,但如果不能很快应用,大厂也不一定能持续坚持,因为它更需要看到结果。头部的创业公司也有技术做得很扎实的,但和老的一波AI创业公司一样,都要面对商业化难题。”

背靠千亿量化基金的DeepSeek,在免去资金的后顾之忧外,选择了一条颇显理想主义的路径,即只做模型研究,不考虑商业变现,且大胆启动年轻人。

在DeepSeek的150左右团队中,大多是一帮Top高校的应届毕业生、没毕业的博四、博五实习生,以及一些毕业才几年的年轻人。

这是梁文锋有意选择的结果,也是DeepSeek能够抢在大厂前面推出R1模型的秘诀之一,“如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。”梁文锋解释道。

这也使得DeepSeek成了中国大模型创业公司中,唯一一家只做基础模型、暂不考虑商业化的公司,还要加上一条,即有能力继续开源旗舰模型的公司。

截至目前,DeepSeek R1已经成为开源社区Hugging Face上下载量最高的大模型之一,下载量超过10万次。

此前,国内以百度创始人李彦宏为代表的一派,坚决认为开源路线打不过闭源路线,且缺乏商业化支撑的开源模型,会在往后的竞争中差距越拉越大。

但起码从目前来看,DeepSeek R1的出现,证明靠开源路线依然能够追上大模型头部玩家的脚步,且创业公司依然有能力推动开源生态发展。

Meta AI首席科学家杨立昆(Yann LeCun)在评价中就提到,“给那些看到DeepSeek的表现后,觉得‘中国在AI方面正在超越美国’的人,你们的解读是错的。正确的解读应该是,‘开源模型正在超越专有模型’。”

在去年DeepSeek v3发布后,梁文锋就曾对外表示,公司未来不会像OpenAI一样选择从开源走向闭源,“我们认为先有一个强大的技术生态更重要。”

毕竟,OpenAI的经验起码说明了,在颠覆性的技术面前,闭源难以形成足够的护城河,更无法阻止被别人赶超。“所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。”

2020年发布GPT-3时,OpenAI曾详细公开了模型训练的所有技术细节。中国人民大学高瓴人工智能学院执行院长文继荣认为,国内很多大模型其实都有GPT-3的影子。

但随着OpenAI在GPT-4上一改开源策略,逐渐走向封闭,一些国产大模型就此失去了可供复制的追赶路径。

如今,DeepSeek携开源R1的到来,无疑将给国内外大模型玩家在对标o1的推理模型研发方面,创建起一条新的借鉴思路。

C

DeepSeek在大模型领域掀起的这场蝴蝶效应,已经开始影响到部分大厂。

有Meta员工在硅谷匿名八卦分享平台Blind上发布消息称,Meta的生成式AI部门正因DeepSeek处于恐慌中,甚至爆料称尚未发布的新一代开源模型Llama 4,在基准测试中已经落后于DeepSeek。

在外媒的进一步报道中,Meta生成式AI团队和基础设施团队,正在组建4支作战小分队来像素级剖析DeepSeek,有的试图搞清楚DeepSeek是如何降低训练和运行成本的,有的负责研究DeepSeek可能使用了哪些数据来训练模型,有的则考虑基于DeepSeek模型的属性重组Meta模型的新技术。

图源:AI制作

与此同时,为了鼓舞士气,作为Meta创始人的扎克伯格,更是放出2025年继续扩大AI投资的新消息,称2025年围绕AI的整体支出将达到600亿-650亿美元,相比去年的380亿-400亿美元,增长了超过70%,从而构建起一个拥有130万块GPU的超级计算机集群。

除了跟Meta抢开源之王的名头外,DeepSeek正在从OpenAI手里抢走客户。

在比OpenAI便宜30倍的API价格诱惑力之下,一些初创公司正在改换门庭。企业级AI代理开发商SuperFocus的联合创始人Steve Hsu认为,DeepSeek的性能与为SuperFocus大部分生成式AI功能提供支持的OpenAI旗舰模型GPT-4相似甚至更好。“SuperFocus可能会在未来几周转向DeepSeek,因为DeepSeek可以免费下载、在自家服务器上存储和运行,并将增加销售产品的利润率。”

成为更多公司的模型底座,这也是梁文锋规划中DeepSeek最想占据的定位。在梁文锋看来,DeepSeek未来可以只负责基础模型和前沿的创新,然后其他公司在DeepSeek的基础上构建To B、To C的业务。”如果能形成完整的产业上下游,我们就没必要自己做应用。”梁文锋说道。

国内,对DeepSeek的研究也在同步进行。有报道称,字节跳动、阿里通义以及智谱、Kimi等团队,都在积极研究DeepSeek,字节跳动甚至可能在考虑与DeepSeek展开研究合作。

在这些公司之前,雷军更是先人一步挖起了DeepSeek的墙角。去年12月,第一财经爆料称,雷军疑似开出千万年薪亲自挖来“95后天才少女”罗福莉,后者是DeepSeek-V2开源模型的关键开发者。未来,罗福莉或将供职于小米AI实验室,领导小米大模型团队。

挖人之外,国内更激烈的竞争或将同样围绕API展开,“去年国内有一批创业公司和中小企业,因为OpenAI断供转向了国内大模型公司,现在DeepSeek很有可能成为收复OpenAI失地的那个野蛮人。”恒业资本创始人兼合伙人江一预测道。

压力传导到了这些国内大模型公司身上。如果它们不能快速将模型效果跟进到R1级别,客户就难免用脚投票。

特别声明
本文为正观号作者或机构在正观新闻上传并发布,仅代表该作者或机构观点,不代表正观新闻的观点和立场,正观新闻仅提供信息发布平台。
最新评论
打开APP查看更多精彩评论

微信扫一扫
在手机上浏览