大模型这一年,豆包跑出来了
大模型时代的“抖音”
撰文/ 陈邓新
编辑/ 李觐麟
排版/ Annalee
大模型之争,进入关键时刻。
2014年,字节跳动旗下的豆包大模型实现了逆袭,凭借“更强模型、更低成本、更易落地”的打法迅速出圈。
以至于,资本热捧“豆包概念”,赚足了2.2亿股民的眼球。
特别是火山引擎Force冬季大会之后,豆包大模型全面升级,从感知信息走向感知世界,“豆包概念”一跃成为A股最靓的仔,引得字节跳动官方出面发布过度炒作的风险提示。
不难看出,豆包大模型正在成为大模型时代的“抖音”。
更强模型,崭露头角并非偶然
豆包大模型,上演了一场后发先至的好戏。
2020年5月15日,豆包大模型才正式下场,虽然姗姗来迟,却迅速打开了局面,成为大模型赛道最大的“黑马”。
关于此,从豆包的使用数据,就可见一斑。
官方资料显示,豆包大模型5月的日均tokens使用量为1200亿,到了12月日均tokens使用量超过4万亿,增长超过33倍。
而在2024年11月的AI产品全球月活跃排行榜上,豆包APP的MAU高达5998万,仅次于OpenAI的ChatGPT,位居全球第二。
之所以如此,与模型能力强悍息息相关。
在权威机构智源研究院的最新评测中,豆包大模型在重点考察语言模型中文能力的主观评测中排名第一,在多模态的视觉理解、视频生成、图像生成三个赛道均排名全球第二。
以豆包用户青睐的AI语音为例,豆包大模型在ASR和超自然的TTS音色上下了狠功夫,通过超拟人达到类似和真人对话的效果,从而有了差异化竞争力。
豆包战略研究负责人周昊表示:“英语口语练习是大家很喜欢的教育场景。用户反馈说,豆包的发音、词汇量、句型都远远超过他自己。通过豆包实时语音通话功能,和豆包一来一回练英语,毫不尴尬,也省了请老师辅导的开销。”
由此可见,豆包大模型崭露头角,并非偶然。
这次全面焕新,豆包通用模型pro新版本全面对齐GPT-4o,使用价格仅为后者的1/8;综合任务处理能力较5月提升32%,在推理上提升13%,在指令遵循上提升9%,在代码上提升58%,在数学上提升43%,在专业知识领域能力提升54%。
此外,豆包音乐模型4.0版从生成60秒的片段迭代为生成3分钟作品,具备制作一首完整音乐的能力;豆包文生图模型2.1版,首次实现精准生成汉字和一句话P图的能力。
简而言之,豆包大模型的大模型能力更强了,可以满足更多的复杂任务需求以及创新应用场景。
一名互联网观察人士告诉锌刻度:“大模型是一个重资产赛道,考验企业在资金、生态、技术、人才等方面的底蕴,Scaling Law之下强者恒强。”
通俗易懂地说,只要模型能力不断迭代、不断变强,豆包大模型就可以实现“一步领先,步步领先”。
于是乎,资本市场沸腾了。
机构踏破了“豆包概念”关联的上市公司门槛,单单中科蓝讯一家上市公司,2024年11月以来就累计接待了96家机构调研。
北京艾文智略投资管理有限公司首席投资官曹辙表示:“豆包的成功是字节跳动技术实力和市场定位的体现,随着AI大模型在各领域的应用逐渐深入,市场对AI应用端的关注度也将不断提升。”
更低成本,技术创新是关键
更强模型之外,更低成本是豆包大模型弯道超车的另外一个关键因素。
秉持“好的模型就是要让每一家企业都用得起”的理念,豆包大模型上线之初,就将通用模型的行业定价降低了99%,拉开了大模型集体降价的序幕。
如此一来,豆包大模型走上了“高质低价”之路,成功占领用户的心智。
尝到甜头之后,豆包大模型在新上架的视觉理解模型上,再次祭出降价打法:每千tokens的价格为0.003元,比行业平均定价低了85%,相当于一块钱可以处理284张720P的图片;同时,火山引擎额外提供更高的初始流量,RPM达到了15000次,TPM达到120万。
这意味着,继通用模型之后,豆包大模型推动视觉理解也进入了“厘时代”。
需要注意的是,价格战并非豆包大模型的本意,只是技术创新带来的结果,是一个正反馈的良性循环。
抖音集团副总裁李亮表示:“豆包大模型通过技术创新来降低成本,在算法、软件工程和硬件方案上做了非常多优化,3厘/千tokens的定价也有可观的毛利,而且这是一步到位的透明价格,并不是‘刊例价+折扣’的玩法。”
事实上,技术降本一直是豆包大模型的底色。
譬如,新一代的火山引擎GPU实例,通过vRDMA 网络,支持大规模并行计算和P/D分离推理架构,显著提升训练和推理效率,降低成本。
再譬如,新推出的EIC弹性极速缓存,能够实现GPU直连,使大模型推理时延降低至1/50;成本降低20%。
这么一来,豆包大模型才有了推动价格普惠的底气。
火山引擎总裁谭待表示:“企业之所以用豆包更多,还是因为使用体验较好,而不是没有尝试过其他的产品。这个市场就是要充分竞争,最关键的是能不能把自己的东西做好,能不能把成本做低,能不能把方案的落地应用性做好。”
换而言之,豆包大模型推崇的是良性竞争。
“对于企业级市场来说,商业模式是建立在可持续发展的基础上,任何商品必须是盈利的,不能靠补贴来降价。如果降价是亏损的,规模越大亏得越多,这就不是合理的商业模式。”谭待如是说。
良性竞争之下,视觉理解进入大浪淘沙阶段,由于门槛降低令更多开发者涌入,刺激更多的应用创新,从而催生繁荣的AICG生态。
出国旅游,可以快速看懂外文的菜单、标签、指示牌、滚动显示,可以识别著名地标建筑的背景知识等;家庭辅导,可以快速批改作文写得好不好,可以数学题做得判断对错等;网购求知,可以拍照找同款快速进入相关的推荐界面……
以上可见,视觉理解可以全面赋能应用场景,进一步加速大模型落地。
更易落地,打通“最后一公里”
更低成本之外,更易落地是豆包大模型另外一个核心竞争力。
公开资料显示,豆包大模型已经与八成主流汽车品牌合作,汽车行业日均tokens消耗增长了50倍,稳坐汽车行业大模型服务商第一梯队;接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。
此外,一个好汉三个帮,豆包大模型落地离不开HiAgent、扣子、火山方舟三大平台的支持,借此第三方企业才可以快速提升AI能力与AI应用开发效率。
以HiAgent为例,定位为低代码平台,大幅降低了基于大模型开发AI应用的门槛,扩大了受众范围,加速AI普惠。
火山引擎副总裁张鑫表示:“如果把豆包大模型比作 Android,那么HiAgent就是企业调度系统能力开发应用的SDK(软件开发工具包)。”
通俗易懂地说,开发者可以像拼乐高一样搭建AI应用。
此背景下,HiAgent上线7个月,成为火山引擎增长最快的企业服务产品之一,客户涉及华泰证券、宁德时代、浙江大学等不同领域的佼佼者。
更为重要的是,迭代至1.5版之后,HiAgent提供100种行业的开发“样板间”,企业一键复刻,可以使用模板轻而易举地开发AI应用。
由此一来,解决了低代码平台“专业客户看不上,小白客户不会用”的传统痛点。
一名业内人士告诉锌刻度:“业务端与开发端往往需要深度沟通与反复交流,不然容易出现功能不完整、需求不匹配等情况,低代码平台可以让业务端直接上手开发,省去烦琐的中间过程,开发端也可以将工作重心转向非标应用”。
另外,扣子平台拥有100万个活跃开发者,发布超过200万个智能体;火山方舟的全域AI搜索,将企业的信息、业务和用户需求紧密结合,帮助企业实现“发现更多,推荐更准,搜索无限可能”。
值得一提的是,豆包大模型也在对内赋能。
这其中,AIGC应用即梦表现得可圈可点,借助其制作的科幻短剧《觉醒》,成为首部单日点赞破40万的AI短剧。
工信部信息通信经济专家委员会委员盘和林在接受媒体采访时表示:“即梦AI目前在国内(视频)生成领域,还是比较领先的。”
这意味着,即梦大大降低了短剧的创作门槛以及影视创作的试错成本。
总而言之,豆包大模型采用高举高打的策略,围绕“数据、场景、生态”全面迭代,一跃成为大模型时代的领先者。
因此,豆包大模型有了更大的盼头。