阿里发布最强开源模型,成本仅DeepSeek三分之一该咋看?

江瀚视野 原创

2025-04-29 15:36

作者:江瀚

首先,从技术创新角度来看,Qwen3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,这种创新设计不仅在热门模型中较为少见,而且大大节省了算力消耗。把顶尖的推理模型和非推理模型集成到一个模型里,需要精细、创新的设计及训练,其训练难度远超单纯的推理模型,体现了阿里在技术研发上的深厚实力和创新能力。这一技术创新为模型带来了独特的优势,使其在性能大幅提升的同时,成本得以有效控制。

其次,从性能表现角度分析,在性能方面,Qwen3采用混合专家架构,总参数量235B,激活仅需22B,预训练数据量达36T ,并经过多轮强化学习。在多个重要测评中表现出色,如在奥数水平的AIME25测评、考察代码能力的LiveCodeBench评测以及评估模型人类偏好对齐的ArenaHard测评等,都超越了众多顶尖模型,充分证明了其卓越的性能。

第三,从商业价值和市场影响角度考量,Qwen3提供了丰富的模型版本,每款模型均斩获同尺寸开源模型SOTA(最佳性能),能够满足不同用户的多样化需求。其部署成本大幅下降,仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一,这将吸引更多企业和开发者采用。

最后,从行业竞争角度来看,目前阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个,已超越美国Llama成为全球第一开源模型。Qwen3的发布将进一步增强阿里在开源模型市场的竞争力,对其他竞争对手形成巨大压力。它的高性能、低成本优势可能会促使行业内其他企业加大研发投入,推动整个行业的技术进步和创新发展。

特别声明
本文为正观号作者或机构在正观新闻上传并发布,仅代表该作者或机构观点,不代表正观新闻的观点和立场,正观新闻仅提供信息发布平台。
最新评论
打开APP查看更多精彩评论

微信扫一扫
在手机上浏览