豆包视觉理解模型正式发布,1块钱可处理近300张高清图片 ​

新识研究所 取材网络

2024-12-18 18:21

近日,字节跳动旗下的豆包大模型家族迎来了一次里程碑式的升级,豆包视觉理解模型作为此次升级的重头戏,旨在为企业提供高效且经济的视觉处理方案。

该模型具备出色的内容识别、理解和推理能力,能够根据图像信息进行复杂的逻辑计算,从而完成从智能训练到数据合成,再到数字资产制作的完整流程。

值得一提的是,豆包视觉理解模型在处理大量数据时展现出了显著的成本优势,其千tokens价格仅为3厘,换算下来,每处理一张720P的图片成本不到4分钱,相较于行业平均水平降低了85%。这一突破性进展,无疑将为企业在视觉处理领域节省大量成本。

此前,豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示:“豆包一直在努力,让用户的输入更快更方便”。为此,豆包产品非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。

此外,豆包大模型多款产品也迎来重要更新:豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本,更是在业界首次实现精准生成汉字和一句话P图的产品化能力,该模型已接入即梦AI和豆包App。

作者:杨启隆

编辑:钟响

特别声明
本文为正观号作者或机构在正观新闻上传并发布,仅代表该作者或机构观点,不代表正观新闻的观点和立场,正观新闻仅提供信息发布平台。
最新评论
打开APP查看更多精彩评论

微信扫一扫
在手机上浏览