豆包视觉理解模型正式发布,1块钱可处理近300张高清图片
近日,字节跳动旗下的豆包大模型家族迎来了一次里程碑式的升级,豆包视觉理解模型作为此次升级的重头戏,旨在为企业提供高效且经济的视觉处理方案。
该模型具备出色的内容识别、理解和推理能力,能够根据图像信息进行复杂的逻辑计算,从而完成从智能训练到数据合成,再到数字资产制作的完整流程。
值得一提的是,豆包视觉理解模型在处理大量数据时展现出了显著的成本优势,其千tokens价格仅为3厘,换算下来,每处理一张720P的图片成本不到4分钱,相较于行业平均水平降低了85%。这一突破性进展,无疑将为企业在视觉处理领域节省大量成本。
此前,豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示:“豆包一直在努力,让用户的输入更快更方便”。为此,豆包产品非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。
此外,豆包大模型多款产品也迎来重要更新:豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本,更是在业界首次实现精准生成汉字和一句话P图的产品化能力,该模型已接入即梦AI和豆包App。
作者:杨启隆
编辑:钟响
特别声明
本文为正观号作者或机构在正观新闻上传并发布,仅代表该作者或机构观点,不代表正观新闻的观点和立场,正观新闻仅提供信息发布平台。
最新评论
打开APP查看更多精彩评论