字节跳动豆包大模型发布：高性价比，一元处理近300张720P图片-热点-智快网

在近日举办的火山引擎Force大会上，字节跳动公司正式揭晓了其最新的技术创新——豆包视觉理解模型。这一多模态大模型旨在为企业提供高性价比的视觉理解解决方案，其价格优势尤为显著，据称，处理千个tokens的成本仅为3厘，而处理284张720P图片的费用更是低至1元，这一价格相较于行业平均水平低了85%。

火山引擎总裁谭待在会上详细介绍了豆包视觉理解模型的独特之处。他指出，该模型不仅能够精确识别图像内容，还具备强大的理解和推理能力，可以执行复杂的逻辑计算任务，例如分析图表、处理代码以及解答学科问题。豆包模型在视觉描述和创作方面同样表现出色。

在豆包大模型系列产品的更新方面，同样传来了好消息。豆包通用模型pro已经实现了与GPT-4o的全面对齐，但其使用价格仅为后者的八分之一。音乐模型则从原先的生成60秒简单结构升级为了能够生成3分钟的完整音乐作品。而文生图模型2.1版本更是实现了业界首次的精准生成汉字和一句话P图的产品化能力，这一版本已经成功接入了即梦AI和豆包App。

火山引擎大会还透露，豆包视频生成模型1.5版将在2025年春季推出，新版本将具备更强的长视频生成能力。同时，豆包端到端实时语音模型也将很快上线，届时将解锁多角色演绎、方言转换等一系列新功能。谭待表示，尽管豆包大模型发布时间相对较晚，但其在短时间内实现了快速的迭代和进化，目前已经成为国内技术最全面、最领先的大模型之一。

从数据上看，豆包通用模型的市场表现同样亮眼。截至12月中旬，其日均tokens使用量已经超过了4万亿，相较于七个月前首次发布时增长了33倍。这一数据表明，大模型应用正在加速渗透到各行各业，成为推动数字化转型的重要力量。

豆包大模型在智能终端领域的表现也颇为抢眼。目前，该模型已经与八成主流汽车品牌建立了合作关系，并成功接入了多家手机、PC等智能终端，覆盖终端设备数量约3亿台。在半年时间内，来自智能终端的豆包大模型调用量实现了100倍的增长。