智快网
快讯 行业 产业 汽车 科技 AI+ 热点

百度文心Moment大会启幕:文心5.0正式版上线,引领AI应用新潮流

2026-01-23来源:天脉网编辑:瑞雪

百度近日正式推出并上线了其原生全模态大模型文心5.0正式版,这一模型以2.4万亿参数的规模,成为当前全球参数规模最大的多模态大模型之一。与传统的多模态方案不同,文心5.0采用原生全模态统一建模技术,将文本、图像、视频和音频等多源数据在同一模型框架内联合训练,实现了多模态特征的原生融合与协同优化,从而具备了全模态理解与生成能力。

在技术架构上,文心5.0引入了超大规模混合专家结构,通过超稀疏激活参数设计,将激活参数比控制在3%以下,既保证了模型的强大能力,又显著提升了推理效率。该模型还基于大规模工具环境合成长程任务轨迹数据,并采用端到端多轮强化学习训练方法,进一步增强了智能体和工具调用能力。在权威基准评测中,文心5.0的语言与多模态理解能力已超越Gemini-2.5-Pro、GPT-5-High等国际主流模型,稳居全球第一梯队,其图像与视频生成能力也达到垂直领域专精模型水平。

百度应用模型研发部负责人贾磊在发布会上强调,模型的价值最终体现在应用场景中。他指出,文心5.0的研发始终围绕“跑得稳、答得对、用得起”的目标,致力于让模型在真实场景中发挥实效。基于这一理念,百度构建了矩阵模型和专精模型两大体系:矩阵模型面向通用场景快速落地,包括文心Lite模型、视频大模型和语音大模型;专精模型则聚焦行业应用,如搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型等。

在技术突破方面,贾磊分享了三项创新成果。首先是基于声音Token的端到端合成大模型,该模型通过离散语音token定义、MoE大语言模型韵律建模、flow后处理谱分布描述以及Unet自重构特征vocoder等技术,实现了高质量声音合成。其次是5分钟超越真人的直播技术,通过少量音色采样、脸谱化妆和韵律模式匹配,使合成语音具备直播带货所需的情绪感染力。最后是实时交互数字人技术,采用三态Token联动架构,实现文本、语音、视频的流式控制,并由声音Token实时驱动表情与口型,输出低延迟、高表现力的视频流,百度罗永浩数字人即基于此技术开发。

为推动大模型在产业中的落地,百度千帆平台推出了Agent Infra解决方案。该平台集成文心5.0及150余个全场景SOAT模型服务,提供百度AI搜索等工具及MCP和Agent工具链,并结合数据管理和企业级服务,为企业构建全周期、多场景的业务运行环境。目前,千帆平台已累计开发超130万个Agents,以百度AI搜索为代表的工具日均调用量突破千万次。此前,百度的数字人生成技术已在直播带货等领域广泛应用,2025年罗永浩数字人直播曾创下行业纪录。

作为国内大模型领域的先行者,百度正通过“芯云模体”全栈自研生态闭环,持续探索AI赋能行业的解决方案。这一生态以芯片为底座、智能云为平台框架、模型为支撑,覆盖从底层技术到上层应用的完整链条,为AI在真实世界中的落地提供了坚实基础。当前,全球AI行业正加速进入应用深化阶段,如何让AI技术真正服务于行业需求,已成为行业共同关注的焦点。

苹果悄然推进AI胸针研发:小巧可穿戴,或2027年亮相引期待
目前,该胸针尚未确定内置连接方式,不过后续开发中可能会做出改变。 如果这款AI胸针最终发布,它很可能将运行苹果计划在iOS 27中推出的全新Siri聊天机器人。目前尚不清楚苹果是否计划单独出售这款别针,还是将…

2026-01-22

大疆运动相机日本市场破垄断夺魁,全球运动影像领域持续领跑
其中,在竞争激烈的运动相机领域,大疆凭借Osmo Action系列、Osmo 360全景相机以及Osmo Nano穿戴相机等产品的卓越表现,首次夺得该品类年度销量第一,打破GoPro在日本市场的十年销量垄断地…

2026-01-22

2025高性价比手机怎么选?荣耀WIN、iQOO 15、一加15全方位对比来了
一加15在产品定位上强调流畅体验与系统响应,通过风驰游戏内核与系统级优化,实现主流应用和游戏的稳定运行。 一加15在产品定位上强调流畅体验与系统响应,通过风驰游戏内核与系统级优化,实现主流应用和游戏的稳定运…

2026-01-22

销售客服效率翻倍秘籍:小米录音+听脑AI,省时省力多签单!
上周跟做ToB销售的哥们喝酒,他拍着大腿说刚丢了一个10万的单子,就因为客户拜访时随口提了一句“我们下个月要上ERP系统,你们得提前对接适配”,他当时没记下来,隔了一周再联系,客户已经跟竞品签了——人家不仅记…

2026-01-22