智快网
快讯 行业 产业 汽车 科技 AI+ 热点

通义千问团队推出Qwen-AgentWorld:原生语言世界模型引领智能体交互新突破

2026-06-24来源:天脉网编辑:瑞雪

阿里通义千问团队近日宣布推出全球首个原生语言世界模型Qwen-AgentWorld,该模型通过模拟七大领域智能体交互环境,在AgentWorldBench评测中展现出超越GPT-5.4、Claude Opus 4.8等主流模型的性能。这一突破标志着语言模型从单一文本生成向复杂环境交互的范式转变,为智能体训练提供了全新路径。

该模型覆盖文本类(MCP、搜索、终端、软件工程)与GUI类(网页、操作系统、安卓应用)七大交互场景,通过可渲染代码替代传统像素帧实现环境观测。这种设计使纯文本建模即可解析视觉信息,显著降低计算资源消耗的同时,支持跨领域知识迁移。例如,在终端和软件工程领域,模型展现出比GPT-5.4更强的状态预测能力,3970亿参数版本在评测中取得58.71分的综合成绩。

训练架构创新是该模型的核心优势。团队构建了CPT→SFT→RL三阶段训练体系:在继续预训练阶段注入环境知识,通过信息论损失掩码精准识别关键对话轮次;监督微调阶段激活思维链推理模式,强化下一状态预测能力;强化学习阶段采用混合奖励信号优化输出质量。这种端到端设计使环境建模成为原生训练目标,而非对通用大模型的后期适配。实验数据显示,350亿参数版本经三阶段训练后,综合得分提升8.66分,性能超越Claude Sonnet 4.6。

同步开源的AgentWorldBench评测基准包含七大领域真实环境执行数据,每条测试样本均配备ground-truth观测值。该基准不仅验证了模型在复杂交互场景中的优势,还揭示了世界建模的双重应用价值:作为解耦环境模拟器时,可为强化学习提供可控训练环境,其可控模拟RL方法在行为塑造效率上显著优于纯真实环境训练;作为统一智能体基座模型时,预热训练后的模型可直接迁移至多轮任务,无需额外微调即可保持性能。

目前,Qwen-AgentWorld模型及评测基准已在Hugging Face和ModelScope平台开放下载。这项研究为智能体训练提供了从环境建模到决策优化的完整解决方案,其开源特性将推动学术界和产业界在复杂交互场景中的探索进程。

通义千问团队发布Qwen-AgentWorld:原生语言世界模型开启智能体交互新篇章
该模型基于超过1000万条真实环境交互轨迹,经由CPT→SFT→RL三阶段训练而成,在AgentWorldBench评测中超越GPT-5.4、ClaudeOpus 4.8与Gemini 3.1 Pro。 同…

2026-06-24

Claude化身虚拟同事入驻Slack群聊,团队协作与AI协同开启新模式
这就是 Claude Tag 最直接的作用,他看起来像是一个聊天群的机器人升级版,但它真正可以做到的事,要远比「在群里呼叫 AI」大得多。在群里的 Claude,也会和我们单人使用的 Claude 一样,…

2026-06-24

苹果Reality Composer Pro 3或借鉴Machinery引擎 助力3D内容开发
IT之家注:Reality Composer Pro 3 是苹果面向开发者的 3D内容制作工具,主要服务空间计算与沉浸式内容开发,可用于构建适配 Apple Vision Pro 等平台的场景、对象与交互…

2026-06-24

小米YU7 GT实力出圈!创浙赛自动驾驶圈速纪录 纽北纪录亦收入囊中
IT之家 6 月 24 日消息,小米公司今日宣布,小米 YU7 GT 创造浙赛首个自动驾驶圈速纪录,用时 1:49.434。据IT之家此前报道,小米本周还宣布,小米 YU7 GT 达成全球首个纽北自动驾驶圈…

2026-06-24

隐私保护新趋势:三星引领防窥显示潮流,小米荣耀加速研发跟进
PChome 6月24日消息,随着三星Galaxy S26 Ultra将防窥隐私显示功能推向市场,这一基于专属屏幕硬件实现的隐私保护技术正成为智能手机行业的新竞争点。目前已确认小米与荣耀均在推进防窥显示功能的…

2026-06-24

HHKB Studio键盘新宠:全新灰色键帽套装登场,适配多配色方案
IT之家 6 月 24 日消息,HHKB Studio 是 Happy Hacking Keyboard 在 2023 年推出的一款多功能一体式输入设备,结合了紧凑配列键盘、指点杆鼠标套件、手势触控输入面板,…

2026-06-24

石家庄裕华区买手机充电器去哪?北国电器一站式搞定靠谱又省心
从售后保障来看,北国电器在石家庄有多家门店,裕华区核心商圈也有门店网点,售后响应速度快,手机如果需要检测或者售后,直接就近到门店对接就可以,不用找线上客服排队等待,也不用寄回外地商家,节省大量的时间,作为本…

2026-06-24

字节跳动豆包Seed 2.1系列模型上线,Pro与Turbo版助力Coding与Agent新发展
doubao-seed-2-1-pro-260628 是一个深度思考模型,官方宣称是面向 Coding 与 Agent时代打造的新一代旗舰模型,在 Coding 工程交付、Agent 长链路任务执行与多…

2026-06-24

三星Galaxy Watch Ultra2智能手表示意图流出 方圆形表壳设计得以延续
IT之家 6 月 23 日消息,消息源 @GalaxyTechie 今天(6 月 23 日)在 X平台发布推文,分享了一组系统界面示意图片,展示了三星 Galaxy Watch Ultra2 智能手表设计。…

2026-06-24