智快网
快讯 行业 产业 汽车 科技 AI+ 热点

阿里发布首个原生语言世界模型Qwen-AgentWorld,开启智能体环境模拟新篇章

2026-06-25来源:快讯编辑:瑞雪

阿里近日在人工智能领域取得重要进展,正式推出首个原生语言世界模型(LWM)Qwen-AgentWorld。该模型专为AI智能体研发设计,提供35B-A3B与397B-A17B两种参数规模版本,旨在通过内部环境模拟增强智能体的决策能力,而非替代真实交互场景。

与传统训练方式不同,Qwen-AgentWorld在预训练阶段即引入环境建模目标,贯穿CPT→SFT→RL全流程。此前通用模型通常在训练后期才加入环境理解模块,而新模型通过早期整合实现更高效的能力迁移。其核心突破在于单模型覆盖文本类(MCP、Search、Terminal、SWE)与GUI类(Web、OS、Android)共七大交互环境,支持跨领域知识共享。例如在模拟手机系统时,模型能准确预测点击删除图标后的界面变化;在电脑系统模拟中,可完整呈现从菜单栏选择"文件-打印"的操作路径。

研究团队同步发布配套评测基准AgentWorldBench,该基准基于5个前沿模型在9个成熟评测集上的真实交互数据构建,采用开放式评分体系从格式、事实性、一致性等五个维度评估模型表现。测试结果显示,397B-A17B版本以58.71分的综合得分超越GPT-5.4(58.25分)、Claude Opus 4.8及Gemini 3.1 Pro,在代码执行(Terminal)和工具调用(SWE)领域优势尤为显著。35B-A3B版本通过三阶段训练流水线提升8.66分,性能超越Claude Sonnet 4.6。

深入分析129条文本类交互数据后,研究人员发现模型涌现出三种独特推理模式:在自我修正方面,模型通过"Wait!"信号触发中止,平均每轮交互修正10.4次错误;信息防护机制可防止搜索场景中的答案泄露,当查询与预设答案无关时自动屏蔽敏感信息;多步因果推理能力体现在复杂命令模拟中,如预测"curl -s localhost:3000 | python3 -m json.tool"需构建包含服务器状态、端口监听等6个环节的推理链。

该模型已通过GitHub、ModelScope和Hugging Face平台开源,包含模型权重与评估基准。研究团队强调,语言世界建模并非要取代真实环境交互,而是通过可控性、可扩展性及内化预测能力,为智能体训练提供互补路径。这种技术路线有望突破现有智能体在复杂场景中的能力边界,为构建更强大的通用AI系统奠定基础。

联想算力生态大会:英伟达等巨头齐聚,问天超节点方案引领AI算力新突破
智东西6月24日报道,今天下午,联想集团在自家算力生态大会上正式发布了联想问天超节点解决方案,联想万全异构智算方案升级至5.0大版本,其重点通过集群训推加速、芯模编译优化两个关键技术升级,提升了方案的场景自…

2026-06-25

红米Turbo 4 pro清仓大促,16G+512G不到两千,老款性价比完胜新机
红米Turbo 4 pro已经出现大幅降价,16G+512G版本在补贴后仅1954元左右,价格不到两千元,搭载的是骁龙8s Gen 4处理器,差不多有两百万出头的性能跑分,虽然不及骁龙8Elite处理器,但…

2026-06-24

孙正义直言太空数据中心价值有限:AI竞赛胜负关键仍在地球计算力
孙正义指出,太空数据中心的主要吸引力在于降低电力成本,但电力开支在数据中心运营总成本中仅占很小一部分,远低于芯片等硬件成本。 分析人士认为,孙正义的怀疑反映了行业对太空方案实际可行性的担忧,包括发射成本、热…

2026-06-24

链博会第三天:新品发布亮点多 沉浸体验促合作共赢发展
在现场能看到人工智能志愿者和智能导览机器人,现场的一些活动还出现了人工智能主持人。这些互动体验的环节,让观展客商沉浸式感受各类前沿科创成果。 这种看得见、摸得着的展示方式,让企业创新成果更直观、更接地气,也一…

2026-06-24

Anthropic发布Claude Tag:AI化身团队“共享同事”,开启协作新范式
Claude Tag的新,不在它更聪明,在它换了一个「身份」。 在那个频道里敲一个 @Claude,它就出现了——不是来接话的,是来干活的。你今天 @ 它的,和明天 @ 它的,它都记得是同一个团队、同一件…

2026-06-24

Waves Audio推出V17更新:优化预设管理,为直播与录音室工作注入新活力
全球领先的专业音频信号处理技术及插件开发商WavesAudio宣布对其Waves插件目录进行重大更新至V17,该版本优化了预设管理功能,增强了现场演出和录音室的工作流程; 并为StudioVerse 推出…

2026-06-24