智快网
快讯 行业 产业 汽车 科技 AI+ 热点

阿里通义DeepResearch开源来袭,以轻量之姿攻克博士级难题,引领AI研究新潮流

2025-09-19来源:ITBEAR编辑:瑞雪

阿里旗下人工智能团队近日宣布,开源深度研究智能体模型通义DeepResearch,引发全球AI领域高度关注。该模型在多项权威基准测试中表现卓越,不仅超越OpenAI等国际顶尖团队,更以轻量化架构实现高性能突破。

在人类终极考试基准HLE测试中,通义DeepResearch以32.9%的准确率登顶全球榜首,领先第二名DeepSeek-V3.1达3.1个百分点,较OpenAI同类模型高出6.3个百分点。该模型在BrowseComp开源榜单上同样表现惊艳,43.4%的准确率刷新行业纪录。值得注意的是,如此强劲的性能仅需30B参数规模,实际激活参数仅3B,开创了轻量化模型实现深度研究的新范式。

研发团队同步公开了核心技术体系,包括智能体合成数据生成框架和双模式推理架构。在数据构建层面,创新性地采用AgentFounder方法,通过整合知识图谱、网页数据和工具使用轨迹,构建出覆盖开放世界的记忆库。后训练阶段开发的WebSailor V2系统,能够自动生成包含迷雾设置和跨学科难题的高质量数据集,数据质量较人工标注提升显著。

该模型独创的ReAct与Heavy双模式推理机制,有效解决了长程任务中的认知过载问题。Heavy模式通过迭代重构工作空间,将复杂任务分解为多个研究轮次,确保在超长上下文中保持推理质量。实验数据显示,采用Research-Synthesis框架的并行研究模式,可使模型在复杂基准上的性能提升12%-15%。

技术实现层面,团队构建了全栈式强化学习基础设施。通过离线维基百科和定制工具套件搭建的仿真环境,配合工具沙盒的缓存重试机制,使训练效率提升3倍以上。基于GRPO算法的优化策略,结合token级损失函数和留一法筛选,成功将策略熵维持在高位,确保模型持续进化能力。

实际应用场景中,该技术已深度赋能高德地图和法律智能体。在高德V16版本中,集成Deep Research能力的POI推理Agent可精准处理地理区域、交通约束等复杂需求,用户输入"西湖边4.5分以上带儿童餐的浙菜馆,距地铁站1公里内"等条件时,系统能瞬间生成最优方案。法律领域落地的通义法睿,通过迭代规划架构实现多步查询,在案例引用和法条匹配质量上超越国际主流模型。

开源项目上线后迅速引发开发者热潮,GitHub仓库已收获7.2k星标,Hugging Face和ModelScope平台模型下载量持续攀升。斯坦福NLP实验室等权威机构第一时间转发技术报告,称赞其"重新定义了轻量模型的深度研究边界"。随着端到端训练框架和合成数据体系的全面公开,AI社区正迎来新一轮研究范式变革。

北京大学团队突破:纳米栅铁电晶体管实现超低功耗数据存储新飞跃
IT之家 2 月 16 日消息,据北京大学官方账号昨日分享,该校在非易失性存储器领域取得突破性进展,电子学院邱晨光-彭练矛团队首次提出“纳米栅超低功耗铁电晶体管”,真正实现了超低功耗下的数据高效存储,相关成果…

2026-02-16

苹果平价版MacBook或3月登场:多彩铝壳设计 搭载A系列芯片主打年轻市场
IT之家 2 月 15 日消息,彭博社记者马克 · 古尔曼今天在最新一期《Power On》通讯中表示,苹果即将推出的平价版 MacBook将搭载更加活泼的外壳,吸引更多年轻用户。 古尔曼表示,苹果本来可以…

2026-02-16

2026全球开发者先锋大会3月上海启幕,六大方向促产业资源高效对接
2026全球开发者先锋大会的核心使命,正是在这一历史转折点上,为全球开发者与产业界搭建一个系统级验证平台——让产业界为学术科研出题,让AI4S+Agent为产业应用答题,让技术为超级个体(SE)及开发者社区…

2026-02-16

字节跳动春节“群模大战”火力全开,多模态大模型升级引爆AI应用新热潮
一是更稳健的视觉与多模态理解:豆包2.0强化了视觉感知与推理能力,对复杂文档、表格、图形、视频内容的解析水平显著提升,视觉信息处理更精准。 豆包2.0全面升级了多模态能力,在各类视觉理解任务上均达到业界顶尖…

2026-02-16

AI硬件新玩法:开发者几天手搓拓麻歌子,自然语言“秒造”硬件成趋势
它在观察 Claude Code 的每一个操作,确保这个 AI 助手真的在按照我们的意图工作。 目前,Claude Code拓麻歌子这个宠物项目,已经在 GitHub 上开源,我们也可以直接把这个电子宠物部…

2026-02-15

三星Galaxy S26 Ultra隐私屏新功能:公共场合防窥屏,隐私保护更贴心
IT之家 2 月 15 日消息,博主 @i冰宇宙 今天在微博发文,曝光三星尚未公布的 Galaxy S26 Ultra 手机“隐私屏”宣传视频。 视频内容显示,一名女性正在纽约地铁上用手机阅读电子书,而她左右…

2026-02-15