智快网
快讯 行业 产业 汽车 科技 AI+ 热点

国产模型新突破!阿里Qwen3.7-Max发布,35小时全自主完成复杂优化任务

2026-05-21来源:快讯编辑:瑞雪

阿里巴巴在最新举办的阿里云峰会上,重磅推出全新千问旗舰模型Qwen3.7-Max,标志着国产大模型研发进入新阶段。该模型在第三方权威评测机构Arena发布的全球大模型盲测总榜中表现亮眼,不仅超越Kimi-K2.6、DeepSeek-v4-pro等国内主流模型,更与GPT、Claude、Gemini等国际顶尖模型形成有力竞争,稳居国产模型榜首。

作为千问系列近三个月内的第三次重大升级,Qwen3.7-Max的迭代速度显著加快。从3.5版本到3.6版本再到当前版本,阿里云通过持续优化算法架构与训练策略,使模型在智能体(Agent)场景下的综合能力实现质的飞跃。该模型专门针对复杂任务处理需求进行设计,在编程、通用智能体、逻辑推理等核心领域展现出突破性进展。

在编程能力测试中,Qwen3.7-Max在SWE-Pro、SWE-Multilingual等国际权威编程智能体评测中均取得领先成绩。特别是在Terminal Bench 2.0-Terminus基准测试中,该模型以69.7分的成绩超越DeepSeek-v4-pro-Max和Claude-Opus4.6等模型。测试数据显示,其代码生成准确率较前代提升23%,多语言编程支持范围扩展至15种主流编程语言。

通用智能体能力方面,该模型在MCP-Atlas现实场景模拟测试中取得92.3分的优异成绩,较GLM5.1提升11个百分点。在Skillbench多任务处理评测中,其任务完成率达到88.7%,创下国产模型新纪录。这些突破得益于模型对复杂指令的理解能力显著增强,能够更精准地分解任务步骤并执行跨领域操作。

逻辑推理能力测试结果同样引人注目。在GPQA Diamond、HLE等国际推理基准测试中,Qwen3.7-Max以绝对优势超越Claude-Opus4.6及所有参与评测的国产模型。特别是在HMMT 2026 Feb数学推理专项测试中,其解题正确率达到76.4%,较前代提升19个百分点,展现出强大的抽象思维能力。

通用能力评估显示,该模型在指令遵循IFBench评测中取得79.1分的历史新高,多语言处理能力在WMT24++、MAXIFE等国际评测中持续领跑。值得关注的是,在完全陌生的硬件优化任务中,Qwen3.7-Max展现出惊人的自主学习能力。面对从未接触过的平头哥真武M890芯片,模型在35小时内独立完成432次内核评估和1158次工具调用,最终实现推理内核10倍性能提升,且全程无需任何硬件文档支持。

任务轨迹分析显示,模型在运行超过30小时后仍能持续发现优化空间,甚至主动发起架构重设计。这种突破性表现源于其内置的动态优化机制,能够根据实时反馈自动调整策略。在Agent框架兼容性测试中,该模型在Claude Code、OpenClaw等主流框架下均保持稳定输出,跨平台适应能力得到充分验证。

办公自动化场景测试中,通过MCP集成与多智能体协作,Qwen3.7-Max在SpreadSheetBench-v1基准测试中取得87分的顶尖成绩。其文档处理准确率达到94.6%,表格数据解析速度较传统方法提升5倍。阿里云透露,Qwen3.7-Max API即将在百炼平台上线,后续还将推出覆盖视觉智能体等场景的Qwen3.7-Plus版本,持续拓展模型应用边界。

卓世科技入选福布斯中国人工智能TOP50
全球商业权威媒体《福布斯》近日发布“2026中国人工智能科技企业TOP50”榜单,卓世科技凭借在行业大模型与具身智能领域的突破性成果,以及多领域商业化落地能力成功入选。这一荣誉不仅标志着其技术实力与产业价值获得国际认可,更凸显中国AI企业正从技术追赶迈向全球引领的新阶段。

2026-05-20

OPPO充电宝怎么选?五款实测推荐,EAK五合一凭全能设计成出行优选
EAK五合一充电宝(35W) 正是从这个高频使用痛点出发,在常规大容量充电宝的基础上,创造性地将移动电源、墙插适配器、磁吸无线充、双自充线和支架五大功能融为一体,20000mAh的超大容量配合0.4kg轻量化…

2026-05-20