智快网
快讯 行业 产业 汽车 科技 AI+ 热点

通义千问开源数学模型Qwen2-Math,数学能力超越GPT-4o

2024-08-09来源:互联网编辑:芳华

8月9日消息,阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。

注:在MATH基准测评中,通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率,超过GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等开闭源模型。

Qwen2-Math 基础模型使用 Qwen2大语言模型进行初始化,并在精心设计的数学专用语料库上进行预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由 Qwen2 模型合成的数学预训练数据。所有预训练和微调数据集都进行了去污染处理。

随后,研发团队训练了指令微调版本模型:基于Qwen2-Math-72B 训练一个数学专用的奖励模型;接着,将密集的奖励信号与指示模型是否正确回答问题的二元信号结合,用作学习标签,再通过拒绝采样构建监督微调(SFT)数据;最后在SFT模型基础上使用 GRPO 方法优化模型。

据悉,Qwen2-Math系列模型目前主要支持英文,通义团队很快就将推出中英双语版本,多语言版本也在开发中。

通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估,除了 GSM8K 和 MATH等常见的测评基准 ,还引入了更具挑战性的考试竞赛类测试,如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2024 赛题、美国数学竞赛( AMC)2023赛题,中文测评则有CMATH测评集、2024年中国高考和中考数学题。最终,Qwen2-Math-72B-Instruct表现优异,在十大测评中都获得了远超其他开源数学模型的成绩。

注:研发团队在greedy和RM@8 的条件下对模型作了测评,表中为每款Qwen2-Math-72B-Instruct模型列出了三个得分结果,分别是第1次回答得分(无下标数字)、8次回答中出现最多次数的答案的得分,8次回答中reward model所选答案的得分。

“大模型能不能做数学题”,不仅是社交平台的热门话题,也是业界非常关注的研究课题。处理高级数学问题,需要模型具备复杂多步逻辑推理能力。通义团队在技术博客中表示,希望通过开源“为科学界解决高级数学问题做出贡献”,未来将持续增强模型数学能力。

附:Qwen2-Math解题示例

Qwen2-Math解题示例
华为鸿蒙HarmonyOS 6发布:跨生态互联、安全升级、小艺智能体协同新体验
华为碰一碰支持应用超60个,用户可以通过简单的“碰一碰”轻松分享照片、音乐、链接等丰富内容。此外,还支持一碰多分享、游戏组队等互动体验,以及手机与电脑屏幕的轻碰分享,实现全场景设备间实现高效协同。 鸿蒙6…

2025-10-23

苹果2027年或跳过iPhone19直推20系列,设计革新纪念初代问世二十周年
报道还指出,苹果在2026年可能暂不推出标准版iPhone 18,而仅发布iPhone 18 Air、iPhone 18 Pro和iPhoneFold三款机型。 至于2027年,则以iPhone 20和平…

2025-10-23

苹果2027年新机命名或有变,或跳过“19”直接推出“iPhone 20”系列
【太平洋科技】10 月 23 日消息,据外媒报道,苹果预计在 2027年推出的iPhone新机将跳过“19”命名,直接将新机命名为“iPhone 20”系列。苹果或借此契机重新调整产品命名、机型定位和发…

2025-10-23

4999元起!努比亚Z80 Ultra:影像性能双巅峰的诚意之作
努比亚还把红魔的CUBE擎天游戏引擎直接下放到了这台影像旗舰上,可以根据不同游戏场景智能调度性能,既能保持满帧运行,又能控制功耗。 4999元起的价格放在现在的旗舰市场,不算便宜,但考虑到影像系统和红魔级游…

2025-10-23

舒福德S500睡眠智能体亮相,以数字生态革新开启全民睡眠健康新篇
作为麒盛科技旗下智能床品牌,自2005年自主研发智能电动床,开启探索智能睡眠体验:2017年推出全球首张智能床,初步实现睡眠数据的采集与分析;2022年作为北京冬奥会唯一智能床供应商,通过服务全球运动员,验证…

2025-10-22

一加15官宣两大充电黑科技 首发局间补电与旁路供电技术 性能再升级
IT之家 10 月 21 日消息,一加手机官方今日发文预热一加 15 新机,并透露为其带来了两个“黑科技”: 行业首发「局间补电」技术:局间休息10 分钟充会电,能多玩 1.23 小时 行业领先「旁路供电…

2025-10-22

华为发布全球顶尖AI人才招募令,余承东诚邀热爱AI的年轻人共攀高峰
昨日,华为招聘发布“全球顶尖AI人才招募令”。 据悉,此次招聘,面向对象为2026/1/1 -2026/12/31毕业的国内高校本科生与硕士研究生,2025/1/1 - 2026/12/31毕业的国内高校博…

2025-10-22

荣耀Magic8系列:以AI终端生态为钥,开启增长与估值新征程
早在2016年Magic一代首发时,便搭载了MagicLive智慧引擎,并首次提出“服务找人”的逻辑,虽无法与今日智能相比,却为智能生态协同埋下种子;2018年,荣耀推出YOYO智慧助手,突破了语音交互,开…

2025-10-21

电竞新旗舰iQOO 15登场:屏幕长焦SoC齐升级,定价略有上浮
这块6.85英寸三星2K直屏拥有144Hz高刷新率和8TLTPO技术,手动亮度峰值1000尼特,全局峰值亮度可达2600尼特,像素密度为508 PPI,还专门打造了硬件级游戏护眼。Q3的独赋能下,iQOO…

2025-10-21