智快网
快讯 行业 产业 汽车 科技 AI+ 热点

阿里云QwQ模型开源:科学推理能力亮眼,数学编程表现超OpenAI o1

2024-11-28来源:ITBEAR编辑:瑞雪

阿里云通义团队近日宣布了一项重要突破,他们成功推出了名为QwQ-32B-Preview的全新AI推理模型,并同步向公众开源。这一举措标志着阿里云在AI技术领域的又一次飞跃。

据官方介绍,QwQ(全称Qwen with Questions)是通义千问Qwen大模型系列中的最新实验性研究模型。在评测中,QwQ展现出了令人瞩目的科学推理能力,尤其是在数学和编程领域,其表现甚至达到了研究生水平。与OpenAI的o1模型相比,QwQ的整体推理能力毫不逊色。

阿里云通义千问团队深入研究发现,当给予模型充分的时间进行思考和自我反思时,其在数学和编程方面的理解会显著加深。正是基于这一发现,QwQ在解决复杂问题上取得了突破性的进展。在衡量科学问题解决能力的GPQA评测集中,QwQ以65.2%的准确率展现了其强大的科学推理能力。而在AIME评测中,QwQ更是以50%的胜率证明了其解决数学难题的实力。

不仅如此,QwQ在编程领域也展现出了非凡的才能。在MATH-500评测中,QwQ以90.6%的高分超越了o1-preview和o1-mini。在评估高难度代码生成的LiveCodeBench评测中,QwQ更是答对了一半的题目,并在编程竞赛题场景中展现出了出色的表现。这些成绩无疑证明了QwQ在AI推理领域的领先地位。

值得注意的是,QwQ在面对复杂问题时,能够进行深度自省和质疑自身假设。通过深思熟虑的自我对话,QwQ能够仔细审视其推理过程的每一步,从而确保答案的准确性。例如,在解决经典智力题“猜牌问题”时,QwQ通过梳理对话和推演,最终得出了正确答案,这一过程与擅长思考的人类解题过程颇为相似。

QwQ-32B-Preview的开源也引起了全球开发者的广泛关注。在魔搭社区和HuggingFace等平台上,QwQ一经发布便吸引了大量开发者进行体验。许多开发者对QwQ的表现给予了高度评价,认为它是今年开源领域最重大的突破之一,让中国在开源大模型和AI推理上占据了先机。

然而,通义团队也坦诚地指出了QwQ目前存在的局限。尽管QwQ展现出了强大的分析能力,但它仍然是一个供研究的实验型模型。在实际应用中,QwQ可能会遇到不同语言混合使用、偶有不恰当偏见以及对专业领域问题不了解等问题。不过,通义团队表示,随着研究的深入和模型的迭代,这些问题将逐步得到解决。

最后,QwQ-32B-Preview的推出和开源不仅为AI技术的发展注入了新的活力,也为全球开发者提供了一个学习和研究的宝贵资源。相信在不久的将来,QwQ将在更多领域展现出其强大的推理能力,为人类社会带来更多的便利和进步。

华为Mate X7或本月登场 首发20GB超大内存 配色丰富性能强劲
11月份的机圈将会是华为的主场,不仅新一代的直板旗舰华为Mate80系列会震撼亮相,还会有迭代的大折叠屏手机华为Mate X7发布。@定焦数码爆料,华为Mate X7将会首发定制20GB超大内存,这是华为史…

2025-11-15

安谋科技发布“周易”X3 NPU IP,端侧AI性能飙升助力多领域落地
智东西11月14日消息,昨日,安谋科技正式发布了专为端侧大模型而生的最新一代NPUIP——“周易”X3,其能够与Arm架构CPU、GPU协同,组成基于Arm生态的异构算力解决方案。 新的“周易”X3 NP…

2025-11-14

Steam Frame登场 Valve停产Index VR头显 开启VR新征程
用户可通过无线适配器,将 PC 或 Steam Machine 上的平面屏(flatscreen)及 VR 游戏串流至 SteamFrame;与此同时,Steam Frame 本身也是一款独立设备,搭载高通…

2025-11-14

华为Mate70 Air深度体验:打破常规,超大屏“Air”的另类演绎
可以确定,华为Mate70 Air的影像没有因为“Air”的定义做妥协,在同价位机型中是能打的,硬件配置方面也是这个思路。这也符合华为Mate70 Air的技术路径,虽然重量不可避免地来到208g,但是保…

2025-11-14

欧加9K级大电池定版试产,一加骁龙8系直屏新机测试,中端机竞争升级
IT之家 11 月 14 日消息,博主 @数码闲聊站 今天在微博透露,欧加的 9K 级别大电池现已定版试产。 博主表示,这块电池采用单块4.51V 单电芯设计,额定容量 32.59Wh,额定电池 8760m…

2025-11-14

联发科天玑8系芯片屠榜安卓次旗舰性能榜 性能能效双优成市场新宠
以榜单第一的真我Neo7 SE为例,通过与MTK联发科技的深度联合调校,该机在同价位段中展现出极为出色的游戏性能,搭配真我GT性能引擎,通过芯片级调校,实现了持久稳定的高帧率表现,同时能耗最高可降低7%,帧…

2025-11-14

四名MIT辍学00后,两年打造AI编程神器,估值冲300亿成资本新宠
两年前,在完成种子轮融资后,创始人曾写了这样的期待—— Cursor的诞生,推动了「氛围编程」(vibe coding)在全球兴起。 他还在创纪录的时间内,完成了一份手写编程测试,给早期Facebook投资…

2025-11-14

iPhone 17系列发售不到俩月,中国市场激活量破1000W,双十一销量也亮眼
11月14日,数码博主“数码闲聊站”发文透露iPhone17系列于本周完成中国市场激活1000W+。 iPhone17系列9月19日正式发售,如今距发售不到两个月。 该博主此前曾透露,截至11月2日,iPh…

2025-11-14

荣耀500 Pro配置亮点全揭秘:骁龙8至尊版+2亿主摄+8000mAh长续航
【CNMO科技消息】11月14日,有数码博主曝光了荣耀500Pro的核心参数。CNMO注意到,新机将搭载骁龙8至尊版移动平台,电池容量达到8000mAh,主打2亿像素大底主摄。 除了上述核心亮点外,荣耀50…

2025-11-14

苹果iPhone 17系列发售不到俩月 中国市场激活量或破千万
苹果 iPhone 17 系列于今年 9 月 19 日正式发售,如今还不到两个月。 该博主曾透露,截至 11 月 2 日,苹果 iPhone17 系列国内激活销量超 825 万。具体数据如下: iPho…

2025-11-14