智快网
快讯 行业 产业 汽车 科技 AI+ 热点

谷歌Deep Think模型公测,推理能力领先,或促大模型领域竞争升级

2025-12-06来源:快讯编辑:瑞雪

谷歌最新发布的Deep Think模式在复杂问题处理领域引发广泛关注。根据官方披露的测试数据,该模型在被誉为"AI终极挑战"的Humanity’s Last Exam基准测试中斩获41%的高分,成功刷新行业纪录。这项被视为衡量人工智能综合推理能力的权威测试,此前从未有模型突破30%的得分门槛。

在专业领域测试中,Deep Think同样展现出惊人实力。其在GPQA Diamond科学知识评估中取得93.8%的超高准确率,在需要代码执行的ARC-AGI-2测试中也获得45.1%的成绩。这些数据表明该模型在数学、物理、计算机科学等核心学科领域已达到人类专家水平,特别是在处理需要多步骤推理的复杂问题时表现出色。

技术突破的背后是谷歌研发团队独创的并行推理架构。这种创新设计使模型能够同时构建多个解题路径,通过动态评估各路径的可行性来优化解决方案。与传统推理模型相比,该技术将复杂问题的求解效率提升了3-5倍,尤其在需要创造性思维的场景中表现尤为突出。

该模型的实际应用能力已通过国际顶级赛事验证。在完全封闭的竞赛环境中,Deep Think变体成功达到国际数学奥林匹克竞赛(IMO)和国际大学生程序设计竞赛(ICPC)的金牌标准。特别是在IMO测试中,模型需在完全离线状态下,用9小时完成6道高难度数学题的解答并撰写完整证明过程,其表现获得国际数学竞赛委员会的高度评价。

此次技术突破被视为对行业格局的重要冲击。今年7月,OpenAI曾宣布其研发的推理模型达到数学奥赛水平,但该产品至今未向公众开放。谷歌选择此时推出具备相同能力且可公开使用的模型,无疑将加剧大模型领域的竞争态势。行业分析师指出,这可能迫使竞争对手加速产品迭代,推动整个行业向更高水平的推理能力迈进。

华为亮相2025数智大会:全场景智慧产品矩阵,引领科技生活新体验
Mate 80系列不仅是华为年度旗舰产品,更重要的是,我们能在其身上清晰看到华为鸿蒙生态、AI前沿技术等领域的全面突破。 再比如在智慧互联上,借助小艺+智能体伙伴的服务生态,把孤立的功能升级串联成统一、完整的…

2025-12-06

一加15R将12月17日全球发布 骁龙8 Gen5加持Geekbench跑分曝光
根据Geekbench列表显示,型号为CPH2767的一加手机搭载了骁龙8 Gen5移动平台。尽管官方宣称该芯片配备Adreno 840GPU(与更顶级的骁龙8 Elite Gen 5相同),但Geekb…

2025-12-06

华为亮相2025数智科技生态大会,以创新产品与实力引领智慧生活新潮流
Mate 80系列不仅是华为年度旗舰产品,更重要的是,我们能在其身上清晰看到华为鸿蒙生态、AI前沿技术等领域的全面突破。 再比如在智慧互联上,借助小艺+智能体伙伴的服务生态,把孤立的功能升级串联成统一、完整的…

2025-12-06

豆包手机助手将规范AI操作能力 金融游戏及刷分场景使用受限
蓝鲸新闻12月5日讯 12月5日,上线三天后,豆包手机助手发布《关于调整AI操作手机能力的说明》,称计划在接下来的一段时间,在部分场景,对AI操作手机的能力做一些规范化调整。具体包括,但不限于:1、限制刷分、…

2025-12-05

从无人问津到再续前缘:黄仁勋忆DGX-1首单,2025年再向马斯克交付新品
在节目中,他回顾了NVIDIA的发展历程,并透露了一个关于公司首款AI超级计算机DGX-1鲜为人知的故事。 当时AI计算尚未成为主流,重点仍集中在CPU上,这解释了DGX-1早期遇冷的原因,而在九年后的20…

2025-12-05

一加Pad Go 2平板跑分曝光,12月17日携手15R手机亮相美国市场
IT之家 12 月 5 日消息,据科技媒体 NoteBook Check 本周(12 月 2 日)报道,一加于 2023 年在海外市场推出了Pad Go 平板,定位中低端市场,不过其后续型号并未在 2024…

2025-12-05

华为Mate X7全渠道开售秒罄,折叠屏市场热度再创新高
有媒体分享了现场情况,线下门店氛围火爆,而线上各销售平台也迅速显示“售罄”状态,延续了该系列发布以来的超高市场热度。 华为Mate X7的市场热度在发布之初就已显现。在11月25日的发布会上,华为官方宣布其折…

2025-12-05