智快网
快讯 行业 产业 汽车 科技 AI+ 热点

DeepSeek携DeepSeek-Math-V2归来,开启自我验证数学推理新方向

2025-11-29来源:快讯编辑:瑞雪

人工智能领域迎来重大突破,DeepSeek团队近日在Hugging Face平台发布了全新数学推理模型DeepSeek-Math-V2。该模型在定理证明能力上实现质的飞跃,不仅超越了Gemini DeepThink等主流模型,更在国际数学奥林匹克竞赛(IMO)级别的测试中达到金牌标准。

研发团队在论文中指出,现有AI数学模型普遍存在"重结果轻过程"的缺陷。传统训练方式仅以最终答案正确性作为评判标准,导致模型在复杂证明题中常出现"逻辑跳跃"或"隐含假设"等问题。针对这一痛点,DeepSeek创新性地提出"自我验证"训练框架,通过构建生成器-验证器协同进化系统,使模型具备自主审查推理过程的能力。

该系统包含三个核心组件:首先训练具备专业评审能力的验证器,能对证明过程进行三级评分(1分完美、0.5分存在瑕疵、0分错误)并撰写详细评语;其次引入元验证机制,通过双重检查确保评分合理性;最后开发具备自省能力的生成器,在输出答案时必须同步进行自我评估,诚实指出潜在错误。这种设计形成闭环训练体系,使模型在不断自我修正中提升推理严谨性。

实验数据显示,DeepSeek-Math-V2在多项权威基准测试中表现卓越。在包含60道证明题的IMO-ProofBench测试集中,基础子集得分接近99%,显著领先其他模型;在高级子集虽略逊于Gemini DeepThink,但已达到IMO金牌选手水平。更令人瞩目的是,该模型在Putnam 2024数学竞赛测试中取得118/120的接近满分成绩,刷新了AI数学解题纪录。

技术实现层面,研究团队突破传统强化学习框架,不再依赖答案正确性作为唯一奖励信号。通过构建验证器与生成器的协同进化机制,模型在训练过程中自动生成高难度样本,形成"以战养战"的持续提升模式。这种创新方法不仅减少了对人工标注数据的依赖,更有效抑制了大模型的幻觉问题,使推理过程具备可解释性。

该成果在学术界引发广泛关注。专家指出,DeepSeek-Math-V2的自我验证框架为AI数学推理开辟了新方向,其过程导向的训练方法有望推广至物理、计算机科学等需要严格证明的领域。目前研究团队已公开模型代码和论文,供全球研究者共同探索可验证推理的更多可能性。

realme UI 7.0正式登场:AI功能升级,设计流畅双突破,多机型将推送
近日,真我正式推送realme UI 7.0正式版,上线了备受期待的多项AI功能与创新体验,“好用好玩,不止流畅”的核心理念得以全面展现。在设计层面,realme UI 7.0迎来了全面焕新,其以"光影之间…

2025-11-29

百度面临经营压力启动裁员,移动生态受冲击,AI相关岗位获资源倾斜
消息人士透露,移动生态业务将是受影响最明显的板块,但与人工智能、云计算相关的岗位将被重点保留,资源也将进一步向这些方向倾斜。 尽管百度在2023 年率先推出“类 ChatGPT”服务,但在随后竞争中已落于…

2025-11-29

华为Mate80系列开售即火:晨曦金售罄,性能配置亮点多受好评
2025年11月28日,华为Mate80系列正式开售,售价为4699元,开售不到一小时,该系列晨曦金所有版本均售罄缺货。 此前,该系列在预售阶段就表现火爆,24小时内全系预约量突破200万台,其中Pro版本单…

2025-11-28

满帧战神来袭!一加Ace 6T首发第五代骁龙8 游戏帧率稳如直线
快科技11月27日消息,一加Ace 6T将于12月3日19:00正式发布,新机首发第五代骁龙8旗舰芯片。从最重载的165帧手游,到《王者荣耀》144帧+极致画质全开,再到《原神》新地图场景,一加Ace 6T…

2025-11-28

AMD B650芯片组未停产仅减产,品牌厂商销售策略转向B850系列
IT之家 11 月 28 日消息,经博板堂消息人士昨日确认,今年 8 月传闻的“AMD B650 主板芯片组已停产”为假消息。 他表示,AMDB650 芯片组并没有完全停产,只是适当减产,B650 芯片组也…

2025-11-28

华为测试麒麟9030新宽屏竖折手机 预计明年首季发布 折叠屏市场优势再巩固
【CNMO科技消息】11月28日,有数码博主爆料称,华为正在测试一款搭载麒麟9030芯片的全新宽屏比例竖向折叠屏手机。今年3月,华为发布了首款“阔”折叠屏手机Pura X,其内屏是一块16:10比例6.3英…

2025-11-28