DeepSeek携DeepSeek-Math-V2归来，开启自我验证数学推理新方向-产业-智快网

人工智能领域迎来重大突破，DeepSeek团队近日在Hugging Face平台发布了全新数学推理模型DeepSeek-Math-V2。该模型在定理证明能力上实现质的飞跃，不仅超越了Gemini DeepThink等主流模型，更在国际数学奥林匹克竞赛（IMO）级别的测试中达到金牌标准。

研发团队在论文中指出，现有AI数学模型普遍存在"重结果轻过程"的缺陷。传统训练方式仅以最终答案正确性作为评判标准，导致模型在复杂证明题中常出现"逻辑跳跃"或"隐含假设"等问题。针对这一痛点，DeepSeek创新性地提出"自我验证"训练框架，通过构建生成器-验证器协同进化系统，使模型具备自主审查推理过程的能力。

该系统包含三个核心组件：首先训练具备专业评审能力的验证器，能对证明过程进行三级评分（1分完美、0.5分存在瑕疵、0分错误）并撰写详细评语；其次引入元验证机制，通过双重检查确保评分合理性；最后开发具备自省能力的生成器，在输出答案时必须同步进行自我评估，诚实指出潜在错误。这种设计形成闭环训练体系，使模型在不断自我修正中提升推理严谨性。

实验数据显示，DeepSeek-Math-V2在多项权威基准测试中表现卓越。在包含60道证明题的IMO-ProofBench测试集中，基础子集得分接近99%，显著领先其他模型；在高级子集虽略逊于Gemini DeepThink，但已达到IMO金牌选手水平。更令人瞩目的是，该模型在Putnam 2024数学竞赛测试中取得118/120的接近满分成绩，刷新了AI数学解题纪录。

技术实现层面，研究团队突破传统强化学习框架，不再依赖答案正确性作为唯一奖励信号。通过构建验证器与生成器的协同进化机制，模型在训练过程中自动生成高难度样本，形成"以战养战"的持续提升模式。这种创新方法不仅减少了对人工标注数据的依赖，更有效抑制了大模型的幻觉问题，使推理过程具备可解释性。

该成果在学术界引发广泛关注。专家指出，DeepSeek-Math-V2的自我验证框架为AI数学推理开辟了新方向，其过程导向的训练方法有望推广至物理、计算机科学等需要严格证明的领域。目前研究团队已公开模型代码和论文，供全球研究者共同探索可验证推理的更多可能性。

realme UI 7.0正式登场：AI功能升级，设计流畅双突破，多机型将推送

近日，真我正式推送realme UI 7.0正式版，上线了备受期待的多项AI功能与创新体验，“好用好玩，不止流畅”的核心理念得以全面展现。在设计层面，realme UI 7.0迎来了全面焕新，其以"光影之间…

2025-11-29

百度面临经营压力启动裁员，移动生态受冲击，AI相关岗位获资源倾斜

消息人士透露，移动生态业务将是受影响最明显的板块，但与人工智能、云计算相关的岗位将被重点保留，资源也将进一步向这些方向倾斜。尽管百度在2023 年率先推出“类 ChatGPT”服务，但在随后竞争中已落于…

2025-11-29

华为Mate80系列开售即火：晨曦金售罄，性能配置亮点多受好评

2025年11月28日，华为Mate80系列正式开售，售价为4699元，开售不到一小时，该系列晨曦金所有版本均售罄缺货。此前，该系列在预售阶段就表现火爆，24小时内全系预约量突破200万台，其中Pro版本单…

2025-11-28

满帧战神来袭！一加Ace 6T首发第五代骁龙8 游戏帧率稳如直线

快科技11月27日消息，一加Ace 6T将于12月3日19:00正式发布，新机首发第五代骁龙8旗舰芯片。从最重载的165帧手游，到《王者荣耀》144帧+极致画质全开，再到《原神》新地图场景，一加Ace 6T…

2025-11-28

AMD B650芯片组未停产仅减产，品牌厂商销售策略转向B850系列

IT之家 11 月 28 日消息，经博板堂消息人士昨日确认，今年 8 月传闻的“AMD B650 主板芯片组已停产”为假消息。他表示，AMDB650 芯片组并没有完全停产，只是适当减产，B650 芯片组也…

2025-11-28

华为测试麒麟9030新宽屏竖折手机预计明年首季发布折叠屏市场优势再巩固

【CNMO科技消息】11月28日，有数码博主爆料称，华为正在测试一款搭载麒麟9030芯片的全新宽屏比例竖向折叠屏手机。今年3月，华为发布了首款“阔”折叠屏手机Pura X，其内屏是一块16：10比例6.3英…

2025-11-28