智快网
快讯 行业 产业 汽车 科技 AI+ 热点

DeepSeek V4基准测试引热议 编程能力或超顶尖闭源模型,发布在即?

2026-02-17来源:快讯编辑:瑞雪

近日,一款名为DeepSeek V4的开源AI模型引发科技圈热议。这款被网友称为“开源新王”的模型,据传在多项基准测试中超越了Claude Opus 4.5和GPT-5.2等顶尖闭源模型,尤其在编程能力上展现出惊人实力。尽管官方尚未正式发布,但泄露的测试数据已让整个AI社区沸腾。

根据网络流传的测试结果,DeepSeek V4在SWE-bench Verified编程基准测试中取得了83.7%的得分,超越了Claude Opus 4.5的80.9%和GPT-5.2的80%。这一成绩若经证实,将直接改写当前最强代码模型的排名。更令人震惊的是,该模型在AIME 2026数学竞赛测试中达到99.4%的准确率,在FrontierMath Tier 4前沿数学推理测试中取得23.5%的得分,是GPT-5.2的11倍。

技术专家分析指出,DeepSeek V4的突破不仅体现在分数上。该模型具备100万token的上下文处理能力,配合全新的Engram条件记忆机制,使其能够理解大型代码库中文件间的复杂关联。这种“全仓库级推理能力”对企业级软件开发具有革命性意义——开发者可以依赖AI理解整个项目结构,在正确位置插入新功能或修复bug,而无需担心上下文丢失问题。

然而,这些惊人的测试数据也引发了质疑。Epoch AI等机构证实,FrontierMath数据集的评估权限仅开放给特定机构,网络流传的分数存在伪造可能。更有专家指出,在官方评分系统下,AIME测试的最高分应为100%(120/120),而99.4%的得分存在统计异常。这些争议使得DeepSeek V4的真实性能仍笼罩在迷雾之中。

尽管如此,DeepSeek V4的潜在影响力已不容忽视。据知情人士透露,该模型可能采用2000亿参数架构,但未使用与北大联合开发的Engram记忆机制。灰度测试显示,其API文档标注的上下文长度仍为128K,与宣称的100万token存在差距。这种“低调测试”策略被解读为技术验证阶段的重要步骤。

在模型架构层面,DeepSeek持续推动创新。meta科学家Zhuokai Zhao的研究表明,当前前沿稀疏专家模型已形成标准配方:MLA架构结合sigmoid激活函数,配合共享专家模块和无辅助损失设计,正在成为行业新标准。而DeepSeek在V3.2版本后,持续在模型架构、记忆机制和视觉推理等领域探索,为V4的突破奠定了技术基础。

这场开源与闭源模型的竞争,正演变为技术理念的交锋。DeepSeek V4若能兑现承诺,将以开放权重模式打破闭源模型的技术垄断,为全球开发者提供低成本、高性能的替代方案。其引发的讨论,已超越单纯的技术比较,成为AI发展路径选择的重要参照。

苹果官宣3月4日上海办活动 iPhone 17e及新配色MacBook或齐亮相
按照此前的爆料,此次发布会上将与我们见面的,很有可能是全新的iPhone 17e。另外,包括春季新配色的iPhone17、搭载A18芯片的MacBook等产品,也有望在此次活动中亮相。 目前来看,iPhon…

2026-02-17

石头科技获宠物陪玩图形界面专利,创新设计或重塑人宠互动新体验
这一专利的获批不仅彰显了石头科技在创新设计方面的持续努力,也为宠物陪玩领域注入了新的活力,预计将改变宠物主人与宠物之间的互动方式。 随着宠物陪玩需求的上升,石头科技的这一创新设计无疑将为宠物行业带来新的发展机…

2026-02-17

石头科技再获新专利:智能机械臂助力清洁设备,开启家居清洁高效新时代
通过这一创新设计,机械臂能够有效将障碍物转移至其他区域,从而大幅提升清洁效率。这一数字不仅反映了公司对技术创新的重视,也体现了其在智能家居市场的战略布局。 总的来说,石头科技的“清洁设备和清洁系统”专利,不仅…

2026-02-17

石头科技再获新专利:智能清洁设备创新设计,助力智能家居新升级
这一设计的创新之处在于,当推动件朝向不同位置移动时,摆臂和清洁头的配合运动能够有效提升清洁效率,减少清洁时间。这不仅表明公司在技术研发方面的活跃度,更是其在智能清洁设备市场竞争中不断增强实力的体现。石头科技通…

2026-02-17

Qwen3.5正式开源:原生多模态大模型,以小胜大引领AI新实用潮流
但让大模型真正”张开眼睛”,在统一架构下同时提升语言和视觉能力,实现多模态信息的高效融合与协同生成,并非易事。 在智能体训练上,千问团队还搭建了一套大规模强化学习框架,支持文本、多模态与多轮对话等场景,训练效…

2026-02-17

苹果3月4日将办特别体验活动,多款新品或亮相引期待
快科技2月16日消息,今日,苹果宣布将于美东时间3月4日上午9点在纽约、伦敦和上海举办一场特别的Apple体验活动。据了解,苹果即将发布多款新产品,包括搭载M5 Pro和M5 Max芯片的MacBook P…

2026-02-17

阿里开源千问Qwen3.5-Plus:性能媲美Gemini 3 Pro,推理效率与多模态能力双飞跃
千问团队自研的门控技术成果,曾斩获全球AI顶会2025 NeurIPS最佳论文,该前沿技术已融入到千问3.5创新的混合架构中去,团队结合线性注意力机制与稀疏混合专家MoE模型架构,实现了397B总参数激活仅1…

2026-02-16