智快网
快讯 行业 产业 汽车 科技 AI+ 热点

DeepSeek V4基准测试引热议,编程能力或超顶尖闭源模型,明日发布?

2026-02-17来源:快讯编辑:瑞雪

近日,一款名为DeepSeek V4的开源大模型引发AI圈热议。有消息称,该模型或将于春节期间正式发布,其编程能力、上下文处理能力等多项指标均达到行业顶尖水平,甚至被部分网友称为“首个能匹敌顶尖闭源模型的开源模型”。

据泄露的基准测试数据,DeepSeek V4在SWE-bench Verified测试中取得了83.7%的成绩,超越了Claude Opus 4.5(80.9%)和GPT-5.2(80%)。这一成绩若被证实,将直接改写当前“最强代码模型”的排名。该模型在AIME 2026、IMO Answer Bench等数学推理测试中也表现出色,分别取得99.4%和88.4%的高分,甚至在FrontierMath Tier 4测试中达到GPT-5.2的11倍成绩。

除了编程和数学能力,DeepSeek V4的上下文处理能力同样引人注目。有传闻称,该模型支持高达100万token的上下文长度,并引入了新的Engram条件存储系统,能够实现近乎无限的上下文检索。这一特性使其在处理大型代码库或复杂分布式系统时更具优势,能够理解代码库中文件变化对其他部分的影响,为企业级开发提供强大支持。

然而,随着消息的传播,部分基准测试数据的真实性也受到质疑。有业内人士指出,在官方评分系统下,模型不可能达到99.4%的分数,最高分应为100%或99.2%。Epoch AI也确认,FrontierMath的数据存在伪造嫌疑,因为只有他们和OpenAI有权对该数据集进行评估。这些质疑使得DeepSeek V4的真实性能蒙上一层阴影。

尽管如此,DeepSeek V4的发布仍被视为开源模型领域的一次重要突破。此前,DeepSeek的V3和R1模型已证明开源AI模型能够以极低成本与专有模型竞争,而V4则有望在此基础上进一步提升开源模型的竞争力。据透露,V4在训练过程中对数据模式的理解能力得到提升,且不易出现性能衰减,输出结果在逻辑上也更加严密和可靠。

目前,DeepSeek官方尚未对V4的发布时间和具体性能作出正式回应,但业内普遍猜测,该模型可能正在测试一个轻量级版本(V4-lite),以逐步释放其技术潜力。与此同时,Hugging Face、GitHub等平台上仍未出现DeepSeek V4的相关更新,进一步加剧了外界对其真实性的猜测。

无论DeepSeek V4的最终性能如何,其引发的讨论已充分说明开源模型在AI领域的影响力正在不断扩大。随着技术的不断进步,开源与闭源模型之间的竞争或将更加激烈,而用户也将从中获得更多选择和更高质量的AI服务。

蔡明春晚再遇“机器人伙伴”,松延动力携多款机器人共庆新春
IT之家 2 月 16 日消息,2026 年总台春晚期间,松延动力多款机器人登上小品《奶奶的最爱》现场,通过笑话互动与现场演员表演小品,还表演了翻跟头、头部伸长等技能。小品讲述单身男子订购机器人妻子后引发的一…

2026-02-16

iPhone 18 Pro系列重磅来袭!五大升级亮点抢先揭秘
在即将到来的9月发布会上,苹果预计将只推出iPhone 18 Pro系列以及备受期待的首款大折叠屏iPhone Fold。 去年的iPhone17系列刚刚普及了苹果自研的N1芯片,而今年的iPhone 18…

2026-02-16

SaaS未死新篇启:智能体AI赋能,传统软件向行动系统华丽转身
在最近的财报和公司指导下,这种论调获得了关注,促使投资者修正了对大型SaaS提供商的增长预期。 在新兴的智能体经济中,将发生变化的是价值创造和交付的方式。67.5%的软件公司已经实施了智能体AI解决方案,这些…

2026-02-16

三星测试安卓首款阔折叠屏新机,或下半年发布对标iPhone Fold
快科技2月16日消息,三星正在测试全新的OneUI 9系统,开发者在底层代码中挖掘出了一款神秘折叠屏新机的踪迹。在命名上,爆料称这款新设备可能会被冠以Galaxy Wide Fold的名称,这预示着它将作为…

2026-02-16

华为小红书高清无水印素材保存攻略!实测2款免费微信小程序,高效安全教程来了
经过我3个月的深度测试和对比,终于可以拍着胸脯告诉你:想免费、高清、秒速去掉小红书水印,真正靠谱的微信小程序其实就这两个——小青去水印和坤坤去水印!它通过了ISO27001信息安全认证,处理过程是本地无痕的,…

2026-02-16

字节跳动豆包2.0大模型来袭,多款模型适配多样场景,Seedance 2.0同步接入
这次的豆包2.0包括Pro、Lite、Mini三款通用Agent模型和Code模型,灵活适配各类业务场景。 具体来看,豆包 2.0 全面升级了多模态能力,在各类视觉理解任务上均达到世界顶尖水平,视觉推理、感…

2026-02-16

苹果iOS 27系统大革新:代码优化助力续航跃升,AI新Siri强势登场
这一代系统在视觉设计上并不会大动干戈,但它在底层的优化力度可能是近年来最显著的一次。 在人工智能领域,iOS 27同样有重头戏,全新的Siri聊天机器人将正式亮相,其底层接入了谷歌的Gemini模型。据称,该…

2026-02-16