智快网
快讯 行业 产业 汽车 科技 AI+ 热点

DeepSeek新模型发力:小数据少显卡,也能与巨头模型掰手腕

2025-12-03来源:快讯编辑:瑞雪

在人工智能模型竞争愈发激烈的当下,开源模型与闭源模型的差距曾一度呈现扩大趋势。然而,DeepSeek的最新动作,为开源模型阵营注入了一剂强心针。

12月1日,DeepSeek一次性发布了两款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。这一举措瞬间在行业内引发关注。DeepSeek V3.2在性能上已能与GPT-5展开激烈角逐,而高性能版的DeepSeek-V3.2-Speciale更是表现惊艳,直接超越GPT系列,与国际公认的闭源模型天花板Gemini打得难解难分。不仅如此,这两款模型还在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)等一系列权威赛事中斩获金牌,实力不容小觑。

值得注意的是,这是DeepSeek今年发布的第九款模型。尽管备受期待的R2尚未现身,但此次两款新模型的发布,已然展现出DeepSeek强大的技术实力和创新能力。那么,DeepSeek究竟是如何凭借更小的数据量和更少的显卡资源,打造出能与国际巨头抗衡的模型呢?

深入探究其背后的技术革新,会发现DeepSeek此次带来了不少新思路。其中,稀疏注意力(DSA)的正式应用堪称一大亮点。在之前的V3.2-EXP版本中,稀疏注意力仅处于测试阶段,主要验证其对模型性能的影响。而此次,DeepSeek果断将其纳入主力模型,为模型性能提升带来了显著效果。

在日常与大模型交互时,我们常常会遇到这样的困扰:对话内容过长时,模型容易出现逻辑混乱甚至直接拒绝继续对话的情况。这其实是传统大模型注意力机制存在的弊端。在传统机制下,每个新生成的token都需要与前面的所有token进行计算,这就导致句子长度与模型计算量呈平方关系增长。例如,句子长度翻倍,计算量就变为原来的四倍;长度变为三倍,计算量则飙升至九倍,极大地限制了模型处理长文本的能力。

为了解决这一问题,DeepSeek为大模型引入了类似“固定页数目录”的稀疏注意力机制。这一机制如同为模型提供了阅读指南,帮助其快速定位关键信息。在处理文本时,模型只需计算当前token与“目录”之间的关系,就像阅读时先浏览目录,再根据兴趣深入阅读具体章节一样。这种改进使得模型处理长文本的能力大幅提升。从相关数据对比图中可以明显看出,随着句子长度增加,采用传统注意力机制的V3.1推理成本急剧上升,而使用稀疏注意力的V3.2则基本保持稳定,大大节省了计算资源。

除了在注意力机制上进行创新,DeepSeek还高度重视开源模型的后训练工作。大模型的训练过程,类似于人类从小学到高考的学习历程。大规模预训练阶段,如同从小学到高二的知识积累,无论是闭源模型还是开源模型,都在这一阶段认真“学习”。然而,到了高考冲刺阶段,也就是模型的后训练阶段,闭源模型通常会投入大量资源,聘请“名师”进行强化学习,以提升模型在考试中的表现。相比之下,开源模型在这一阶段的投入相对较少,导致模型虽然具备基础能力,但在应对难题时表现欠佳。

为了弥补这一短板,DeepSeek设计了一套全新的强化学习协议。在预训练结束后,投入超过总训练算力10%的资源为模型进行专项训练,相当于为开源模型也开设了“名师辅导班”。同时,DeepSeek还推出了具有超长思考能力的特殊版本——DeepSeek V3.2 Speciale。传统大模型由于上下文长度限制,在训练过程中会对深度思考内容进行标注惩罚,思考内容过长就会被扣分。而DeepSeek V3.2 Speciale则打破了这一限制,鼓励模型自由思考,不受思考时长和方式的约束。这一创新使得DeepSeek V3.2 Speciale在与Gemini 3的较量中表现出色。

在智能体能力方面,DeepSeek同样下足了功夫。一方面,为了提升模型的基础能力,DeepSeek构建了一个虚拟环境,合成了大量数据用于辅助训练。具体而言,DeepSeek-V3.2使用了24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用agent场景以及5908个真实代码解释任务进行后训练。另一方面,DeepSeek优化了模型使用工具的流程。以往模型在调用外部工具时,会将思考过程与工具调用分割开来,导致每次调用工具后都需要重新构建推理链,效率低下。例如,即使是查询“今天几月几号”这样简单的问题,模型也需要从头开始推理。而DeepSeek V3.2对这一逻辑进行了彻底重构,在工具调用过程中,模型的思考过程得以保留,只有当用户提出新问题时才会重置推理;工具调用记录和结果也会像聊天记录一样保留在上下文中,大大提高了模型使用工具的效率。

尽管DeepSeek此次取得了一系列令人瞩目的成果,但并非完美无缺。在论文中,DeepSeek坦诚地指出了自身存在的问题。例如,DeepSeek V3.2 Speciale在与谷歌Gemini 3 Pro的对决中,虽然能够打成平手,但在回答相同问题时,DeepSeek需要消耗更多的token。通过实际测试发现,对于一道复杂题目,Gemini 3 Pro仅需4972个token就能给出答案,而DeepSeek V3.2 Speciale则需要8077个token,token消耗量高出近六成。

然而,从成本角度来看,DeepSeek依然具有明显优势。以刚才的测试为例,DeepSeek 8000多个token仅花费0.0032美元,而谷歌的5000个token却需要0.06美元,成本高出约20倍。这一对比显示出DeepSeek在性价比方面的巨大潜力。

近期,开源模型与闭源模型的差距问题备受关注。但DeepSeek凭借自身的努力和创新,不断缩小这一差距。其一系列节省算力、优化数据的操作,让人联想到OpenAI前灵魂人物Ilya Sutskever的观点。他认为,单纯依靠堆砌模型参数并非长远之计。回顾人工智能发展历程,AlexNet仅使用两块GPU,Transformer实验规模大多在8 - 64块GPU之间,ResNet也是如此,没有哪篇论文依赖庞大的集群才能完成。相比之下,对算法的研究同样至关重要。DeepSeek正是沿着这一方向不断探索,从V2的MoE架构,到V3的多头潜在注意力(MLA),再到如今DeepSeek Math V2的自验证机制以及V3.2的稀疏注意力(DSA),每一次进步都源于对算法的深入研究与创新,而非单纯依靠参数规模的扩张。

豆包手机助手实测:苹果两年未圆的梦,豆包竟先一步实现了?
有了定时任务加持之后,我就能让它每天晚上 12 点帮我去支付宝和微信上统计今天的消费账单,来看看今天的钱都给花到哪里去了。 差评君也就这点专门问了下豆包的工程师们,他们说这个记忆搜索功能,全部是在端侧本地模…

2025-12-03

ChatGPT或与苹果健康数据互通 未来有望化身AI教练定制健身方案
该媒体基于图片展望,认为在集成实现,ChatGPT在获得用户授权后,将能读取“健康”应用内的数据,例如心率、体重、步数及步态等,其最直接的应用便是分析用户的整体健康状况。 例如,通过识别数据趋势,Chat…

2025-12-03

全球首个多模态视频创作神器可灵O1上线 解锁视频编辑新玩法 创作自由无界限
作为首个大一统多模态视频模型,可灵O1基于MVL(Multi-modal Visual Language,多模态视觉语言)理念,打破了传统单一视频生成任务的模型边界,将参考生视频、文生视频、首尾帧生视频、视…

2025-12-03

AWS re:Invent 2025发布Trainium3及UltraServers,AI算力成本再降新突破
同时,AWS还推出了基于全新一代Neuron Fabric互联技术的Trainium3UltraServers,最多可以将144颗Trainium3 整合在单一系统中总算力达362 FP8 PFLOPs。…

2025-12-03

威刚XPG ARMAX (RGB) DDR5内存条亮相,硬派散热设计融合战斗机元素
IT之家 12 月 2 日消息,威刚 XPG 昨日推出了 ARMAX (RGB) DDR5系列内存模组。其采用硬派的散热片设计,灵感源自战斗机的肌肉线条,搭载 XPG 首创的 V 字形曲线顶部设计。 威刚 …

2025-12-03

三星Galaxy Z TriFold正式登场:10英寸大屏+骁龙8定制芯,售价约1.7万元
三星表示,这块10英寸大屏相当于三部6.5英寸智能手机并排展示的空间,用户可以在屏幕上同时打开三个不同的应用程序,并且可以在多窗口模式下自由调整它们的大小。 同时,三星为这款三折叠手机开发了两套不同尺寸的铰…

2025-12-03

红米K90:中端价位邂逅旗舰体验,工艺性能影像续航全拉满
红米K90配备6.59英寸1.5K分辨率OLED直屏,采用M10发光材料与超级像素全RGB排列,支持120Hz刷新率,而全亮度DC调光与1nit极暗护眼模式的组合,更是解决了夜间用机的“频闪焦虑”——即使长…

2025-12-03

手机补光灯怎么选?优洋科技凭实力与口碑成靠谱优选
在手机补光灯的研发过程中,优洋科技凭借其强大的技术实力,不断优化产品的性能,确保产品在亮度、色温、光衰等方面都达到水平。公司在保证产品质量和性能的前提下,通过优化生产流程、降低生产成本等方式,为用户提供价格实…

2025-12-03

摄影直播好帮手!优洋科技手机补光灯,以实力铸就行业新标杆
今天,我们就来为大家推荐一家的企业——深圳市优洋科技有限公司。该公司的手机补光灯不仅具有出色的性能和可靠的质量,还提供了灵活的合作模式和来图定制服务,能够满足不同客户的需求。今天,我们就来为大家推荐一家的企业…

2025-12-03