DeepSeek新模型发力：小数据少显卡，也能与巨头模型掰手腕-科技-智快网

在人工智能模型竞争愈发激烈的当下，开源模型与闭源模型的差距曾一度呈现扩大趋势。然而，DeepSeek的最新动作，为开源模型阵营注入了一剂强心针。

12月1日，DeepSeek一次性发布了两款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。这一举措瞬间在行业内引发关注。DeepSeek V3.2在性能上已能与GPT-5展开激烈角逐，而高性能版的DeepSeek-V3.2-Speciale更是表现惊艳，直接超越GPT系列，与国际公认的闭源模型天花板Gemini打得难解难分。不仅如此，这两款模型还在IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）等一系列权威赛事中斩获金牌，实力不容小觑。

值得注意的是，这是DeepSeek今年发布的第九款模型。尽管备受期待的R2尚未现身，但此次两款新模型的发布，已然展现出DeepSeek强大的技术实力和创新能力。那么，DeepSeek究竟是如何凭借更小的数据量和更少的显卡资源，打造出能与国际巨头抗衡的模型呢？

深入探究其背后的技术革新，会发现DeepSeek此次带来了不少新思路。其中，稀疏注意力（DSA）的正式应用堪称一大亮点。在之前的V3.2-EXP版本中，稀疏注意力仅处于测试阶段，主要验证其对模型性能的影响。而此次，DeepSeek果断将其纳入主力模型，为模型性能提升带来了显著效果。

在日常与大模型交互时，我们常常会遇到这样的困扰：对话内容过长时，模型容易出现逻辑混乱甚至直接拒绝继续对话的情况。这其实是传统大模型注意力机制存在的弊端。在传统机制下，每个新生成的token都需要与前面的所有token进行计算，这就导致句子长度与模型计算量呈平方关系增长。例如，句子长度翻倍，计算量就变为原来的四倍；长度变为三倍，计算量则飙升至九倍，极大地限制了模型处理长文本的能力。

为了解决这一问题，DeepSeek为大模型引入了类似“固定页数目录”的稀疏注意力机制。这一机制如同为模型提供了阅读指南，帮助其快速定位关键信息。在处理文本时，模型只需计算当前token与“目录”之间的关系，就像阅读时先浏览目录，再根据兴趣深入阅读具体章节一样。这种改进使得模型处理长文本的能力大幅提升。从相关数据对比图中可以明显看出，随着句子长度增加，采用传统注意力机制的V3.1推理成本急剧上升，而使用稀疏注意力的V3.2则基本保持稳定，大大节省了计算资源。

除了在注意力机制上进行创新，DeepSeek还高度重视开源模型的后训练工作。大模型的训练过程，类似于人类从小学到高考的学习历程。大规模预训练阶段，如同从小学到高二的知识积累，无论是闭源模型还是开源模型，都在这一阶段认真“学习”。然而，到了高考冲刺阶段，也就是模型的后训练阶段，闭源模型通常会投入大量资源，聘请“名师”进行强化学习，以提升模型在考试中的表现。相比之下，开源模型在这一阶段的投入相对较少，导致模型虽然具备基础能力，但在应对难题时表现欠佳。

为了弥补这一短板，DeepSeek设计了一套全新的强化学习协议。在预训练结束后，投入超过总训练算力10%的资源为模型进行专项训练，相当于为开源模型也开设了“名师辅导班”。同时，DeepSeek还推出了具有超长思考能力的特殊版本——DeepSeek V3.2 Speciale。传统大模型由于上下文长度限制，在训练过程中会对深度思考内容进行标注惩罚，思考内容过长就会被扣分。而DeepSeek V3.2 Speciale则打破了这一限制，鼓励模型自由思考，不受思考时长和方式的约束。这一创新使得DeepSeek V3.2 Speciale在与Gemini 3的较量中表现出色。

在智能体能力方面，DeepSeek同样下足了功夫。一方面，为了提升模型的基础能力，DeepSeek构建了一个虚拟环境，合成了大量数据用于辅助训练。具体而言，DeepSeek-V3.2使用了24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用agent场景以及5908个真实代码解释任务进行后训练。另一方面，DeepSeek优化了模型使用工具的流程。以往模型在调用外部工具时，会将思考过程与工具调用分割开来，导致每次调用工具后都需要重新构建推理链，效率低下。例如，即使是查询“今天几月几号”这样简单的问题，模型也需要从头开始推理。而DeepSeek V3.2对这一逻辑进行了彻底重构，在工具调用过程中，模型的思考过程得以保留，只有当用户提出新问题时才会重置推理；工具调用记录和结果也会像聊天记录一样保留在上下文中，大大提高了模型使用工具的效率。

尽管DeepSeek此次取得了一系列令人瞩目的成果，但并非完美无缺。在论文中，DeepSeek坦诚地指出了自身存在的问题。例如，DeepSeek V3.2 Speciale在与谷歌Gemini 3 Pro的对决中，虽然能够打成平手，但在回答相同问题时，DeepSeek需要消耗更多的token。通过实际测试发现，对于一道复杂题目，Gemini 3 Pro仅需4972个token就能给出答案，而DeepSeek V3.2 Speciale则需要8077个token，token消耗量高出近六成。

然而，从成本角度来看，DeepSeek依然具有明显优势。以刚才的测试为例，DeepSeek 8000多个token仅花费0.0032美元，而谷歌的5000个token却需要0.06美元，成本高出约20倍。这一对比显示出DeepSeek在性价比方面的巨大潜力。

近期，开源模型与闭源模型的差距问题备受关注。但DeepSeek凭借自身的努力和创新，不断缩小这一差距。其一系列节省算力、优化数据的操作，让人联想到OpenAI前灵魂人物Ilya Sutskever的观点。他认为，单纯依靠堆砌模型参数并非长远之计。回顾人工智能发展历程，AlexNet仅使用两块GPU，Transformer实验规模大多在8 - 64块GPU之间，ResNet也是如此，没有哪篇论文依赖庞大的集群才能完成。相比之下，对算法的研究同样至关重要。DeepSeek正是沿着这一方向不断探索，从V2的MoE架构，到V3的多头潜在注意力（MLA），再到如今DeepSeek Math V2的自验证机制以及V3.2的稀疏注意力（DSA），每一次进步都源于对算法的深入研究与创新，而非单纯依靠参数规模的扩张。

豆包手机助手实测：苹果两年未圆的梦，豆包竟先一步实现了？

有了定时任务加持之后，我就能让它每天晚上 12 点帮我去支付宝和微信上统计今天的消费账单，来看看今天的钱都给花到哪里去了。差评君也就这点专门问了下豆包的工程师们，他们说这个记忆搜索功能，全部是在端侧本地模…

2025-12-03

ChatGPT或与苹果健康数据互通未来有望化身AI教练定制健身方案

该媒体基于图片展望，认为在集成实现，ChatGPT在获得用户授权后，将能读取“健康”应用内的数据，例如心率、体重、步数及步态等，其最直接的应用便是分析用户的整体健康状况。例如，通过识别数据趋势，Chat…

2025-12-03

全球首个多模态视频创作神器可灵O1上线解锁视频编辑新玩法创作自由无界限

作为首个大一统多模态视频模型，可灵O1基于MVL（Multi-modal Visual Language，多模态视觉语言）理念，打破了传统单一视频生成任务的模型边界，将参考生视频、文生视频、首尾帧生视频、视…

2025-12-03

AWS re:Invent 2025发布Trainium3及UltraServers，AI算力成本再降新突破

同时，AWS还推出了基于全新一代Neuron Fabric互联技术的Trainium3UltraServers，最多可以将144颗Trainium3 整合在单一系统中总算力达362 FP8 PFLOPs。…

2025-12-03

威刚XPG ARMAX (RGB) DDR5内存条亮相，硬派散热设计融合战斗机元素

IT之家 12 月 2 日消息，威刚 XPG 昨日推出了 ARMAX (RGB) DDR5系列内存模组。其采用硬派的散热片设计，灵感源自战斗机的肌肉线条，搭载 XPG 首创的 V 字形曲线顶部设计。威刚 …

2025-12-03

三星Galaxy Z TriFold正式登场：10英寸大屏+骁龙8定制芯，售价约1.7万元

三星表示，这块10英寸大屏相当于三部6.5英寸智能手机并排展示的空间，用户可以在屏幕上同时打开三个不同的应用程序，并且可以在多窗口模式下自由调整它们的大小。同时，三星为这款三折叠手机开发了两套不同尺寸的铰…

2025-12-03

红米K90：中端价位邂逅旗舰体验，工艺性能影像续航全拉满

红米K90配备6.59英寸1.5K分辨率OLED直屏，采用M10发光材料与超级像素全RGB排列，支持120Hz刷新率，而全亮度DC调光与1nit极暗护眼模式的组合，更是解决了夜间用机的“频闪焦虑”——即使长…

2025-12-03

手机补光灯怎么选？优洋科技凭实力与口碑成靠谱优选

在手机补光灯的研发过程中，优洋科技凭借其强大的技术实力，不断优化产品的性能，确保产品在亮度、色温、光衰等方面都达到水平。公司在保证产品质量和性能的前提下，通过优化生产流程、降低生产成本等方式，为用户提供价格实…

2025-12-03

摄影直播好帮手！优洋科技手机补光灯，以实力铸就行业新标杆

今天，我们就来为大家推荐一家的企业——深圳市优洋科技有限公司。该公司的手机补光灯不仅具有出色的性能和可靠的质量，还提供了灵活的合作模式和来图定制服务，能够满足不同客户的需求。今天，我们就来为大家推荐一家的企业…

2025-12-03