在人工智能领域持续创新的浪潮中,DeepSeek再次引发关注。近日,该团队宣布开源一套提升现有模型运行效率的工程方案,推出DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark两款模型,同时开源推测解码框架DSpark及训练框架DeepSpec,为行业带来新的技术突破。
此次开源的核心在于推测解码技术的创新应用。DSpark框架通过将草稿生成与模型校验解耦,实现了大语言模型推理速度的提升。与传统方法不同,DSpark采用半自回归架构,结合并行主干网络与轻量串行模块,在保持生成质量的同时,有效缓解了末尾内容通过率衰减问题。该框架还引入置信度调度校验机制,根据预估前缀通过概率动态调整校验长度,显著提升了有效通过序列长度。
技术文档显示,DSpark在DeepSeek-V4线上服务系统的部署中展现出显著优势。在保持整体吞吐不变的前提下,单用户生成速度提升60%-85%,且在严格交互时延约束下避免了吞吐率大幅下降。这种性能提升得益于其独特的架构设计:并行生成模块负责快速产出候选序列,串行校验模块则对高置信度部分进行精准验证,两者协同工作优化了算力分配。
配套开源的DeepSpec工具链为开发者提供了完整解决方案。这个全栈代码库包含数据准备、模型训练、评估脚本等模块,支持MIT许可协议。其工作流程涵盖从提示下载、目标答案生成到模型训练评估的全过程,目前支持DSpark、DFlash和Eagle3三种草稿模型算法。特别值得注意的是,DeepSpec允许开发者基于Qwen3、Gemma等现有模型训练自定义草稿模型,降低了技术落地门槛。
行业分析指出,此次开源标志着大模型竞争进入新阶段。当模型训练技术逐渐趋同,推理效率成为新的竞争焦点。DeepSeek通过工程化创新,在保持模型性能的同时实现算力优化,这种技术路径选择反映出其对产业需求的深刻理解。特别是在高并发服务场景中,DSpark框架展现出的吞吐率稳定性,为商业化应用提供了重要技术支撑。
技术社区对这次开源反应积极。开发者认为,DSpark框架的模块化设计和DeepSpec工具链的完整性,使得技术复用变得简单高效。特别是置信度调度机制的引入,为解决并行生成中的算力浪费问题提供了新思路。有专家指出,这种将学术创新与工程实践紧密结合的做法,有助于推动推测解码技术的快速普及。



