智快网
快讯 行业 产业 汽车 科技 AI+ 热点

DeepSeek开源3B小模型DeepSeek-OCR,以“光学压缩”探索文本处理新路径

2025-10-21来源:快讯编辑:瑞雪

DeepSeek 团队近日开源了一款名为 DeepSeek-OCR 的 30 亿参数模型,通过创新的“光学压缩”技术,在保持高准确率的同时大幅降低文本处理所需的计算资源。该模型将视觉模态引入文本信息处理领域,为解决大语言模型(LLM)处理长文本时的计算瓶颈提供了新思路。

传统 LLM 在处理长文本时面临计算复杂度平方级增长的难题——序列长度每增加一倍,算力消耗将呈四倍增长。DeepSeek-OCR 的突破性在于将文本转换为图像进行压缩处理:通过视觉模态的“光学压缩”,模型用更少的视觉 Token 承载相同信息量。实验数据显示,该技术可实现 7-20 倍的 Token 压缩率,在 10 倍压缩下 OCR 准确率超过 97%,即使压缩 20 倍仍能保持 60% 准确率。

模型架构由编码器 DeepEncoder 和解码器 DeepSeek3B-MoE 组成。DeepEncoder 采用 SAM-base(8000 万参数)与 CLIP-large(3 亿参数)的串联结构,前者负责局部特征提取,后者进行全局信息整合。中间嵌入的 16× 卷积压缩器可将输入图像的 Token 数量大幅削减,例如 1024×1024 图像经处理后,进入全局注意力层的 Token 从 4096 个降至数百个。这种设计使模型既能处理高分辨率输入(支持 512×512 至 1280×1280 多分辨率),又有效控制了内存开销。

解码器部分采用混合专家(MoE)架构,64 个专家中激活 6 个,配合 2 个共享专家,实际激活参数约 5.7 亿。这种设计使 30 亿参数规模的模型兼具 300 亿参数模型的表达能力与 50 亿参数模型的推理效率。在 OmniDocBench 基准测试中,使用 100 个视觉 Token 的 DeepSeek-OCR 表现优于 GOT-OCR2.0(每页 256 个 Token),使用 800 个 Token 时则超越 MinerU2.0(平均每页超 6000 个 Token)。

数据构建方面,团队从互联网收集了 3000 万页多语言 PDF 文档(中英文占 2500 万页),通过粗标注(fitz 提取)和精标注(PP-DocLayout 等模型生成)结合的方式构建训练集。针对小语种数据,创新采用“模型飞轮”机制:先用版面分析模型检测文本区域,再用生成的数据训练 GOT-OCR2.0,最后用训练好的模型标注更多数据,形成数据生成闭环。模型还整合了 300 万条 Word 文档数据以提升公式识别能力,以及 2000 万条场景 OCR 数据(中英文各半)增强自然图像解析能力。

该模型不仅具备基础 OCR 功能,更实现了对复杂图像的结构化解析。通过统一提示词,可自动提取金融图表数据、转换化学结构式为 SMILES 格式、解析几何图形并生成密集描述。在 STEM 领域(如化学、物理、数学),这种能力可显著提升符号和图形密集型场景的处理效率。

研究团队还提出了一个颇具前瞻性的设想:通过光学压缩模拟人类遗忘机制。具体方案是将历史对话内容渲染为图像,通过逐步压缩图像尺寸实现信息模糊化——近期内容保持高分辨率,久远内容自然淡化。这种设计理论上可支撑“无限上下文”处理,使模型在保持近期上下文高保真的同时,降低历史上下文的计算资源占用。

目前,DeepSeek-OCR 已开源原生分辨率的 Tiny(64 Token)、Small、Base、Large 四档模式,以及动态分辨率的 Gundam 模式。在实际生产环境中,单块 A100-40G 显卡每日可生成超 20 万页训练数据,20 个节点(160 块 A100)的集群日处理量可达 3300 万页。团队强调,当前成果仅是起点,后续将开展数字-光学文本交替预训练、“大海捞针”测试等系统性研究,以全面验证光学压缩技术在上下文处理中的潜力。

2025旗舰机优选:荣耀Magic8系列性能影像双优,成高端市场新宠
从性能表现到AI体验,再到影像与设计,Magic8系列用实际体验证明了它为何能被列为“最好旗舰”的代表。更重要的是,Magic8在手感上做了细腻优化,机身弧线与掌心贴合,带来更舒适的握持体验。对那些追求稳定性…

2025-10-23

DeepSeek开源DeepSeek-OCR:用视觉压缩新招,为长文本处理降本增效
这次他们发布了一个名为 DeepSeek-OCR的模型,尝试用一种新颖的“上下文光学压缩”方法,来解决当前大语言模型处理长篇文档时效率不高、成本过高的问题。在 DeepSeek-OCR中,这个拥有约 5…

2025-10-21

当贝S7 Ultra系列打破投影不可能三角:液冷散热让高亮度与静音体验兼得
相比于传统风冷(直接用风扇吹散热片),液冷就像是给投影仪装上了一套“中央空调”,效率完全不是一个级别。液冷散热让这些核心部件告别了“高温预警”,长期运行在一个健康、凉爽的环境下,它们的性能会更稳定,使用寿命自…

2025-10-21

今晚七点!iQOO 15携骁龙8至尊版等重磅升级登场,性能体验再进阶
将在今晚七点正式发布的iQOO 15除了首批更新第五代骁龙8至尊版处理器以外,更迎来了屏幕、独显芯片、续航、散热等重大升级,下面的爆料汇总值得一看。据悉,它还将在散热、视听触等方面全方位优化,通过搭载全新升级…

2025-10-21

江波龙发布集成封装mSSD:性能强劲容量达4TB,灵活适配多场景
与传统方式需先将 Wafer 在不同工厂完成 NAND、控制器、PMIC 等元件的封装测试,再转运至 SMT 工厂进行排产贴片不同,mSSD完全省去了 PCB 贴片、回流焊等多道 SMT 环节及各站点转运,…

2025-10-21

REDMI官宣“乐坛新友”引猜测 或为陈奕迅 K90系列23日登场
【CNMO科技消息】10月20日,REDMI官方发布预告,宣布品牌将迎来一位全新的“乐坛新朋友”,并将于次日揭晓身份。 此次联动正值REDMI K90系列新品即将发布的前夕,外界普遍推测该歌手将作为品牌大使或…

2025-10-21

苹果未来将在内地上线eSIM快速转换功能,国行iPhone Air用户换机更便捷
10 月 20 日消息,苹果无线软件技术与生态系统副总裁 Arun Mathias 及无线技术团队的 Anjali Jotwani在接受“爱范儿”采访时,透露未来苹果将会在中国大陆推出 eSIM 快速转换功…

2025-10-20

JetBrains停运CodeCanvas,将聚焦AI构建云原生新平台
10 月 20 日消息,JetBrains 旗下云端开发环境平台 CodeCanvas宣布将正式停止现有版本的开发与运营,并计划把重心转向构建面向 AI 的新一代云端解决方案。 展望未来,JetBrains…

2025-10-20

realme真我GT8标准版参数揭晓,拒绝平庸,力图打造“最强标准版”手机
IT之家 10 月 20 日消息,realme 真我副总裁王伟(@老王 Derek)今天在微博公布了 GT8 标准版手机的详细参数。 王伟表示,这些年来行业惯例是给产品分出“中杯”、“大杯”、“超大杯”,这种…

2025-10-20

智元机器人合伙人王闯透露:远征系列出货约千台,成全球人形机器人出货之冠
10 月 20 日消息,2025 可持续全球领导者大会于 10 月 16 日-18 日在上海市黄浦区世博园区召开。 据新浪财经报道,智元机器人合伙人、高级副总裁、通用业务部总裁王闯在媒体沟通中表示,远征整个系…

2025-10-20