智快网
快讯 行业 产业 汽车 科技 AI+ 热点

DeepSeek-OCR2革新登场:首推「因果流」视觉编码,性能超越Gemini

2026-01-27来源:快讯编辑:瑞雪

DeepSeek团队近日宣布推出全新升级的DeepSeek-OCR2模型,该模型通过引入创新的DeepEncoder V2视觉编码器架构,实现了视觉处理范式的重大突破。与传统模型机械式的图像扫描方式不同,新架构模拟人类视觉认知的因果逻辑流,能够根据内容语义动态调整信息处理顺序。

核心技术创新在于视觉编码器的重构。研究团队采用轻量化Qwen2-0.5B语言模型替代传统CLIP编码器,构建了包含视觉分词器和因果查询机制的双模块架构。视觉分词器沿用SAM-base架构配合卷积层,将图像转换为视觉标记;而独特的因果流查询机制通过可学习的查询标记,配合双向与因果混合的注意力掩码设计,实现了视觉信息的语义重排。

实验数据显示,新模型在保持极高压缩率的同时显著提升处理精度。在OmniDocBench v1.5基准测试中,使用256-1120个视觉标记的DeepSeek-OCR2取得91.09%的综合得分,较前代提升3.73%。特别值得注意的是,阅读顺序编辑距离指标从0.085优化至0.057,证明模型在复杂版面处理中展现出更强的逻辑性。

与闭源强模型Gemini-3 Pro的对比测试中,DeepSeek-OCR2在约1120个视觉标记的条件下,文档解析编辑距离达到0.100,优于对手的0.115。生产环境测试显示,该模型使在线用户日志图像的OCR结果重复率从6.25%降至4.17%,PDF数据处理重复率从3.69%降至2.88%,显著提升了数据清洗效率。

研究团队强调,这项突破验证了"语言模型作为视觉编码器"的技术路径可行性。通过配备不同模态的查询嵌入,同一编码器架构未来有望同时处理文本、图像、音频等多模态数据,为构建原生多模态系统奠定基础。目前模型代码、论文及预训练权重已在GitHub和HuggingFace平台开源发布。

苏州中飞遥感亮相国际低空经济博览会,创新产品获“金翼奖”助力产业升级
中飞遥感总经理鞠京梁详细介绍了参展产品:“首先,第一个产品是我们的光伏清洗无人机。光伏清洗无人机是我们自研的一个产品,自研式的水搓把的扫摆技术,清洗效果非常好;我们里面内置了飞行大脑,实现了航线的自动化飞…

2026-01-27

贝锐向日葵赋能能源供热:破解远程运维难题,助力冬季供暖稳保障
在此背景下,运用贝锐向日葵这类远程控制解决方案,能够有效支持能源企业实现安全、高效的设备远程运维管理。这使得远程控制所使用的网络与设备内网实现物理隔离,在保障最高等级安全的同时,完成了对“无网”设备的远程运维…

2026-01-27

iQOO 15 Ultra 2月4日登场:性能狂飙配主动散热,游戏影像全能出击
但也可以理解,这种变化可能是为大电池安全和机身内部空间做的妥协,况且无线充电的保留算是给足了旗舰面子。 但这套设计语言的接受度可能比参数更两极分化,一方面,新机的定位非常清晰:为那些对帧率、延迟、操控有极致…

2026-01-27

iQOO 15 Ultra官宣:自研Q3芯片加持,2月4日发布打造极致游戏体验
同时,iQOO 15 Ultra有望内置“行业最大且散热效率最高”的主动散热风扇,并采用独创的双涡流增压风道设计,配合大面积VC均热板。作为一款面向极致玩家的性能旗舰,iQOO 15 Ultra预计配备一块…

2026-01-27