智快网
快讯 行业 产业 汽车 科技 AI+ 热点

DeepSeek-OCR 2开源登场:以视觉因果流开启文档理解新范式

2026-01-27来源:互联网编辑:瑞雪

深度求索团队近日宣布开源新一代文档理解模型DeepSeek-OCR 2,并同步发布技术论文《DeepSeek-OCR 2: Visual Causal Flow》。该模型在综合性文档理解基准OmniDocBench v1.5测试中取得91.09%的突破性成绩,较前代提升3.73个百分点,尤其在复杂文档的逻辑顺序还原能力上实现质的飞跃。

传统OCR技术采用"机械扫描"式处理方式,通过固定网格切割图像后按空间顺序识别文字。这种模式在处理学术论文、金融报表等多栏排版文档时,常出现逻辑断裂、语义关联丢失等问题。DeepSeek-OCR 2通过引入"视觉因果流"编码范式,使模型具备自主推理文档结构的能力,实现从"机械扫描"到"智能阅读"的认知升级。

新模型的核心创新在于DeepEncoder V2架构,该架构通过三阶段处理流程重构文档理解逻辑:首先利用双向注意力机制建立全局视觉感知,继而通过因果流查询组件动态推导最优阅读顺序,最终将高维视觉信息压缩为富含语义的视觉标记序列。这种处理方式使模型输出的视觉序列自带因果顺序特征,为后续语言解码提供结构清晰的"思考蓝图"。

在性能表现上,DeepSeek-OCR 2展现出显著优势。其视觉标记压缩率较前代提升40%,仅需256-1120个标记即可精准表示复杂文档内容,大幅降低下游计算负担。在学术论文、财务报表等场景测试中,模型不仅能准确识别文字,更能还原段落间的逻辑关系,输出文本可直接用于分析归档。标准化编辑距离指标提升33%,证明其在阅读顺序准确性上的突破性进展。

技术团队指出,该模型的价值不仅限于OCR领域。其验证的因果流机制为多模态AI架构提供新思路——未来模型或可通过类似机制,自主理解文本、图像、音视频等不同模态信息的内在结构,生成统一的语义表示。这种处理方式更接近人类认知模式,有望推动跨模态理解与生成技术发展。

当前模型在极端密集文本场景(如古典报纸)的识别效果仍有优化空间。研究团队表示将持续改进模型鲁棒性,同时探索因果流机制在更多模态领域的应用可能性。

贝锐向日葵赋能能源供热:破解远程运维难题,助力冬季供暖稳保障
在此背景下,运用贝锐向日葵这类远程控制解决方案,能够有效支持能源企业实现安全、高效的设备远程运维管理。这使得远程控制所使用的网络与设备内网实现物理隔离,在保障最高等级安全的同时,完成了对“无网”设备的远程运维…

2026-01-27

iQOO 15 Ultra 2月4日登场:性能狂飙配主动散热,游戏影像全能出击
但也可以理解,这种变化可能是为大电池安全和机身内部空间做的妥协,况且无线充电的保留算是给足了旗舰面子。 但这套设计语言的接受度可能比参数更两极分化,一方面,新机的定位非常清晰:为那些对帧率、延迟、操控有极致…

2026-01-27

iQOO 15 Ultra官宣:自研Q3芯片加持,2月4日发布打造极致游戏体验
同时,iQOO 15 Ultra有望内置“行业最大且散热效率最高”的主动散热风扇,并采用独创的双涡流增压风道设计,配合大面积VC均热板。作为一款面向极致玩家的性能旗舰,iQOO 15 Ultra预计配备一块…

2026-01-27

苹果AirTag 2焕新登场:查找范围与音量双提升,售价依旧亲民
IT之家 1 月 26 日消息,苹果今晚 10 点突然发布了 全新 AirTag 追踪器(AirTag 2),该配件可通过苹果“查找”App 帮助用户追踪和查找重要物品,新品进一步拓展了查找范围,并配备了音量…

2026-01-27

一加15T手机入网在即:小屏旗舰配100W快充 春节后或掀换机潮
并且,机身细节上,爆料信息显示一加15T这款智能手机采用金属中框提升质感,3D超声波指纹识别技术则优化了解锁体验。在业内人士看来,一加 15T这款智能手机在延续小屏路线的同时,显然将在性能与续航方面进一步强化…

2026-01-27

旧手机回收难题如何解?伟通科技手机维修以专业服务成靠谱之选
现在很多回收企业都提供上门回收服务,消费者只需在网上下单,就会有专业的回收人员上门评估手机的价值并完成回收交易,节省了消费者的时间和精力。 总结 在选择手机回收企业时,消费者要综合考虑多方面的因素,包括企业…

2026-01-27