智快网
快讯 行业 产业 汽车 科技 AI+ 热点

苹果DeepMMSearch-R1模型:用“图像裁剪术”攻克AI视觉搜索难题

2026-01-15来源:快讯编辑:瑞雪

苹果公司近日在人工智能领域取得重要进展,其研发团队发表的研究论文详细介绍了一款名为DeepMMSearch-R1的新型AI模型。该模型针对复杂视觉场景下的信息检索问题进行了深度优化,通过创新技术解决了传统AI模型在处理多要素视觉任务时常见的准确性不足问题。

传统AI模型在面对包含多个视觉元素的复合问题时,往往难以精准定位关键信息。例如当询问"画面左上角鸟类的最高飞行速度"时,现有模型可能因无法聚焦局部细节而返回整个鸟群的平均速度数据。这种"答非所问"或"漏看关键信息"的现象,在医疗影像分析、工业质检等需要高精度识别的场景中尤为突出。

DeepMMSearch-R1的核心突破在于引入了视觉定位工具系统。该系统通过动态图像裁剪技术,能够自动识别并隔离干扰元素,将处理范围聚焦于目标区域。这种"先定位后验证"的处理流程,使模型在保持整体场景理解能力的同时,显著提升了微小目标的识别精度。研究团队特别设计了双重验证机制,确保裁剪后的图像信息仍能保持语义完整性。

为平衡计算效率与处理精度,研发团队创新性地采用混合训练策略。通过监督微调技术,模型学习在何种场景下需要启动裁剪功能,避免不必要的计算资源消耗;结合在线强化学习算法,持续优化工具调用的时机与范围。这种训练方式使模型在保持响应速度的同时,将准确率提升了37%。

独立测试表明,在需要精确图文匹配的任务中,DeepMMSearch-R1的表现明显优于现有检索增强生成(RAG)系统及提示词驱动的搜索智能体。特别是在处理包含遮挡、重叠或微小元素的复杂图像时,该模型能准确识别并提取关键信息,有效解决了AI系统在常识性事实检索中常见的"简化处理"问题。目前研究团队正在探索该技术在自动驾驶、远程医疗等领域的应用可能性。

OpenAI与Cerebras携手,百亿美元大单打造全球最大高速AI推理平台
OpenAI认为,Cerebras芯片的速度来自于将庞大的计算量、内存和带宽集成在一块巨型芯片上,消除了传统硬件推理速度下降的瓶颈。OpenAI基础设施负责人Sachin Katti称,随着工程师不断反馈现…

2026-01-15

传音NOTE 60系列来袭:卫星通话+创新散热,能否掀起手机新潮流?
传音用一部智能手机,将全球无死角通信从探险家的专属装备,变成了普通用户的基础保障。 NOTE 60 系列首发搭载了 HydroFlow液体冷却系统,可以说重构了手机散热逻辑。 最后除了手机本体,Infin…

2026-01-15

手机换壳换屏怎么选?从技术到售后,这份攻略助你找到靠谱之选
在一些经济发达地区,由于人工成本和店铺租金较高,换壳换屏的价格可能会相对贵一些。 靠谱品牌与口碑推荐市场上有很多提供手机换壳换屏服务的品牌和店铺,要选择靠谱的并不容易。 性价比之选 对于追求性价比的用户…

2026-01-15