智快网
快讯 行业 产业 汽车 科技 AI+ 热点

小红书开源多模态大模型dots.vlm1,视觉理解与推理能力接近顶尖水平

2025-08-07来源:ITBEAR编辑:瑞雪

小红书,这家以“种草”文化著称的社交平台,近期在AI技术自研领域迈出了重要步伐,连续两个月内发布了三款开源模型,引起了业界的广泛关注。最新亮相的多模态大模型dots.vlm1,凭借其强大的视觉理解和推理能力,展现了接近Gemini 2.5 Pro闭源模型的实力。

在竞争激烈的AI领域,各大科技公司纷纷推出自家模型,OpenAI的Claude升级至4.1版本,谷歌则推出了用于生成游戏世界的Genie 3,引发社区热议。国产模型也不甘示弱,HuggingFace平台上的前十名开源模型中,已有多个来自国内团队。然而,仔细观察这些排名靠前的模型,不难发现,大多数仍为文本模型,缺乏多模态能力。

小红书的人文智能实验室(Humane Intelligence Lab,简称hi lab)近日低调开源了其首个多模态大模型dots.vlm1,为视觉语言模型(VLM)领域带来了新气象。这款模型基于小红书自研的12亿参数NaViT视觉编码器和DeepSeek V3大语言模型构建,不仅在视觉理解和推理任务上表现出色,还保持了纯文本任务中的竞争力。

hi lab此前开源的dots.ocr文档解析模型已在Huggingface平台上获得热榜第七的好成绩,尽管其基础模型参数仅为17亿,但性能却达到了业界领先水平。这一成就显示了hi lab团队在AI技术自研方面的认真态度和强大实力。

dots.vlm1在多个视觉评测集上的表现接近当前领先的Gemini 2.5 Pro与Seed-VL1.5 Thinking模型,显示出强大的图文理解与推理能力。在文本推理任务上,dots.vlm1的表现与DeepSeek-R1-0528相当,尽管在数学和代码能力上已具备一定的通用性,但在更多样化的推理任务上仍有提升空间。

在实际测试中,dots.vlm1展现了令人惊艳的能力。面对复杂图表和数独问题,模型能够逐步分析并给出正确答案,甚至在长时间思考过程中出现了类似DeepSeek的“啊哈时刻”,体现了其真正的思考和推理能力。dots.vlm1还能解决红绿色盲数字问题,进行数学计算,甚至模仿李白诗风创作诗词,展现了其全面的多模态能力。

dots.vlm1的技术架构由三个核心组件构成:全自研的NaViT视觉编码器、轻量级的MLP适配器以及DeepSeek V3 MoE大语言模型。这一架构通过三阶段流程进行训练,包括视觉编码器预训练、VLM预训练和VLM后训练,旨在提升模型对多样视觉数据的感知能力和泛化能力。

NaViT视觉编码器是dots.vlm1的核心之一,它完全从零开始训练,原生支持动态分辨率,专为视觉语言模型设计。通过两阶段的训练策略,NaViT编码器在基础视觉和语义感知以及高分辨率输入处理方面均表现出色。

在预训练数据方面,hi lab为dots.vlm1准备了跨模态互译数据和跨模态融合数据两大类别,旨在构建一个全谱系的数据分布,覆盖所有可被人类理解且可转化为离散token序列的视觉信息。这些数据包括普通图像、复杂图表、OCR场景图像、视频帧以及Grounding监督数据等,为模型的多模态能力提供了有力支持。

小红书之所以在AI大模型领域加大自研力度,是因为多模态能力已成为通向通用人工智能(AGI)的必经之路。通过模拟人类利用多种感官综合感知世界的方式,多模态AI能够形成更全面、细致的理解,对复杂场景作出更整体化的判断。在自动驾驶、具身智能等领域,VLM正成为机器人理解和融入人类社会的重要工具。

小红书hi lab在AI技术自研上的决心和投入不仅体现在dots.vlm1上,还体现在其不断壮大的dots模型家族中。从dots.llm1到dots.ocr再到dots.vlm1,小红书正逐步构建起自己的AI技术生态。未来,随着AI技术的不断发展,小红书有望在内容理解、个性化推荐以及社区交互等方面实现更多创新应用。

华为Mate X7或本月登场 首发20GB超大内存 配色丰富性能强劲
11月份的机圈将会是华为的主场,不仅新一代的直板旗舰华为Mate80系列会震撼亮相,还会有迭代的大折叠屏手机华为Mate X7发布。@定焦数码爆料,华为Mate X7将会首发定制20GB超大内存,这是华为史…

2025-11-15

安谋科技发布“周易”X3 NPU IP,端侧AI性能飙升助力多领域落地
智东西11月14日消息,昨日,安谋科技正式发布了专为端侧大模型而生的最新一代NPUIP——“周易”X3,其能够与Arm架构CPU、GPU协同,组成基于Arm生态的异构算力解决方案。 新的“周易”X3 NP…

2025-11-14

Steam Frame登场 Valve停产Index VR头显 开启VR新征程
用户可通过无线适配器,将 PC 或 Steam Machine 上的平面屏(flatscreen)及 VR 游戏串流至 SteamFrame;与此同时,Steam Frame 本身也是一款独立设备,搭载高通…

2025-11-14

华为Mate70 Air深度体验:打破常规,超大屏“Air”的另类演绎
可以确定,华为Mate70 Air的影像没有因为“Air”的定义做妥协,在同价位机型中是能打的,硬件配置方面也是这个思路。这也符合华为Mate70 Air的技术路径,虽然重量不可避免地来到208g,但是保…

2025-11-14

欧加9K级大电池定版试产,一加骁龙8系直屏新机测试,中端机竞争升级
IT之家 11 月 14 日消息,博主 @数码闲聊站 今天在微博透露,欧加的 9K 级别大电池现已定版试产。 博主表示,这块电池采用单块4.51V 单电芯设计,额定容量 32.59Wh,额定电池 8760m…

2025-11-14

联发科天玑8系芯片屠榜安卓次旗舰性能榜 性能能效双优成市场新宠
以榜单第一的真我Neo7 SE为例,通过与MTK联发科技的深度联合调校,该机在同价位段中展现出极为出色的游戏性能,搭配真我GT性能引擎,通过芯片级调校,实现了持久稳定的高帧率表现,同时能耗最高可降低7%,帧…

2025-11-14

四名MIT辍学00后,两年打造AI编程神器,估值冲300亿成资本新宠
两年前,在完成种子轮融资后,创始人曾写了这样的期待—— Cursor的诞生,推动了「氛围编程」(vibe coding)在全球兴起。 他还在创纪录的时间内,完成了一份手写编程测试,给早期Facebook投资…

2025-11-14

iPhone 17系列发售不到俩月,中国市场激活量破1000W,双十一销量也亮眼
11月14日,数码博主“数码闲聊站”发文透露iPhone17系列于本周完成中国市场激活1000W+。 iPhone17系列9月19日正式发售,如今距发售不到两个月。 该博主此前曾透露,截至11月2日,iPh…

2025-11-14

荣耀500 Pro配置亮点全揭秘:骁龙8至尊版+2亿主摄+8000mAh长续航
【CNMO科技消息】11月14日,有数码博主曝光了荣耀500Pro的核心参数。CNMO注意到,新机将搭载骁龙8至尊版移动平台,电池容量达到8000mAh,主打2亿像素大底主摄。 除了上述核心亮点外,荣耀50…

2025-11-14

苹果iPhone 17系列发售不到俩月 中国市场激活量或破千万
苹果 iPhone 17 系列于今年 9 月 19 日正式发售,如今还不到两个月。 该博主曾透露,截至 11 月 2 日,苹果 iPhone17 系列国内激活销量超 825 万。具体数据如下: iPho…

2025-11-14