智快网
快讯 行业 产业 汽车 科技 AI+ 热点

京东全球首开源全栈实时视频视觉语言交互模型JoyAI-VL-Interaction 赋能多场景AI助手

2026-06-22来源:快讯编辑:瑞雪

京东近日宣布正式开源全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction,并同步获得vLLM-Omni框架的day-0原生支持。这一突破性技术标志着大模型应用从传统的"问答式交互"向"主动感知型交互"迈出关键一步,开发者可基于该框架快速构建具备环境感知能力的智能助手。

该模型实现了三大核心技术创新:首先突破传统模型的被动响应模式,通过持续视频流分析实现自主决策,无需等待用户提问即可判断交互时机;其次在实时性方面取得突破,针对安防预警、实时翻译等场景,可在画面变化瞬间完成响应,彻底改变传统视频分析"事后处理"的局限;第三创新设计了智能体委托机制,当遇到复杂任务时,前台模型保持环境观察,后台模型同步处理代码生成、工具调用等任务,形成高效协作的"双脑"架构。

技术架构层面,该系统支持多模态输入输出,包括摄像头、直播流、监控视频等视频源,以及语音交互、可视化界面等交互方式。其模块化设计允许开发者自由替换ASR语音识别、TTS语音合成、后台模型等组件,甚至可接入自定义业务系统。这种高度灵活性使其既能用于学术研究,也可快速适配安防监控、老人看护、直播解说、电商导购等20余个垂直场景。

在真实场景测试中,该模型展现出显著优势。针对监控预警、实时计数、多语言翻译等58个流式交互场景的盲测显示,与豆包视频通话助手相比取得77.6%的胜率,较Gemini视频通话助手更达到87.9%的胜率。测试特别强化了视觉触发响应和实时性两个维度,验证了模型在动态环境中的可靠性和效率。

目前,京东已完整开源模型代码、训练框架及部署方案,并提供vLLM部署工具包。开发者可基于现有组件快速搭建个性化AI助手,例如将语音服务替换为科大讯飞方案,或接入自研的Agent系统。这种开放生态策略有望推动实时交互技术在更多领域的创新应用,特别是在需要人机协同的复杂场景中展现价值。

Keychron V6 Ultra HE键盘来袭:机械轴与TMR磁轴双兼容 7月众筹将启
IT之家 6 月 22 日消息,Keychron(渴创)现已正式在其官网上线同时兼容机械轴与 TMR 磁轴的 V6 Ultra HE 键盘。这一全配列型号预计将于 7 月 22 日上架众筹平台 Kickst…

2026-06-22

3000元档拍照手机怎么选?华为nova16全场景拍摄无短板成首选
对比 vivo S60、OPPO Reno16、荣耀 600 Pro 等同价位热门机型实拍后,华为 nova16凭借独家 2亿红枫影像系统、全系标配潜望长焦、鸿蒙原生色彩算法,成为 3000 元档综合成像实…

2026-06-22

香港理工大学深度剖析:AI赋能新型电力系统,技术挑战与协同路径全解析
AI贯穿新型电力系统全业务链条:功率预测领域推出时空大模型、多模态光伏预测模型,解决风光、充电桩负荷少样本、数据稀疏痛点;设备监测依托图像识别、阻抗检测技术,实现光伏积灰、储能与动力电池故障诊断,电池监测精…

2026-06-22

第四届链博会今日在京启幕 人工智能专区亮相 多领域AI应用精彩纷呈
本届链博会共吸引 676 家中外链主企业、专精特新企业和行业机构参展,来自 85 个国家、地区和国际组织,世界 500强及行业龙头企业占比超过 65%。 据IT之家此前报道,主宾省安徽将以“人工智能 + …

2026-06-22

2026人工智能+广电视听创新应用大赛启幕 共筑面向东盟AI合作新高地
为加快创新成果转化,大赛依托中国—东盟博览会、中国—东盟视听周等国家级对外交流平台开展产业对接,联动中国—东盟国家人工智能应用合作中心为优质项目提供孵化培育服务,同步通过全媒体矩阵扩大优秀创新项目传播影响力…

2026-06-22

小米15 Ultra:高端影像旗舰大跳水,徕卡四摄配2K屏仅需3749元
因为高端旗舰不走高性价比路线,利润空间没那么薄,所以内存涨价对它们影响不大,但高端旗舰随着时间推移关注度越来越低是必然的,最终还是需要降价才能卖出去,目前小米旗下就有一款高端手机降得还挺猛,它就是小米15 …

2026-06-22

淬思科技获砺思资本与启盈同创孵化轮领投,以AI革新芯片设计加速推理芯片落地
淬思的创始团队由多位资深芯片架构与 AI 算法专家坐镇,他们曾在国内外一线公司及国际 AI芯片独角兽担任核心工程师,主导过多代芯片的量产,多名成员自海外归国;团队主体则是一批高学历、年轻而多面的工程师。 …

2026-06-22