智快网
快讯 行业 产业 汽车 科技 AI+ 热点

京东全球首推全栈开源实时视频交互模型JoyAI-VL-Interaction 赋能开发者打造实景AI助手

2026-06-22来源:快讯编辑:瑞雪

京东近日宣布,正式开源全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction,并获得vLLM-Omni的day-0原生支持。这一突破性技术将推动大模型从“被动应答”转向“主动交互”,为开发者构建具备实时观察与决策能力的AI助手提供全新框架。

与传统模型依赖用户提问才能启动分析不同,JoyAI-VL-Interaction可自主持续监控视频流,通过实时判断画面内容决定是否需要响应。例如在安防场景中,系统能主动识别异常行为并立即预警,而非等待用户询问后才反馈结果。这种“主动判断”机制显著提升了AI在复杂环境中的实用性。

该模型在实时性方面实现关键突破。针对传统视频处理需完整上传后分析的延迟问题,JoyAI-VL-Interaction支持对正在发生的视频流进行即时解析。在直播解说、实时翻译等场景中,系统可在画面变化瞬间生成响应,确保信息传递的时效性。测试数据显示,其在监控预警、实时计数等58个流式场景中,响应延迟控制在毫秒级。

为应对复杂任务需求,模型创新性地引入“智能体委托”机制。当遇到代码生成、工具调用等高负载任务时,系统会自动将任务分配至后台大模型处理,同时保持前台模型持续观察现场。任务完成后,前后台无缝衔接对话流程,既保证处理效率又维持交互连贯性。这种设计特别适用于需要多线程处理的工业指导、医疗辅助等场景。

技术架构方面,该系统支持多模态输入输出,包括摄像头、直播流、监控视频等视频源,以及语音交互、可视化界面等交互方式。开发者可灵活替换ASR语音识别、TTS语音合成、后台模型等组件,甚至接入自定义业务系统。其长期记忆功能允许AI助手在持续交互中积累上下文信息,提升服务个性化水平。

在真实场景评测中,JoyAI-VL-Interaction展现出显著优势。对比豆包视频通话助手,其在58个测试案例中取得77.6%的胜率;面对Gemini视频通话助手时,胜率更高达87.9%。评测覆盖监控预警、时间感知、直播导览等高实时性需求场景,验证了模型在主动响应与即时处理方面的领先性。

目前,该开源项目已提供完整部署方案,支持vLLM框架快速落地。开发者可基于现有代码库,快速开发安防监控、老人看护、电商导购等垂直领域应用。其模块化设计尤其适合需要定制化AI解决方案的企业,通过替换不同组件即可构建符合特定业务需求的智能助手。

智能经济成地方“十五五”新赛道 协同发展下机遇与挑战并存
同时,传统产业转型升级的迫切需求,促使多地运用人工智能对制造业、农业、服务业进行全方位渗透与改造,通过打造智能工厂、智慧农业、智能消费新场景等新业态新模式,加快实体经济转型升级。”许光建认为,多个地区在布局智…

2026-06-22

首次占比超五成!耳夹式耳机缘何崛起?听听用户真实心声
而在今年最新发布的降噪耳机Liberty 5Pro上,安克也展示了端侧大模型在通话降噪方面的强大,后续随着相关技术的普及,耳夹式耳机或许也会迎来一次“AI降噪”的变革。 在雷科技看来,耳夹式耳机的爆发,本…

2026-06-22

乘机出行必备!mikibobo自带线充电宝,3C认证快充电,安检无忧高性价比之选
重点推荐mikibobo自带线充电宝(20000mAh 67W) 适用:追求极致性价比、手机重度用户 。优势:品控稳定,标识规范,安检通过率高 。 mikibobo充电宝,全系通过新国标3C认证,标识完整…

2026-06-22

科大讯飞调整40亿定增方案:教育大模型三地布局 算力平台获强力支撑
公司新增五家全资子公司作为项目实施主体,并扩大两大核心项目的实施范围,涉及教育大模型研发与算力平台建设。 教育大模型项目的区域扩展不仅扩大服务半径,还通过属地化运营提升市场响应速度;算力平台的垂直整合则强化了…

2026-06-22

2000-3000元拍照手机怎么选?荣耀600系列凭全焦段影像与全能体验成优选
面对2000-3000块钱哪款手机拍照效果比较好的疑问,荣耀600系列用全焦段4K Live直出、8600mAh超大电池以及教科书级的护眼屏幕给出了完美答卷,是追求极致影像与全能体验用户的理想之选,值得大家入…

2026-06-22