智快网
快讯 行业 产业 汽车 科技 AI+ 热点

小米发布开源Xiaomi-Robotics-0大模型 破解推理延迟痛点推动具身智能发展

2026-02-12来源:快讯编辑:瑞雪

小米公司近日宣布,正式推出并开源其首款机器人视觉语言动作(VLA)大模型Xiaomi-Robotics-0,标志着具身智能领域迎来重要技术突破。该模型以47亿参数规模实现视觉语言理解与实时动作执行的深度融合,突破了传统VLA模型因推理延迟导致的物理世界交互瓶颈,在消费级硬件上即可完成高效推理,多项性能指标刷新行业纪录。

传统VLA模型虽具备强大的泛化能力,但高延迟问题严重制约了机器人在动态环境中的响应速度。小米研发团队通过架构创新破解这一难题,采用"大脑+小脑"双核心设计:以多模态视觉语言模型(VLM)构建认知中枢,可解析人类模糊指令并识别复杂空间关系;通过多层扩散变换器(DiT)搭建动作执行模块,利用"动作块"生成技术与流匹配算法,确保机器人动作的精准性与高频性。这种混合架构使模型在保持认知能力的同时,将物理交互延迟降低至行业领先水平。

在训练体系方面,小米独创跨模态两阶段训练法。预训练阶段通过动作提议机制实现视觉特征与动作空间的深度对齐,在冻结VLM参数的前提下专项优化DiT模块,使模型同时掌握物体识别、逻辑推理与操作技能。后训练阶段引入异步推理框架,结合清洁动作前缀与Λ型注意力掩码技术,有效解决真实机器人执行中的动作断层问题,既保证运动轨迹的连续性,又强化了对实时视觉反馈的响应能力。

为推动技术生态建设,小米已全面开源Xiaomi-Robotics-0的技术文档、训练代码及模型权重,提供完整的开发工具链支持。与此同时,小米机器人团队正式启动全球人才招募计划,面向计算机视觉、强化学习、机器人控制等领域专家,共同探索物理智能的前沿边界。此次开源不仅为学术界提供重要研究基准,更为工业界落地具身智能应用开辟了新路径。

字节跳动火山引擎定档2026年2月14日 豆包大模型系列升级即将重磅登场
经过一年多的持续升级,豆包大模型家族在多模态理解和生成能力、Agent 能力上,已位于全球第一梯队。 去年发布的豆包大模型 1.8专门面向多模态 Agent 场景进行了定向优化,工具调用能力、复杂指令遵循能…

2026-02-12

OPPO手机快手去水印不求人!两款5年口碑免费小程序,高清秒处理教程来了
更崩溃的是,好不容易找到个工具,去完水印视频画质直接跌到360p,或者用几次就弹出“观看广告解锁”“付费会员专享”……是不是血压瞬间上来了? - 追求极致画质(尤其是夜景视频):小青去水印和坤坤去水印的超分辨…

2026-02-12

2026快手去水印难题终结!3款微信小程序免费高效,轻松搞定无水印视频
全能首选:无损去水印精灵(综合最强,闭眼冲); 实况/稳定:红枣去水印(快手动态视频+批量处理);日常轻量:火云去水印(碎片化保存+多功能); 这3款微信小程序都是2026年实测Top3,免费无套路,适配…

2026-02-12

智谱GLM-5上线开源,多项测试表现卓越,适配多国产算力平台
GLM-5 在编程能力和 Agent 的多项主流基准测试中取得开源模型 SOTA 分数。 在BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)和 τ²-Bench(…

2026-02-12

智谱GLM-5、DeepSeek新版本、MiniMax M2.5,AI大模型领域迎来上新潮
DeepSeek的V系列模型定位为追求极致综合性能的基础模型。此后,DeepSeek在V3基础上快速迭代,发布了强化推理与Agent(智能体)能力的V3.1,并于2025年12月推出了最新正式版V3.2。 …

2026-02-12

科创人工智能ETF华宝(589520)份额规模双增,2月11日收盘微跌
2月11日,华宝上证科创板人工智能ETF(589520)收盘跌0.59%,成交额2714.19万元。 科创人工智能ETF华宝(589520)成立于2025年3月5日,基金全称为华宝上证科创板人工智能交易型开…

2026-02-12