智快网
快讯 行业 产业 汽车 科技 AI+ 热点

小米MiMo大模型API降价99%揭秘:全链路优化驱动大模型普惠化

2026-06-02来源:快讯编辑:瑞雪

近日,小米宣布对其MiMo-V2.5系列API进行永久性价格调整,最高降幅达99%,这一举措在人工智能领域引发了广泛关注。小米此次降价的核心在于其Hybrid SWA+MoE+多模态复合架构的全面优化,使得推理成本大幅降低,为AI应用的普及提供了新的可能。

小米MiMo大模型团队通过系统性重构推理栈,包括KV Cache管理、分级缓存、前缀缓存树以及调度策略和Prefill/Decode链路,成功将KV Cache存储压缩至同级方案的约1/7。这一优化在长序列场景下尤为显著,推理成本大幅下降,为大规模AI应用提供了经济高效的解决方案。

在技术实现上,MiMo-V2.5系列模型采用了Hybrid SWA架构,其中SWA层占比高达6/7,计算量仅为全注意力机制的1/7。这种设计不仅减少了计算量,还显著降低了KV Cache的存储需求,使得长序列推理成本进一步降低。小米还通过双池分治、前缀缓存树重构和GCache三级缓存等优化措施,提升了KV Cache的命中率,进一步降低了推理成本。

小米MiMo大模型负责人罗福莉在社交平台X上详细解释了降价原因。她指出,输入(缓存命中)部分降幅高达99%,主要得益于推理框架对SWA分层键值缓存优化的支持。而输入(缓存未命中)和输出价格降低60%-80%,则是因为Hybrid SWA架构中SWA层的高占比,使得计算量大幅减少。罗福莉还强调,尽管API价格大幅下调,但小米的生产推理引擎仍能基本实现收支平衡。

在调度优化方面,小米开发了可动态扩展的无状态调度器LLM-Router,通过Redis中心化存储避免了单服务故障后的KV Cache调度回退现象,稳定保证了缓存命中率。同时,小米还引入了计算量感知优先调度策略,优先处理真实计算token数更少的请求,进一步降低了推理延迟。

Decode阶段的优化也是小米此次技术升级的重点。通过显存优化和MTP优化,小米成功提升了KV Cache的有效容量,使得GPU算力得到更充分的利用。MiMo-V2.5系列模型还原生支持3层MTP加速decode输出,进一步降低了智能体场景下的真实decode成本。

在多模态推理方面,MiMo-V2.5系列支持视觉、音频、视频跨模态理解。小米研究人员通过大量工程优化和稳定性修复,将Encoder吞吐提升至2倍,显著提高了多模态推理的效率。

2026年Q1 DRAM市场爆发:三星领跑营收榜,SK海力士美光紧随其后
从主要供应商的表现来看,三星凭借其产品平均销售单价(ASP)的显著增长,以及服务器DRAM营收占比最高,第一季营收环比飙升93.4%,达到373.2亿美元,市占率升至38.5%,位居第一。 SK海力士的HB…

2026-06-02

实况玩法大比拼!OPPO Reno16、vivo S60、荣耀600谁更胜一筹?
看完了最近三家新机的Live玩法,真就觉得你的实况我的实况好像不一样~ 比如这回OPPO Reno16就很开窍了,直接首发就是实况随心贴,自带发丝级精度抠图,还支持实况描边、涂鸦和文字添加,这意味着你都能在实…

2026-06-02

石头科技拟动用3亿至4亿自有资金回购A股 维护公司价值及股东权益
每经AI快讯,6月1日,石头科技公告称,公司第三届董事会第十七次会议审议通过以集中竞价交易方式回购公司股份的议案。公司拟以自有资金回购已发行的部分A股,回购价不超179.86元/股,回购资金3亿元~4亿元。回…

2026-06-02

OpenAI战略转型:从AI算法到机器人全链条布局,开启实体硬件新征程
人工智能(AI)领域巨头OpenAI发布公告,宣布大力扩张内部机器人事业部,正式全面切入硬件赛道,实现从人工智能算法研发向机器人编程+实体设备制造全链条布局的战略转型。Sora等世界模拟技术让AI理解物理世界…

2026-06-01

稀宇科技发布MiniMax M3模型:1M超长上下文+原生多模态,编程能力超越GPT-5.5
6月1日,稀宇科技正式发布新一代模型MiniMax M3。该模型具备前沿编程能力、最高1M超长上下文,并支持原生多模态(图片、视频输入及电脑桌面操作),成为国内首个同时具备这三项能力的模型,也是目前唯一的开源…

2026-06-01

华为nova 16 Pro闪耀登场:2亿红枫影像系统+独家前置,开启夏日美学新体验
IT之家 6 月 1 日消息,华为 nova 16 系列及全场景新品发布会已拉开序幕,率先登场的就是系列大杯 —— nova 16 Pro。据介绍,nova 16 Pro 共有四种“夏日美学”配色,包括天际…

2026-06-01

英伟达推出NVIDIA Isaac GR00T开源人形机器人 助力通用物理智能研究新突破
此外,英伟达Isaac GR00T开发者平台还将支持被广泛使用的宇树G1人形机器人,相关的开发工作流预计很快将在GitHub和Hugging Face上开源。根据官方路线图,这款开源人形机器人参考设计将于2…

2026-06-01

苹果智能眼镜或2027年底亮相:借品牌生态优势欲重塑传统眼镜市场格局
苹果希望通过其强大的品牌号召力、卓越的设计美学以及与iPhone生态的深度整合,吸引大量普通消费者将日常佩戴的眼镜更换为苹果产品。 为了消除用户对“电子设备”的刻板印象,苹果在N50的设计上极力追求轻量化与时…

2026-06-01

华为nova 16系列发布:麒麟9010S芯片加持 性能流畅度游戏体验全面进阶
快科技6月1日消息,今日,华为nova 16系列正式发布,带来nova 16、nova 16 Pro、nova 16 Ultra三款机型。发布会上,华为终端BG CEO何刚宣布,nova 16、nova 1…

2026-06-01

华为FreeClip 2耳夹耳机典藏版登场,独特设计专属配饰,1499元开启新体验
IT之家 6 月 1 日消息,在今天的华为 nova 16 系列及全场景新品发布会上,华为终端 BG CEO 何刚正式发布了 FreeClip2 耳夹耳机典藏版,定价 1499 元。 IT之家注意到,这款耳…

2026-06-01