智快网
快讯 行业 产业 汽车 科技 AI+ 热点

NVIDIA推出KVTC技术:内存用量最高减20倍,AI硬件成本或大幅降低

2026-03-23来源:快讯编辑:瑞雪

大型语言模型(LLM)在处理长对话时,常因内存占用过高而面临性能瓶颈。NVIDIA研究人员近日提出一项名为KVTC(KV快取转换编码)的创新技术,通过高效压缩模型推理过程中的KV缓存,将内存需求最高降低20倍,同时无需修改现有模型架构。这一突破有望显著降低企业部署AI的硬件成本,并提升模型响应速度。

KV缓存是LLM的“短期记忆”,存储对话历史中的关键信息(Key和Value),使模型无需重复计算已处理内容。然而,随着对话长度增加,KV缓存可能膨胀至数GB,占用大量GPU内存,导致推理速度下降甚至系统卡顿。NVIDIA资深深度学习工程师Adrian Lancucki指出:“LLM推理的性能瓶颈通常不在计算能力,而在于GPU内存的有限性。传统方法需将闲置缓存转移至CPU或硬盘,但数据传输会引入额外延迟。”

KVTC技术借鉴JPEG图像压缩原理,通过“主成分分析、自适应量化、熵编码”三步流程,精准捕捉KV缓存中数据的高度相关性,剔除冗余信息。其“非侵入式”设计允许企业直接集成至现有系统,无需调整模型代码或参数。实验数据显示,在参数量从15亿至700亿的模型(如Llama 3系列、R1-Qwen 2.5)中,KVTC将内存压缩20倍后,模型准确率损失不足1%,而传统方法仅压缩5倍便会导致显著性能下降。

在H100 GPU的实测中,处理8000个Token的提示时,启用KVTC后模型首次响应时间从3秒缩短至380毫秒,提速达8倍。这一优势在编程助手、迭代式推理等长对话场景中尤为突出,而短对话场景因缓存规模较小,压缩效果相对有限。

NVIDIA计划将KVTC整合至Dynamo框架的KV块管理器,并兼容vLLM等主流开源推理引擎。业内分析认为,随着LLM对话长度持续增加,标准化压缩技术或将成为AI落地的关键基础设施,其普及程度可能类比于视频压缩技术对多媒体行业的影响。

苹果CEO库克访华盛赞:中国机器人与AI发展亮眼,期待更多创新突破
IT之家 3 月 22 日消息,据中新社消息,苹果 CEO 蒂姆 · 库克今天在接受媒体采访时表示,中国机器人行业发展令人印象深刻。苹果公司持续深化在华创新合作、绿色发展与产业链协同,这与中国“十五五”规划方…

2026-03-23

云端 AI 涨价潮下端侧 AI崛起!3 月四款机型覆盖多价位 闭眼入不踩雷
第四款,OPPO Reno13 Pro,定位千元中端机,却搭载了端侧 AI 小模型,支持基础 AI问答、文案创作、图片识别、语音助手,日常简单使用完全够用,无网也能运行,价格仅 2499 元起,彻底拉低端…

2026-03-22

荣耀Magic9爆料来袭:8000mAh电池+6.36英寸屏+2亿像素主摄,期待值拉满
从目前的爆料来看,荣耀依旧在坚持推进超大电池方案,同时升级到了主流的2亿像素和6.36英寸旗舰小屏等等。 亓言纪语:对于荣耀Magic9,亓纪的想法是这样的:从硬件配置上来看,这次的提升确实挺惊艳的,特别是8…

2026-03-22

小米上架2026款REDMI电视新品,多尺寸可选,100英寸款仅8799元
IT之家 3 月 22 日消息,小米新上架了 2026 款的 REDMI 电视新品,主打“高刷新 / 大内存 / 好系统 /新能效”,预约价不排除是占位符的可能,IT之家汇总京东信息如下: 43 英寸(L…

2026-03-22

华为Atlas 350携昇腾950PR登场:算力飙升,引领AI推理加速新潮流
据介绍,超强A860 A5是一款6U2路AI服务器产品,搭载鲲鹏920新型号处理器,可支持8块昇腾Atlas350加速卡,具有超强算力、灵活拓展、安全可靠等特点,适合用于AI大语言模型训练和推理、AI加速计算…

2026-03-22

国家级电力AI中试基地启航,华为等8家企业首批入驻共谋发展新篇
记者同时获悉,2026年,中试基地计划引入30家企业,为生态伙伴提供技术验证、场景对接、成果转化等全链条支撑,共同推动电力人工智能技术规模化应用与行业范式创新。 中试基地是加快人工智能技术在电力行业规模化、…

2026-03-22

OPPO K15 Pro真机曝光!直屏金属中框+风扇加持 4月初登场引期待
月 21 日消息,博主 @数码闲聊站 今天在微博曝光 OPPO K15 Pro 手机的真机外观照片。 据博主介绍,该系列手机将全系标配直屏 +金属中框 +500 万双摄矩阵后摄模组 + 内置风扇,高配将搭载…

2026-03-22

华为云AI战略新篇:以行业智能体为核,共筑企业级AI创新新生态
邮储银行软件研发中心处长李佳斌表示,从“邮储大脑1.0”聚焦感知智能,到“2.0”聚焦执行、生成、交易的能力升级,邮储银行坚持“发展与安全并重”,通过“业务提意向、技术先预研、试点再推广”的研发模式,重点推进…

2026-03-22