智快网
快讯 行业 产业 汽车 科技 AI+ 热点

清华团队重大突破!RTX4090单卡即可满血运行DeepSeek-R1大模型

2025-02-15来源:ITBEAR编辑:瑞雪

近日,AI大模型DeepSeek-R1的使用难题成为了用户们关注的焦点。此前,用户主要通过云服务或本地部署来使用这款模型,但云服务频繁宕机,而本地部署的版本多为参数量大幅缩水的蒸馏版。对于一般用户而言,在普通硬件上运行DeepSeek-R1的满血版几乎是不可能的任务,即便是开发者,租赁服务器的成本也令人望而却步。

然而,这一局面即将迎来重大改变。清华大学KVCache.AI团队与趋境科技携手发布的KTransformers开源项目,近日宣布取得了突破性进展,成功破解了千亿级大模型本地部署的难题。这一突破标志着大模型推理将摆脱“云端垄断”,走向更加普惠化的道路。

据KTransformers团队介绍,他们已在配备24GB显存和382GB内存的PC上成功实现了DeepSeek-R1、V3的671B满血版的本地运行,速度提高了3至28倍。不仅如此,他们还宣布支持更长的上下文(24GB单卡支持4~8K),并实现了15%的加速,每秒最多可处理16个Tokens。

KTransformers作为一个以Python为中心的灵活框架,其核心设计注重可扩展性。用户只需通过一行代码即可实现和注入优化模块,从而访问兼容Transformers的界面、符合OpenAI和Ollama标准的RESTful API,甚至是类似ChatGPT的简化网页用户界面。这一技术的推出,彻底改写了AI大模型依赖昂贵云服务器的历史格局。

DeepSeek-R1基于混合专家(MoE)架构,通过将任务分配给不同专家模块,并在每次推理时仅激活部分参数来提高效率。KTransformers团队创新性地将非共享稀疏矩阵卸载至CPU内存处理,并结合高速算子优化,成功将显存需求从传统8卡A100的320GB压缩至单卡24GB。这一创新使得普通用户只需24G显存即可在本地运行DeepSeek-R1、V3的671B满血版,预处理速度最高可达286 tokens/s,推理生成速度最高能达到14 tokens/s。

KTransformers团队还通过减少CPU/GPU通信断点,实现单次解码仅需一次完整的CUDA Graph调用,生成速度优化至14 tokens/s,功耗仅为80W,整机成本约2万元,仅为传统8卡A100方案的2%。经过开发者实测,使用RTX 3090显卡和200GB内存配置,结合Unsloth优化,Q2_K_XL模型推理速度可达9.1 tokens/s,实现了千亿级模型的“家庭化”运行。

值得注意的是,KTransformers并非一个单纯的推理框架,也不限于DeepSeek模型。它可以兼容各式各样的MoE模型和算子,能够集成各种算子并进行各种组合的测试。同时,KTransformers还提供了Windows、Linux平台的支持,感兴趣的用户可自行尝试。但要想使用KTransformers,也需要满足一定的硬件条件,包括英特尔至强Gold 6454S 1T DRAM CPU、RTX 4090D(24G VRAM)GPU、标准DDR5-4800服务器DRAM(1TB)内存以及CUDA 12.1或更高版本。

荣誉加冕 东软入选福布斯中国2025出海全球化领军品牌榜
11月7日,2025福布斯中国出海全球化3030榜单正式揭晓。东软集团全资子公司东软云科技以卓越的数字服务赋能能力与全球化实践,入选2025出海全球化领军品牌Top30,成为唯一上榜的综合数字服务科技企业。这一殊荣是对东

2025-11-13

AI迎“效果涌现时刻”,李彦宏:AI产业结构正转变为健康的“倒金字塔”
“当AI能力被内化,成为一种原生的能力,智能就不再是成本,而是生产力。”11月13日举办的2025百度世界大会上,百度创始人李彦宏演讲时表示,更应关心如何让AI跟每一项任务有机结合,“让AI成为企业发展和个人成长的

2025-11-13

重构智能边界:宠智灵宠物AI大模型的技术范式与产业影响
在人工智能产业快速发展的今天,垂直领域大模型正在成为产业智能化的核心驱动力。宠智灵科技正是其中的代表者之一。其自研的“宠生万象”宠物AI大模型,凭借超大规模数据训练体系、深层语义理解能力与跨模态融合算法

2025-11-08

东软出席中国卫生经济学会公立医院高质量发展分会学术年会
近日,由中国卫生经济学会主办的中国卫生经济学会第二十六次学术年会分论坛六暨公立医院高质量发展分会学术年会在北京举办,本次会议以“智慧管理推动公立医院高质量发展”为主题,围绕智慧管理在优化医疗服务流程、

2025-10-30

未来视界的「红楼入梦」:科技、美学与家的三重奏
当古典文学巅峰《红楼梦》邂逅现代显示科技,一场跨越时空的东方美学对话就此展开。2025年10月25日,知乎携手京东电视,于河北廊坊「只有红楼梦·戏剧幻城」举办「十二金钗·十二金吋」主题活动。行业专家、艺术家与

2025-10-27

OPPO Find X9系列首销火爆:“追光红”售罄,高端市场接受度持续攀升
OPPO Find系列产品负责人周意保在社交媒体发文确认Find X9系列首销成绩优于预期,并表示线下门店客流及线上热度均表现突出。市场研究机构人士透露,OPPO Find X9系列首销表现较上一代产品有…

2025-10-23

2025年Q3全球PC市场稳健增长 联想惠普华硕等头部厂商表现亮眼
2025-10-22 17:41:32 作者:狼叫兽 总体来看,全球PC市场在2025年第三季度延续了增长趋势,前五大厂商均实现同比增长,其中联想、惠普和华硕增幅显著,反映出主流品牌在产品更新与市场需求回暖…

2025-10-23

网友苦等一加15终有回应 李杰承诺不辜负期待 165帧游戏新体验即将登场
快科技10月23日消息,有网友给一加中国区总裁李杰留言:前面那么多新机都没买,就一直等着一加15。李杰回复:“等等党不会输”。 从120帧到165帧,游戏帧率的突破不仅是参数上的跃升,更是手游体验的一次大换代…

2025-10-23

Wi-Fi 7时代来临,BAW滤波器如何助力无线连接体验升级?
针对国内Wi-Fi7路由器频段需求,可实现精准频段划分与干扰抑制;面向海外6GHz频段应用,产品也通过相关认证,为国产设备出海提供关键元器件支持。 开元通信BAW滤波器成功导入多家头部客户并实现量产,不仅积…

2025-10-22

华为Mate 70 Air登场!“Air”赛道上,华为与苹果的轻薄新较量
苹果那边的iPhone Air还没捂热乎呢,这边华为的“Mate 70 Air”就在电信终端产品库里亮了相。 这种设计不只是为了好看,它对手感的提升是巨大的,拿在手里,没有了那种硌手的棱角感,整个机器会感觉更…

2025-10-22