智快网
快讯 行业 产业 汽车 科技 AI+ 热点

DeepSeek新突破:Engram模块破解Transformer记忆难题,V4架构或迎跃迁

2026-01-14来源:快讯编辑:瑞雪

近日,DeepSeek团队联合北京大学发布了一项突破性研究,提出了一种名为Engram的创新模块,旨在解决Transformer架构中长期存在的记忆瓶颈问题。该研究通过引入条件记忆机制,使模型在保持计算效率的同时显著提升了知识存储与检索能力,为大语言模型(LLM)的发展开辟了新路径。

当前主流的稀疏模型架构,如混合专家模型(MoE),虽通过条件计算降低了计算成本,但仍依赖大量参数模拟知识检索过程,导致效率低下。研究团队指出,Transformer缺乏原生知识查找机制,使得许多本应通过简单检索完成的任务被迫依赖复杂计算,既浪费资源又限制性能。针对这一问题,Engram模块通过将静态模式存储与动态计算分离,为模型提供了近似O(1)复杂度的确定性知识查找能力。

Engram的核心设计包含两大关键组件:基于哈希N-gram的稀疏检索机制和上下文感知门控系统。前者通过分词器压缩和确定性哈希函数,将局部上下文映射至预存储的记忆条目;后者则利用动态查询与记忆嵌入的交互,解决哈希冲突和多义词干扰问题。实验表明,该模块在实体识别、固定短语匹配等任务中表现出高度选择性激活,且行为可跨语言泛化。

研究团队通过系统实验验证了Engram与MoE的互补性。他们发现,当模型总参数固定时,合理分配MoE计算资源与Engram记忆容量存在最优比例,形成独特的"U型扩展法则"。在270亿参数规模下,Engram架构模型在严格等参数、等计算量条件下,较纯MoE基线在知识密集型任务(MMLU、CMMLU)中提升达4%,在推理、代码和数学任务(BBH、Humaneval、GSM8K)中提升更显著,最高达5%。

长上下文处理能力是Engram的另一重要优势。通过将局部依赖建模任务卸载至静态查找模块,模型得以保留更多注意力资源处理全局信息。在32K上下文窗口的实验中,Engram架构模型在长程检索和推理任务上展现出显著优势,尤其在等损失和等计算量设定下,性能全面超越MoE基线,甚至在仅使用82%计算量的极端设定下仍保持竞争力。

该研究的工程价值同样突出。Engram的确定性检索机制支持参数存储与计算资源的解耦,为模型优化提供了新思路。训练阶段可采用标准模型并行策略处理大规模嵌入表;推理阶段则可通过预取和重叠策略提升效率。这种设计使得模型在扩展内存容量时无需增加计算成本,为构建更大参数、更高吞吐的LLM提供了可行路径。

据悉,该研究主要由北京大学博士生Xin Cheng领衔完成。作为自然语言处理领域的新锐研究者,Xin Cheng已在NeurIPS、ACL等顶级会议发表多篇一作论文,专注于大语言模型与检索增强生成技术研究。此次提出的Engram架构,已被业界视为稀疏模型发展的重要里程碑,有望在下一代模型中得到广泛应用。

北京大学团队突破:纳米栅铁电晶体管实现超低功耗数据存储新飞跃
IT之家 2 月 16 日消息,据北京大学官方账号昨日分享,该校在非易失性存储器领域取得突破性进展,电子学院邱晨光-彭练矛团队首次提出“纳米栅超低功耗铁电晶体管”,真正实现了超低功耗下的数据高效存储,相关成果…

2026-02-16

苹果平价版MacBook或3月登场:多彩铝壳设计 搭载A系列芯片主打年轻市场
IT之家 2 月 15 日消息,彭博社记者马克 · 古尔曼今天在最新一期《Power On》通讯中表示,苹果即将推出的平价版 MacBook将搭载更加活泼的外壳,吸引更多年轻用户。 古尔曼表示,苹果本来可以…

2026-02-16

2026全球开发者先锋大会3月上海启幕,六大方向促产业资源高效对接
2026全球开发者先锋大会的核心使命,正是在这一历史转折点上,为全球开发者与产业界搭建一个系统级验证平台——让产业界为学术科研出题,让AI4S+Agent为产业应用答题,让技术为超级个体(SE)及开发者社区…

2026-02-16

字节跳动春节“群模大战”火力全开,多模态大模型升级引爆AI应用新热潮
一是更稳健的视觉与多模态理解:豆包2.0强化了视觉感知与推理能力,对复杂文档、表格、图形、视频内容的解析水平显著提升,视觉信息处理更精准。 豆包2.0全面升级了多模态能力,在各类视觉理解任务上均达到业界顶尖…

2026-02-16

AI硬件新玩法:开发者几天手搓拓麻歌子,自然语言“秒造”硬件成趋势
它在观察 Claude Code 的每一个操作,确保这个 AI 助手真的在按照我们的意图工作。 目前,Claude Code拓麻歌子这个宠物项目,已经在 GitHub 上开源,我们也可以直接把这个电子宠物部…

2026-02-15

三星Galaxy S26 Ultra隐私屏新功能:公共场合防窥屏,隐私保护更贴心
IT之家 2 月 15 日消息,博主 @i冰宇宙 今天在微博发文,曝光三星尚未公布的 Galaxy S26 Ultra 手机“隐私屏”宣传视频。 视频内容显示,一名女性正在纽约地铁上用手机阅读电子书,而她左右…

2026-02-15