DeepSeek-V4核心公开？梁文锋署名新论文发布，实习生挑大梁

智东西

作者 | 骏达王涵

编辑 | 心缘

智东西 1 月 13 日报道，昨晚，DeepSeek 又开源了，还发布一篇新论文。这次，他们提出了一种全新的 " 条件记忆 " 机制—— Engram，旨在让 MoE 模型在保持巨量参数的同时，更高效地处理语言信息。

DeepSeek 创始人兼 CEO 梁文锋、北大王选计算机研究所的赵东岩和张辉帅教授都在论文中署名。

Engram 架构的核心优势在于以更低成本实现更优性能。训练计算量较 MoE 减少 18% 的情况下，在 32768 个 token 的长上下文任务中，Engram 在 RULER 基准测试中反超同参数量 MoE 模型。

并且，其浅层部署的记忆模块接管局部依赖与静态知识存储，为注意力机制腾出容量以专注全局推理，1000 亿参数记忆表卸载后使 H800 推理吞吐量降幅不足 3%。

DeepSeek 还观察到，增加记忆槽位数量能持续、稳定地降低验证损失，这意味着 Engram 提供了一个可预测的 Scaling 新手段：增大记忆容量持续带来收益，而无需增加计算量。

那这种效果究竟是如何实现的呢？如今的 MoE 模型虽然在计算层面做到了稀疏化，但是它处理信息的方式仍然很费劲：有些老生常谈的事实性内容，比如常见的名字、公式或固定表达，模型却要重复计算，非常耗时间。

DeepSeek 的做法是，把这些 " 固定知识 " 提前整理成一个可以快速查询的表格，这样就能把更多精力放在真正需要深度思考的任务上，比如复杂推理或者理解长段文本。

值得一提的是，论文的第一作者 Xin Cheng（程信）目前在北京大学智能学院攻读博士学位，主要研究大模型的高效参数化方法和机制。他同时也在 DeepSeek 工作，R1、V3 的研究都参与了，很有可能是实习生。

在论文摘要中，DeepSeek 提出，条件记忆（conditional memory）将成为下一代稀疏模型中不可或缺的建模原语。这或许意味着 DeepSeek-V4 有望整合条件记忆机制，实现知识高效检索与推理能力的飞跃。

论文链接：

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

项目链接：

https://github.com/deepseek-ai/Engram

一、Transformer 缺乏知识检索机制，经典 -gram 架构提供启发

在正式介绍新型记忆机制前，DeepSeek 团队首先提出了一项重要的观察。

稀疏性已经成为了智能系统的核心设计原则，在大模型领域，其具体实现就是 MoE（混合专家模型）。但是，现有的标准 Transformer 本质上没有真正的知识检索机制，导致现有大模型不得不在早期层中通过昂贵计算来 " 重建 " 静态知识，浪费了宝贵的模型深度。

因此，DeepSeek 认为有必须要提出第二个与条件计算互补的稀疏维度：条件记忆。条件记忆则依赖稀疏的查找操作，为固定知识检索静态嵌入表示，适合命名实体、固定表达等静态且高度模式化的语言表示。

DeepSeek 他们向经典的 -gram 结构引入了现代化的条件记忆模块，包括分词器压缩、多头哈希、上下文化门控以及多分支集成等，最终提出了 Engram。

下图是 Engram 的基本架构，通俗地说，Engram 就是给 Transformer 加个外接记忆库，并把当前 token 附近的一小段内容，用快速、省参数的方式，去一个超大的静态记忆表里查到对应内容。

二、多管齐下打造新型记忆机制，天然支持参数存储与计算资源解耦

这个记忆库该如何具体实现呢？

首先，DeepSeek 团队对分词器（tokenizer）进行了压缩。普通的分词器会把 Apple、apple、APPLE 这些单词当成完全不同的东西，但是对人来说其实差别不大。

Engram 先把词表清洗了一遍，全部转小写，Unicode 规范化（NFKC）。最后，一个原本 128k 的词表，实际只剩下 77%，有 23% 的 token ID 被合并了。这让 N-gram 记忆的密度明显提升了。

不过，直接对所有 -gram 进行建模是不可行的，参数会指数级增长。DeepSeek 团队引入了多头哈希记忆（Multi-Head Hashing），在固定参数预算下近似大规模 -gram 表，降低哈希碰撞引入的语义噪声。

上述检索机制提供的记忆是静态的，缺乏上下文适应性，易受歧义与冲突的影响，这一问题可通过上下文感知门控（Context-aware Gating）来解决。为进一步扩大感受野并增强非线性建模能力，模型还引入了一个深度可分离因果卷积。

DeepSeek 团队采用多分支架构作为默认主干网络，而非标准的单流残差连接（这是何恺明此前的研究成果）。多分支架构把残差流扩展为 M 个并行分支，但共享记忆表和输出映射。这样设计的好处是，它可以一次性用矩阵乘法搞定多条分支的计算，GPU 用得非常高效。

Engram 的核心优势在于记忆检索完全依赖输入 token，而非运行时的隐藏状态。这种确定性机制实现了参数存储与计算资源的解耦，支持训练和推理阶段采取专门的优化策略：

Engram 训练和推理阶段可采用不同优化策略

训练优化：通过将超大嵌入表分片至多张 GPU，利用 All-to-All 通信按需收集对应行，使总记忆容量随 GPU 数量线性扩展。

推理优化：由于可提前确定待查询记忆，系统可从主机内存异步预取，同时在前几层计算期间隐藏通信延迟，实现预取与计算的重叠，避免 GPU 停顿。

硬件 - 算法协同设计：Engram 在模型中的放置位置需平衡建模性能与系统延迟。较早引入有助于局部模式重建，较深放置则延长延迟隐藏窗口，需兼顾二者优化。

层次化存储：基于自然语言 -gram 的 Zipf 分布特性，可采用多级缓存策略，高频嵌入存放于 GPU HBM 或主机 DRAM，低频嵌入置于 SSD。这使 Engram 能扩展至超大规模记忆，同时保持低延迟与高效率。

三、两个模块资源二八分成，互补性获验证

接下来，DeepSeek 团队研究了另一个关键问题——条件计算和条件记忆这两种稀疏模式该怎么配合，才能发挥最佳效果？

实验发现，在有限资源下，把所有空闲参数都给 MoE（也就是纯 MoE 模型）不是最优解，最好的效果是大约 75%-80% 给 MoE，其余 20%-25% 给 Engram。

如果完全由 MoE 主导，模型缺乏静态模式的专用记忆，只能靠计算反复重建，效率低。而如果完全由 Engram 主导，模型失去了动态计算能力，无法应对需要上下文理解的任务。

这条 U 型曲线，验证了两个模块的结构互补性：

前面这一实验探索的是在固定参数参数预算下的分配优化，那么如果把记忆大幅度扩展，会发生什么？

实验发现，在 MoE 主干网络不变的情况下，附加 Engram 表。结果显示，增加记忆槽位数量能持续、稳定地降低验证损失。

在探索范围内，曲线严格遵循幂律（对数空间线性）。DeepSeek 认为，这意味着 Engram 提供了一个可预测的 Scaling 新手段：增大记忆持续带来收益，而无需增加计算量。

同时，相比别的只做简单平均的记忆方法（比如 OverEncoding），Engram 的 Scaling 潜力更大，性能提升更明显。

这些结果验证了条件记忆作为稀疏容量的独立可扩展维度，与 MoE 的条件计算形成互补。

四、架构训练计算量少 18%，性能反超 MoE

验证了架构、技术路径的可行性，DeepSeek 团队的下一步就是进行大规模的 Scale，验证这种方式在实际语言模型预训练中的有效性。

具体而言，DeepSeek 训练了四个模型：Dense-4B、MoE-27B、Engram-27B、Engram-40B。训练时的语料库、分词器都使用了相同的设置，而后两个模型引入了 Engram 机制，用于研究在模型大小不变和 Engram 进一步扩展后的特性。

结果显示，在相同算力和参数量的情况下，Engram-27B 能在 MoE-27B 的基线上去取得持续提升，并且这些增益并不仅限于知识密集型任务。通用推理任务、代码与数学推理任务从中得到的提升甚至更为显著，

这些结果支持了 DeepSeek 的假设：引入专门的知识查找原语（knowledge lookup primitive）能够提升表示效率，这超出了仅将整个稀疏预算用于条件计算所能达到的效果。

最后，将模型扩展到 Engram-40B 进一步降低了预训练损失，并在大多数基准上提升了性能。虽然它尚未在每个任务上严格优于 Engram-27B，但这很可能是训练不足的结果。

DeepSeek 团队观察到，在训练结束时，Engram-40B 与基线模型之间的训练损失差距仍在扩大，这表明在当前的 token 预算下，扩展的记忆容量尚未完全发挥其潜力。

接着，DeepSeek 团队用 MoE-27B 与 Engram-27B 作为对照组，均使用了5000 步（约 300 亿 token）的高质量长上下文数据进行微调，然后他们采用 DeepSeek-V3 中的 YaRN 技术，将模型的上下文窗口扩展到32768 个 token。

实验结果显示，由于 Engram 模块接管了局部依赖的建模，它为模型的注意力机制腾出了容量，使其能更专注于处理全局上下文。因此，Engram 架构在处理超长文本和长程推理任务上比传统架构表现更好，具体表现如下：

在架构方面，在排除了基础模型能力差异的情况下，Engram-27B 依然显著优于 MoE-27B。

在复杂的检索任务 RULER 基准测试中，Engram 表现出了更强的长程依赖处理能力。例如在多查询 Multi-Query NIAH 任务中，Engram 准确率大幅领先。

长上下文性能比较基准测试

计算效率方面，即使只用了82%的预训练计算量，Engram-27B 的表现依然能与完全训练的 MoE-27B 基线模型持平，甚至在 RULER 基准上实现超越。

这证明了 Engram 架构具有极高的训练效率，能用更少的计算资源达到同等或更好的长上下文性能。

五、Engram 浅层效果更好，对事实性知识影响较大

而后，DeepSeek 团队对 Engram 模型进行了深入的机制分析和消融实验。核心目的是回答 "Engram 到底是如何工作的？它的各个组件有什么用？" 这两个问题。

首先是模型深度与表征分析，DeepSeek 团队通过 LogitLens 分析显示，Engram 模型在早期层就能更快地收敛到最终预测结果，因为它通过查表直接获取了静态知识，不需要像传统模型那样通过多层计算来重组基础特征。

表征对齐和收敛速度分析

中心核对齐分析发现，Engram 的浅层在表征上与纯 MoE 模型的深层高度相似。这意味着 Engram 让模型在更少的层数内完成了同等复杂的特征提取，在功能上等同于增加了模型的有效深度。

在架构消融实验中，研究人员发现将 Engram 模块放在较浅的层，如第 2 层，效果最好。这样可以尽早卸载模型背负的局部模式重建任务，让后面的深层网络专注于复杂的全局推理。

结构消融实验结果

研究人员还发现，分支特定融合、上下文感知门控和分词器压缩对性能影响最大，去掉任何一个都会导致验证损失显著上升，而次要组件轻量级卷积层的影响则较小。

如果把 Engram" 关掉 "，模型在哪些任务上会崩溃？为回答这个问题，DeepSeek 团队进行了功能敏感性分析。他们测试在推理时强制屏蔽 Engram 模块的输出，观察性能下降情况。

结果显示，在事实性知识方面，模型性能灾难性下降，仅保留约29-44%的性能。这证明 Engram 是模型存储参数化知识的主要仓库。

️但在阅读理解方面，模型性能几乎不受影响，保留约81-93%。这证明涉及上下文推理的任务主要由 Transformer 的骨干网络处理，而非记忆模块。

功能敏感性分析结果

在系统效率与推理吞吐上，由于 Engram 的访问模式是预先可知的，不像 MoE 需要根据隐藏状态动态路由，系统可以提前从内存中预取数据。

即使将一个 1000 亿参数的 Engram 表卸载到主机内存，其在 H800 硬件上的推理吞吐量下降也不到3%，这证明了 Engram 能以极低的代价实现参数量的大幅扩展。

此外，Engram 的门控机制会在遇到静态模式时被激活，即变红。具体表现为当模型遇到多词实体、固定短语或中文成语以及历史名词时，Engram 会被激活进行检索；而在处理需要动态推理的文本时，其门控则保持关闭。

门控机制激活

六、Engram 内化记忆，与 Attention 机制互补

最后，DeepSeek 团队将 Engram 与 MoE、外部记忆与检索增强、长上下文建模以及表征学习与知识蒸馏进行了对比。

传统 MoE 是 Engram 的 " 前辈 "，它通过稀疏激活来扩展模型容量。Engram 解决了传统 MoE 在超大规模下路由成本高、训练不稳定的问题，提供了一种更高效的扩展路径。

对比外部记忆与检索增强（RAG）这类工作通常是在模型外部挂一个数据库，在推理时实时检索。而 Engram 是内化的记忆，它在预训练阶段就把海量知识消化并固化到了参数化的记忆表中，这使得它比传统 RAG 具有更低的延迟和更强的知识一致性。

长上下文建模这一领域的研究则主要关注如何让模型的注意力机制处理更长的序列。DeepSeek 团队强调，Engram 并不是要取代注意力机制，而是与之互补。Engram 负责处理局部的、静态的上下文依赖，从而让注意力机制能更专注于处理全局的、动态的长程依赖。

对于表征学习与知识蒸馏来说，Engram 提供了一种新的视角——将模型的知识解耦为通用推理能力和特定知识库。

这种解耦结构天然适合进行知识蒸馏，因为未来的研究团队可以选择只蒸馏轻量级的骨干网，而将庞大的知识库作为可插拔的附件。

结语：Engram 将实现低成本超大规模扩展，逼近 AGI

Engram 架构的核心思想就是通过解耦来实现效率与性能的平衡。

它成功地将 " 局部模式重建 " 从复杂的 Transformer 骨干网中剥离出来，交由专门的记忆模块处理。这种设计使得模型在保持强大推理能力的同时，能够以极低的成本扩展到超大规模。

DeepSeek 团队认为，Engram 不仅仅是一个学术上的新模型，它具有很强的工程落地价值。

由于记忆模块的访问具有确定性，Engram 可以进行高效的预取和硬件优化，非常适合大规模部署。

而且，既然知识集中在 Engram 表中，未来或许可以通过直接修改这个表来修正模型的知识错误，而无需进行昂贵的微调。

但目前的 Engram 是在预训练时 " 固化 " 的。未来的一个重要方向是让这个记忆模块具备在线学习或动态更新的能力，让模型能实时获取新知识。

例如，未来的研究可以将 Engram 扩展到多模态领域，建立一个通用的多模态记忆库。研究人员还可以继续探索是否能将模型解耦为更多专用模块，以进一步逼近 AGI（通用人工智能）的效率。

宙世代

一起剪

相关标签