全天候科技 12小时前
梁文锋署名新论文:给大模型配本“字典”,计算、记忆分家后智商爆表,剧透DeepSeek V4?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

这是一个关于 AI 底层逻辑重构的时刻。

长期以来,Transformer 架构被困在一个昂贵的悖论中:我们用着最先进的 GPU 算力,去让 AI 模型 " 死记硬背 " 那些查字典就能知道的静态知识。

DeepSeek 梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》,彻底打破了这一僵局。他们提出了一种全新的Engram(印迹)模块,在传统的 " 条件计算 "(MoE)之外,开辟了第二条稀疏化战线——" 条件记忆 "

这不只是一次技术修补,而是一场关于模型 " 脑容量 " 的供给侧改革。它证明了:当我们将 " 记忆 " 从 " 计算 " 中剥离,把该背的交给 " 字典 ",把该算的交给大脑,AI 的推理能力将迎来反直觉的爆发式增长。

DeepSeek 计划在 2 月春节前后正式发布 V4,而这一刻或许就是 DeepSeek V4 诞生的前夜。

序章:六层神经网络的 " 无用功 "

故事的起点,源于 DeepSeek 团队对 Transformer 内部运作机制的一次 " 核磁共振 " 扫描。

在人工智能的黑盒子里,当大模型看到 "Diana, Princess of Wales"(戴安娜,威尔士王妃)这个短语时,它的内部发生了一场令人费解且极其昂贵的 " 内耗 "。

研究人员发现,为了识别这个固定的实体,模型竟然动用了整整 6 层网络:

第 1-2 层:模型还在琢磨 "Wales" 大概是一个国家;

第 3 层:它意识到这是欧洲的一个地理概念;

第 4 层:它开始拼凑出 "Princess of Wales" 似乎是一个头衔;

第 5 层:它联想到了 " 威尔士亲王的妻子 ";

第 6 层:直到这里,它才终于确认,这是指那位著名的 " 戴安娜王妃 "。

在一位追求极致效率的架构师眼中,这简直是算力的暴殄天物。

" 戴安娜王妃 " 是一个客观存在的、静态的实体,它不会因为上下文的变化而改变其本质。为了提取这个本来查字典就能知道的事实,Transformer 竟然动用了整整 6 层深度的昂贵矩阵运算去 " 重建 " 这个概念。

这就像是一个绝世天才,在去解决微积分难题之前,每次都得先花半小时默写一遍九九乘法表。 这种 " 隐式记忆 " 的机制,迫使模型将宝贵的参数容量和网络深度,浪费在了简单的模式匹配上。

DeepSeek 在这篇长达 33 页的论文中,提出了一个直击灵魂的拷问:为什么不直接给大模型配一本可以随查随用的 " 超级字典 "?

第一章:架构重塑—— Engram 模块的暴力美学

为了解决这个问题,DeepSeek 提出了一种名为 "Engram(条件记忆)" 的全新模块。

如果说 MoE(混合专家模型)是把 " 大脑 " 分成了不同的区域,让不同的专家负责不同的思考(条件计算);那么 Engram 就是给大脑外挂了一个巨大的 " 海马体 ",专门负责存储静态知识(条件记忆)。

1. 复活 "N-gram":从古老智慧中寻找答案

Engram 的核心灵感,竟然来自于 NLP(自然语言处理)领域的 " 上古神器 " —— N-gram。在深度学习统治世界之前,我们就是靠统计 "N 个词同时出现的概率 " 来理解语言的。

DeepSeek 将这一经典概念进行了现代化的魔改:

传统的 Transformer:知识分散在神经元的权重(Weights)里,提取知识需要经过复杂的线性层计算,复杂度高。

Engram 模块:它是一个巨大的、可扩展的嵌入表(Embedding Table)。当模型读到 " 张仲景 " 或者 " 四大发明 " 这种固定搭配(N-gram)时,不需要动用大脑皮层去推理,直接通过哈希索引,在内存表中 " 查 " 出对应的向量。

这一过程的时间复杂度是O ( 1 ) ——这意味着无论知识库膨胀到多大(哪怕是 1000 亿参数),查找速度几乎不变,且极快。

2. 三大技术护城河

既然查表这么好,为什么以前没人做?因为有三个拦路虎:存储爆炸、多义词冲突、参数分配。DeepSeek 给出了教科书级的解决方案:

A. 词表压缩:极致的去重

世界上的词组组合是天文数字。DeepSeek 首先做了一步 " 无损压缩 "。在分词器(Tokenizer)层面,它将语义相同但写法不同的词进行了归一化。

例如,"Apple"(首字母大写)和 "apple"(小写)在语义上通常指同一个东西。通过映射归并,有效词表直接缩小了 23%。这不仅节省了空间,更让知识的密度大幅提升。

B. 多头哈希:解决 " 哈希冲突 "

不可能把所有 N-gram 都存下来。Engram 使用了 " 多头哈希(Multi-Head Hashing)" 技术。通过多个哈希函数,将无限的 N-gram 映射到有限的内存槽位中。虽然会有哈希冲突(即两个不同的词被映射到了同一个位置),但通过 " 多头 " 设计,模型可以从多个候选结果中拼凑出正确的信息,极大地提高了鲁棒性。

C. 上下文门控:给记忆配个 " 裁判 "

这是最精妙的一笔。查表是死的,语言是活的。

比如 " 苹果 " 这个词。在 " 吃苹果 " 的语境下,它指水果;在 " 苹果发布会 " 的语境下,它指科技公司。直接查表可能会引入噪声。

DeepSeek 设计了一个 " 上下文感知门控 "(Context-aware Gating)。

Query(查询):当前上下文的隐藏状态(Hidden State)。

Key/Value(键值):查表得到的静态向量。

这个门控就像一个裁判。如果查出来的 " 静态知识 " 和当前的 " 上下文 " 不搭,裁判就会把权重压低(Gate 值趋向 0),让模型忽略这个噪声;如果完美契合(比如 " 伤寒杂病论 " 后跟着 " 张仲景 "),裁判就会把大门打开(Gate 值趋向 1),直接把知识注入模型。

第二章:黄金比例——发现 AI 模型的 "U 型曲线 "

架构设计好了,接下来的问题是:怎么分家产?

假设我们显卡里的显存是有限的,总参数预算也是固定的。我们应该把多少参数分配给 MoE 的 " 专家 "(负责计算),多少参数分配给 Engram 的 " 字典 "(负责记忆)?

这是一个典型的资源配置博弈。DeepSeek 团队进行了一场大规模的消融实验,扫描了从 0% 到 100% 的分配比例,结果画出了一条完美的 "U 型 Scaling Law 曲线 "。

这张图揭示了 AI 模型设计的底层规律:

左侧极端(纯 Engram):如果把参数全给字典,Loss 很高。因为模型变成了 " 书呆子 ",光有死记硬背,没有逻辑推理能力。

右侧极端(纯 MoE):如果把参数全给专家,Loss 也很高。因为专家们被迫把精力都花在背书(记忆静态知识)上,没空干正事。

黄金分割点(ρ ≈ 75%-80%):当我们将约20%-25% 的稀疏参数预算分给 Engram,剩下的给 MoE 时,模型的验证集 Loss 降到了最低点。

这是一个极具指导意义的发现:对于几百亿参数的大模型来说,单纯堆砌计算单元(MoE 专家)已经是边际效应递减了,必须引入专门的静态记忆模块来实现 " 存算平衡 "。

第三章:反直觉的爆发——为什么 " 查字典 " 能提高 " 数学成绩 "?

如果 Engram 仅仅是让模型 " 记性更好 ",这篇论文的分量还不足以震动社区。毕竟,RAG(检索增强生成)也能解决知识问题。

真正让业界感到震撼的,是实验结果中那些意料之外的收益

DeepSeek 构建了三个对比模型,严格控制激活参数量(3.8B)和训练数据量(262B tokens)完全一致:

Dense-4B:传统的稠密模型。

MoE-27B:纯 MoE 模型(72 个专家)。

Engram-27B:混合模型(55 个专家 + 5.7B Engram 参数)。

结果令人大跌眼镜:

1. 意料之中:知识类任务霸榜

在 MMLU(综合知识)上,Engram 模型提升了3.4 分;在 CMMLU(中文知识)上,提升了4.0 分。这很好理解,外挂了字典,常识自然更好了,幻觉更少了。

2. 意料之外:逻辑、代码、数学全面暴涨

按理说," 查字典 " 和 " 做数学题 " 没关系。但在 BBH(综合推理)上,Engram-27B 竟然比同参数的纯 MoE 基线提升了整整5.0 分

MATH(数学):提升2.4 分

HumanEval(代码生成):提升3.0 分

ARC-Challenge(复杂推理):提升3.7 分

3. 深度解析:有效深度(Effective Depth)理论

为什么?一个 " 死记硬背 " 的模块,为什么能提高智商?

DeepSeek 团队利用LogitLens和 "CKA(中心核对齐)" 技术,对模型内部进行了 " 解剖 "。他们发现了一个惊人的现象:

还记得开头的 " 戴安娜王妃 " 吗?

在纯 MoE 模型中,前几层网络都在忙着 " 拼凑概念 "。

而在 Engram 模型中,由于第 2 层就插入了 Engram 模块,静态知识的检索在极早的阶段就完成了

这意味着,原本用于 " 死记硬背 " 的前几层网络被解放了!

这相当于给模型 " 虚增 " 了深度。 那些被释放出来的网络层和注意力头(Attention Heads),不再需要处理琐碎的局部依赖(比如识别 " 张仲景 " 是谁),从而可以全神贯注地投入到更复杂的全局推理、长程逻辑构建和代码逻辑生成中去。

Engram 的本质,不是 " 替代 " 推理,而是通过 " 分流 " 杂活,让大脑专注于更高维度的思考。

第四章:工程奇迹——打破英伟达的 " 显存霸权 "

对于华尔街的投资者和算力中心的运维者来说,这篇论文最性感的地方不在于 Score,而在于Cost(成本)

在 AI 时代,最昂贵的资源不是算力(FLOPs),而是显存(HBM)。英伟达 H100 之所以贵,很大程度上是因为那稀缺的 HBM3e 内存。

而 Engram 带来了一个颠覆性的特性:彻底的存算分离

1. MoE 的痛点:显存吞噬者

传统的 MoE 模型,其路由机制(Routing)是动态的。模型必须先算出当前 Token 的特征,算完这一层,才知道下一层该找哪个专家。这意味着,所有的专家模型必须时刻在昂贵的 GPU 显存里待命,随叫随到。

2. Engram 的突破:确定的预知

Engram 的查表逻辑是确定性的。

只要输入的文本确定了(比如 "A New Axis of Sparsity"),那么它对应的 N-gram 索引就确定了。我们根本不需要等模型算完前一层,在 Token 进入模型的那一瞬间,我们就知道它需要查哪张表的哪一行。

3. CPU 的逆袭:把大模型塞进内存条

这一特性带来了巨大的工程红利:

卸载(Offload):我们可以把几百亿、甚至上千亿参数的 Engram 词表,直接扔到便宜、量大、易扩展的 "CPU 内存(DRAM)" 里,甚至放在 NVMe SSD 上。

预取(Prefetching):在 GPU 拼命计算前一层 Transformer 的时候,CPU 利用 PCIe 通道,异步地把下一层需要的记忆数据 " 预取 " 出来,推送到 GPU。

掩盖延迟,并行处理。

DeepSeek 实测数据显示:即使挂载了100B(千亿)参数的 Engram 表到 CPU 内存,相比于纯 GPU 推理,吞吐量的下降不到 3%

这是一个让所有因为买不到 HBM 而焦虑的人狂喜的结论。这意味着,未来的大模型," 记忆容量 " 可以低成本地无限扩张,而不必被英伟达的显存卡脖子。

第五章:长文本的胜利—— NIAH 测试的跃升

除了通用推理,Engram 在长文本(Long Context)领域的表现同样证明了 " 分工 " 的价值。

在长文本处理中,注意力机制(Attention)的窗口是有限的。如果注意力被大量的局部信息(如固定短语)占据,它处理全局信息的能力就会下降。

Engram 接管了局部依赖后,Attention 机制终于可以抬头看路了。

在严格的RULER 基准测试中,Engram-27B 的表现令人咋舌:

Multi-Query NIAH(多重针大海捞针):从 MoE 基线的 84.2 分,直接飙升至97.0 分

Variable Tracking(变量追踪):从 77.0 分提升至89.0 分

这说明,当我们将 " 局部记忆 " 外包给 Engram 后,Transformer 原本的注意力机制就能更高效地捕捉几万字文档中的 " 草蛇灰线 "。

尾声:DeepSeek V4 的拼图已现

把以上所有信息串联起来,我们已经隐约看到了 DeepSeek 下一代模型——DeepSeek V4的雏形。

华尔街见闻写道,报道称DeepSeek 计划在 2 月(春节前后)正式发布 V4。回顾 DeepSeek 的节奏:从 2024 年 1 月的 R1,到年底击败 GPT-5 基准的 V3.2,再到即将登场的 V4,每一步都踩准了技术迭代的脉搏。

如果说 R1 展示了 " 推理 " 的深度,V3 展示了 "MoE" 的效率,那么即将到来的 V4,可能通过引入 Engram 技术,将解决记忆与计算的耦合,实现 " 电子脑(计算)" 与 " 外部记忆(Engram)" 的完美共生。

DeepSeek V2:引入MLA(多头潜在注意力),压缩 KV Cache,解决推理显存瓶颈。

DeepSeek V3:优化 "MoE(混合专家)" 与无损负载均衡,解决训练稳定性与计算成本。

DeepSeek V4(推测):引入Engram(条件记忆),解决记忆与计算的耦合,实现 " 电子脑(计算)" 与 " 外部记忆(Engram)" 的完美共生。

这不是一次简单的版本迭代,这是对 Transformer 架构底层缺陷的一次系统性手术。在 DeepSeek V3 已经凭借极其低廉的 API 价格和强大的性能席卷全球之后,V4 如果集成了 Engram 技术,将带来更可怕的竞争力:它将拥有更大的知识库(低成本内存扩展)、更强的逻辑推理(网络深度解放)以及更低的推理成本(存算分离)。

更重要的是,报道提到 V4 在数据模式理解上的改进," 避免了以往模型在长时间训练下性能衰退的情况 "。这与 Engram 将静态知识固化、减少动态网络负担的特性不谋而合——它让模型更稳定,更不容易 " 遗忘 " 或 " 精神错乱 "。

在论文的最后,DeepSeek 团队自信地写道:

"We envision conditional memory as an indispensable modeling primitive for next-generation sparse models."

(我们预想,条件记忆将成为下一代稀疏模型不可或缺的建模原语。)

春节前夕的这篇论文,不仅是 DeepSeek 的技术秀,更是向全行业发出的信号:单纯 " 卷算力 "、" 堆参数 " 的蛮荒时代结束了,架构创新的红利期才刚刚开始。而在这场定义下一代 AI 标准的竞赛中,中国大模型不仅没有掉队,甚至正在重新定义比赛规则。

2026,中国商业航天的 " 诺曼底时刻 " 刚刚过去;而 AI 领域的 " 存算分家 " 时刻,或许正是现在。

论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

开源地址:https://github.com/deepseek-ai/Engram

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 联想 春节
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论