量子位 15小时前
谷歌Alpha家族再登Nature封面!刷新基因组预测SOTA,精准定位远端致病突变
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谷歌 Alpha 家族,再登 Nature 封面!

这次推出的全新成员AlphaGenome,将 AI 的预测疆域拓展到了最为宏大且神秘的人类基因组图谱

AlphaGenome 能够同时对 11 种不同的基因调控过程进行综合预测,准确捕捉基因深处的复杂互动。

它能深入分析复杂的基因剪接机制,识别细胞如何从单个基因生成多种蛋白质,以及这一过程何时会出错导致疾病。

例如,AlphaGenome 对白血病相关基因 TAL1 的致病突变进行了精准还原,准确预测出 8000 个碱基之遥的区域发生的突变引起病变。

这能让人类更进一步了解免疫细胞失控增殖引发癌症的深层成因,同时也证明了该模型不仅能处理已知数据,更能对从未见过的 DNA 片段及其未知突变做出准确预测。

综合成绩方面,其预测性能在各项测试中均持平或超越现有程序,成为当前基因组预测领域的 SOTA 模型。

目前,Google DeepMind 已面向非商业研究开放 AlphaGenome API。

同时预测 11 种基因调控过程

AlphaGenome 构建了一个统一的预测框架,单次推理即可覆盖基因组的广泛特征。

该模型直接对 11 种不同的生物学过程进行综合预测,涵盖了基因表达(RNA-seq)、转录因子结合、组蛋白修饰,以及染色质在三维空间中的折叠接触图谱。

不仅预测范围广泛,精度方面,在各项严格的基准测试中,AlphaGenome 也刷新了多项纪录。

在针对基因组轨迹预测的 24 项评估中,它取得了 22 项 SOTA

以及在直接关联疾病研究的变异效应预测任务中,它与 Borzoi、Enformer 等现有模型进行了 26 轮对决,并在 25 轮中胜出,证明了其在捕捉微小基因变异后果上的精准度。

在极其复杂的 RNA 剪接过程中,AlphaGenome 实现了对剪接动力学的完整模拟。它能够同时计算剪接位点(Splice sites)、位点使用率(Usage)以及具体的剪接连接点(Splice junctions)。

以动脉组织中的 DLG1 基因案例为例,DNA 序列中一个微小的 4 碱基缺失(TACTC>T),就会导致关键的外显子被错误跳过。

AlphaGenome 精准捕捉到了这一连串反应,计算出受影响外显子的使用率大幅下降,并直接描绘出了因此产生的那条异常剪接连接通路。

除了编码基因,基因组的奥秘同样散布在广阔的非编码区中,对于这部分基因序列,AlphaGenome 利用其长程预测能力,解析了距离靶基因超过 10kb 的远端增强子。

这种对 " 超距作用 " 的掌控,解决了全基因组关联分析(GWAS)中的核心难题——

GWAS 虽然能找出大量与疾病相关的变异位点,但这些位点绝大多数位于非编码区,往往距离它们真正影响的靶基因数千甚至数万碱基之遥。

在测试中,AlphaGenome 成功为 49% 的 GWAS 相关位点指明了明确的调控方向,解析率大幅超越了传统方法。

这种能力在白血病相关基因 TAL1 的研究中得到了直观验证,AlphaGenome 成功锁定了一个距离 TAL1 基因转录起始位点 8000 个碱基之遥的插入突变,并给出了完整的致病逻辑链条。

模型预测,这个突变在原本沉寂的区域创造了一个 MYB 转录因子的结合位点。

随后的 In Silico Mutagenesis ( ISM ) 分析进一步揭示,这个新出现的位点招募了 H3K27ac 等活性标记,形成了一个新增强子(Neo-enhancer)。

正是这个新诞生的开关,远程强制激活了本应关闭的 TAL1 基因,最终导致 T 细胞癌变。

AlphaGenome 所展现的这些能力,不仅提升了从 DNA 序列预测分子表型的准确性,也为解析非编码区变异的生物学功能提供了可操作的预测手段。

那么,AlphaGenome 背后都有哪些关键技术呢?

CNN+Transformer 混合架构

为了实现高精度的基因组预测,AlphaGenome 采用了一种基于 U-Net 的混合主干网络,融合了卷积神经网络与 Transformer 的技术优势

该架构利用卷积层提取局部的 DNA 序列特征,同时引入 Transformer 模块利用注意力机制捕捉跨越长距离的碱基依赖关系

这种混合设计最终生成了两种形式的嵌入表示,分别是用于预测线性基因组功能轨迹的一维嵌入,以及专门用于重构染色体在三维空间中折叠结构(接触图谱)的二维嵌入。

在 U-Net 结构的具体设计中,编码器通过卷积模块逐步降低序列分辨率以提取高维特征,中间层的 Transformer 塔在低分辨率下处理长程信息,最后解码器通过跳跃连接(Skip connections)逐步恢复至单碱基分辨率。

基于这一架构,AlphaGenome 将输入窗口扩展到了 100 万个碱基对(1Mb),足以覆盖绝大多数远程增强子与启动子之间的相互作用区域,确保模型在进行预测时拥有完整的上下文视野。

支撑该模型训练的是一个覆盖人类与小鼠双物种的工业级规模数据集。

模型利用了来自 ENCODE、GTEx 及 4D Nucleome Project 等公开资源,针对人类基因组的 5930 种功能轨迹和小鼠基因组的 1128 种功能轨迹进行了端到端的监督学习。

这些数据覆盖了不同的组织、细胞类型及细胞系,确保模型能够学习到基因调控在不同生理环境下的通用规则。

在训练策略上,AlphaGenome 实施了一套两阶段流程以兼顾泛化能力与推理效率。

第一阶段为预训练,采用了严格的 4 折交叉验证策略,将基因组划分为互不重叠的区间,确保模型在未见过的测试集上进行评估。

第二阶段采用了蒸馏策略,研究团队构建了一个由所有预训练模型组成的全折叠教师模型集合,并用它们来指导单个学生模型进行学习。

在此过程中,系统引入了严苛的数据增强策略,包括随机移位、反向互补,甚至引入了随机突变。

这种高难度的训练迫使学生模型不仅仅是记忆训练数据,而是必须掌握 DNA 序列背后深层的语法规则,从而在面对未见过的变异时表现出更强的鲁棒性。

工程化方面,AlphaGenome 利用序列并行(Sequence Parallelism)技术,将 1Mb 的长输入序列切分为多个片段(如 131 kb),并分配至 8 个互联的 TPU v3 设备上同步计算。

这种软硬件协同的架构,使得模型能够在保持单碱基分辨率精度的同时,完成大规模训练任务,最终得到的蒸馏模型在单个 GPU 上仅需不到 1 秒即可完成推理。

参考链接:

[ 1 ] https://www.nature.com/articles/s41586-025-10014-0

[ 2 ] https://deepmind.google/blog/alphagenome-ai-for-better-understanding-the-genome/

[ 3 ] https://www.nytimes.com/2026/01/28/science/alphagenome-ai-deepmind-genetics.html

—  欢迎 AI 产品从业者共建  

「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

基因 准确 谷歌 免疫 癌症
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论