Google DeepMind 发布 AlphaGenome：AI 解码人类基因组的新突破

AlphaGenome 能处理 100 万个 DNA 碱基对，预测基因变异如何影响生物过程，为疾病研究和新药开发开辟新路。

AlphaGenome 是什么？

AlphaGenome 是 Google DeepMind 推出的新一代 DNA 序列模型，能够更全面、更准确地预测人类 DNA 序列中的单个变异或突变如何影响调控基因的各种生物过程。

该研究已在 Nature 上发表，模型通过 API 面向非商业研究开放。

技术突破

超长序列 + 高分辨率

AlphaGenome 能够处理多达 100 万个 DNA 碱基对的输入，并在单碱基分辨率上做出预测。此前的模型必须在序列长度和分辨率之间做取舍——要么看得远但粗糙，要么精细但视野窄。AlphaGenome 打破了这一限制。

全面的多模态预测

模型能够预测最多样化的分子特性，包括：

基因在不同细胞类型和组织中的起止位置
RNA 的产生量
DNA 碱基的可及性和蛋白质结合情况
基因剪接位点

训练数据来自 ENCODE、GTEx、4D Nucleome 和 FANTOM5 等大型公共数据库。

高效的变异评分

AlphaGenome 可以通过比较突变序列和正常序列的预测差异，快速评估遗传变异的影响。这对于理解哪些基因变异会导致疾病至关重要。

模型架构

AlphaGenome 采用三层架构：

卷积层：检测 DNA 序列中的短模式
Transformer 层：在序列所有位置之间传递信息
预测层：将检测到的模式转化为不同模态的预测

训练在多个互联的 TPU 上完成，单个模型训练仅需 4 小时，计算量只有其前身 Enformer 的一半。

应用前景

AlphaGenome 补充了 AlphaMissense 的能力——后者专注于蛋白质编码区域（占基因组的 2%），而 AlphaGenome 则覆盖了剩余 98% 的非编码区域。这些非编码区域对协调基因活动至关重要，包含大量与疾病相关的变异。

潜在应用包括：

罕见病诊断：识别导致遗传疾病的关键变异
药物开发：理解疾病的分子机制，发现新靶点
基因组学研究：为科学家提供更全面的基因调控信息

编辑点评

AlphaGenome 展示了 AI for Science 的巨大潜力。处理 100 万碱基对且仅需 4 小时训练——这种效率意味着基因组研究的门槛将大幅降低。覆盖 98% 非编码区域更是填补了重要空白，因为许多疾病的根源正藏在这些被称为「暗物质」的区域中。Nature 发表 + API 开放的组合，说明这不只是概念验证，而是已经准备好让全球研究者使用的工具。

原文链接: AlphaGenome: AI for better understanding the genome