AlphaGenome 能处理 100 万个 DNA 碱基对,预测基因变异如何影响生物过程,为疾病研究和新药开发开辟新路。
AlphaGenome 是什么?
AlphaGenome 是 Google DeepMind 推出的新一代 DNA 序列模型,能够更全面、更准确地预测人类 DNA 序列中的单个变异或突变如何影响调控基因的各种生物过程。
该研究已在 Nature 上发表,模型通过 API 面向非商业研究开放。
技术突破
超长序列 + 高分辨率
AlphaGenome 能够处理多达 100 万个 DNA 碱基对的输入,并在单碱基分辨率上做出预测。此前的模型必须在序列长度和分辨率之间做取舍——要么看得远但粗糙,要么精细但视野窄。AlphaGenome 打破了这一限制。
全面的多模态预测
模型能够预测最多样化的分子特性,包括:
- 基因在不同细胞类型和组织中的起止位置
- RNA 的产生量
- DNA 碱基的可及性和蛋白质结合情况
- 基因剪接位点
训练数据来自 ENCODE、GTEx、4D Nucleome 和 FANTOM5 等大型公共数据库。
高效的变异评分
AlphaGenome 可以通过比较突变序列和正常序列的预测差异,快速评估遗传变异的影响。这对于理解哪些基因变异会导致疾病至关重要。
模型架构
AlphaGenome 采用三层架构:
- 卷积层:检测 DNA 序列中的短模式
- Transformer 层:在序列所有位置之间传递信息
- 预测层:将检测到的模式转化为不同模态的预测
训练在多个互联的 TPU 上完成,单个模型训练仅需 4 小时,计算量只有其前身 Enformer 的一半。
应用前景
AlphaGenome 补充了 AlphaMissense 的能力——后者专注于蛋白质编码区域(占基因组的 2%),而 AlphaGenome 则覆盖了剩余 98% 的非编码区域。这些非编码区域对协调基因活动至关重要,包含大量与疾病相关的变异。
潜在应用包括:
- 罕见病诊断:识别导致遗传疾病的关键变异
- 药物开发:理解疾病的分子机制,发现新靶点
- 基因组学研究:为科学家提供更全面的基因调控信息
编辑点评
AlphaGenome 展示了 AI for Science 的巨大潜力。处理 100 万碱基对且仅需 4 小时训练——这种效率意味着基因组研究的门槛将大幅降低。覆盖 98% 非编码区域更是填补了重要空白,因为许多疾病的根源正藏在这些被称为「暗物质」的区域中。Nature 发表 + API 开放的组合,说明这不只是概念验证,而是已经准备好让全球研究者使用的工具。