资讯预计阅读 3 分钟

Google DeepMind 发布 AlphaGenome:AI 解码人类基因组的新突破

Google DeepMind 推出 AlphaGenome,能够处理 100 万个碱基对的 DNA 序列并预测数千种分子特性,为理解疾病和开发新疗法提供强大工具。

#Google DeepMind#AlphaGenome#基因组#生物科学#AI for Science
Google DeepMind 发布 AlphaGenome:AI 解码人类基因组的新突破

AlphaGenome 能处理 100 万个 DNA 碱基对,预测基因变异如何影响生物过程,为疾病研究和新药开发开辟新路。

AlphaGenome 是什么?

AlphaGenome 是 Google DeepMind 推出的新一代 DNA 序列模型,能够更全面、更准确地预测人类 DNA 序列中的单个变异或突变如何影响调控基因的各种生物过程。

该研究已在 Nature 上发表,模型通过 API 面向非商业研究开放。

技术突破

超长序列 + 高分辨率

AlphaGenome 能够处理多达 100 万个 DNA 碱基对的输入,并在单碱基分辨率上做出预测。此前的模型必须在序列长度和分辨率之间做取舍——要么看得远但粗糙,要么精细但视野窄。AlphaGenome 打破了这一限制。

全面的多模态预测

模型能够预测最多样化的分子特性,包括:

  • 基因在不同细胞类型和组织中的起止位置
  • RNA 的产生量
  • DNA 碱基的可及性和蛋白质结合情况
  • 基因剪接位点

训练数据来自 ENCODE、GTEx、4D Nucleome 和 FANTOM5 等大型公共数据库。

高效的变异评分

AlphaGenome 可以通过比较突变序列和正常序列的预测差异,快速评估遗传变异的影响。这对于理解哪些基因变异会导致疾病至关重要。

模型架构

AlphaGenome 采用三层架构:

  1. 卷积层:检测 DNA 序列中的短模式
  2. Transformer 层:在序列所有位置之间传递信息
  3. 预测层:将检测到的模式转化为不同模态的预测

训练在多个互联的 TPU 上完成,单个模型训练仅需 4 小时,计算量只有其前身 Enformer 的一半。

应用前景

AlphaGenome 补充了 AlphaMissense 的能力——后者专注于蛋白质编码区域(占基因组的 2%),而 AlphaGenome 则覆盖了剩余 98% 的非编码区域。这些非编码区域对协调基因活动至关重要,包含大量与疾病相关的变异。

潜在应用包括:

  • 罕见病诊断:识别导致遗传疾病的关键变异
  • 药物开发:理解疾病的分子机制,发现新靶点
  • 基因组学研究:为科学家提供更全面的基因调控信息

编辑点评

AlphaGenome 展示了 AI for Science 的巨大潜力。处理 100 万碱基对且仅需 4 小时训练——这种效率意味着基因组研究的门槛将大幅降低。覆盖 98% 非编码区域更是填补了重要空白,因为许多疾病的根源正藏在这些被称为「暗物质」的区域中。Nature 发表 + API 开放的组合,说明这不只是概念验证,而是已经准备好让全球研究者使用的工具。

原文链接: AlphaGenome: AI for better understanding the genome


相关推荐