
距离全球科学家完成人类基因组测序,已经过去了22年了。
但迄今为止,科学家仍然没能解开DNA的秘密。
今天,Google DeepMind宣布隆重推出一款革命性的DNA 序列模型——AlphaGenome,能够精准预测人类DNA序列如何调控生物过程。
该成果由Google DeepMind的负责人Demis Hassabis领导,他此前凭借AlphaFold2获得2024年诺贝尔化学奖。

相较于同类模型,AlphaGenome能够一次性输入100万个碱基对,并在单碱基对的精度上预测数千种表征其调控活性的分子特性。
这是DNA领域的里程碑式突破。
有评论表示:我们首次单一模型下,统一了基因组任务范围内的远程上下文、精度和最先进的性能。
同时,长达106页的预印本论文已经公开,呈现了AlphaGenome的模型框架和性能细节。

谷歌表示,AlphaGenome 将对非商业用户免费,并计划在未来发布该模型的全部细节。
解开人类底层密码
2003年,多国科学家耗费10余年、耗资30亿美元,终于绘制出人类基因组的图谱,成就人类历史上的丰碑。
不过,这套包含31亿个碱基序列的图谱绝大部分依旧是“乱码”状态。
仅有2%的基因被注释(编码区),剩下的98%则被称为“暗基因组”(非编码区)。
近年来各项研究证实,暗基因组并非没有作用,反而在调控基因表达、维持基因组稳定性、适应环境变化等方面发挥着关键作用。
过去几十年来,生物学家一直在利用各种手段,希望解读基因组如何影响人类疾病。
而AlphaGenome的推出,有望解决这一困扰了生物学家几十年的难题。
对此,该项目负责人Pushmeet Kohli表示:“这不仅是生物学领域最根本的问题,也是整个科学领域最根本的问题。”
简单而言,研究人员收集了来自ENCODE、GTEx、4D Nucleome和FANTOM5的大型公共数据,它们涵盖了数百种人类和小鼠细胞类型和组织中基因调控的重要模式。
该模型基于Google DeepMind 的基因组学模型 Enformer 构建,并和此前推出的预测编码区变异的AlphaMissense互补。
总结起来,AlphaGenome做到了以下提升:
1、长达100万碱基对的长序列输入
此前的模型要么能处理长序列但分辨率低(如Enformer和Borzoi),要么分辨率高但只能处理短序列(如SpliceAI和BPNet)。
高分辨率的长序列对于基因组分析非常重要,长序列意味着覆盖的基因调控范围,而高分辨率则意味着能够捕捉更精准的生物学细节。
而AlphaGenome能够实现长达一百万个DNA碱基对输入,与此同时它做到了能够预测到单个碱基对的精度,这意味着打开更广阔的下游应用。
2、多模态预测
多模态预测与专业化的权衡,现有模型要么专注于单一模态(如SpliceAI用于剪接预测),要么是多模态但某些任务表现不佳。
而AlphaGenome能够做到一次输入后,可以同时预测基因变体对数千种基因组的影响,包括基因表达、组蛋白修饰、剪切等各个方面。
3、其具备高效变体评分能力
除了能够预测多种分子特性外,AlphaGenome还能在一秒钟内高效评估一个基因变异对所有这些特性的影响。它通过对比突变序列与未突变序列的预测结果,并针对不同模态采用不同方法高效总结这种对比来实现这一功能。
4、其具备新型剪接位点建模能力
RNA剪贴错误是造成疾病的常见原因,AlphaGenome的创新性在于,能够直接从序列预测剪切点。
包含RNA序列覆盖度、剪切位点、剪切位点的使用情况,以及由此形成的特定连接点,从而能够帮助人们更深入地了解遗传变异对 RNA 剪接的影响。
多项测试拿到SOTA
在多项测试中,AlphaGenome展示了其拥有当前DNA模型中最先进的性能。
对单条DNA 序列进行预测时,AlphaGenome 在 24 项评估中有 22 项表现优于最佳外部模型。而在预测变异的调控效应时,它在 26 项评估中有 24 项表现与最佳外部模型相当或更优。

在7个剪接变异基准测试中,AlphaGenome在其中6个上实现了SOTA 性能,包括根据ClinVar、sQTL因果关系和GTEx剪接异常值预测剪接变异的致病性。

它也是第一个预测剪接位点概率、使用情况和连接数以及 RNA-seg 覆盖率的模型。
开启基因研究新纪元
几乎所有的生物都有遗传物质,一旦AI能够高效且精准地预测基因与功能的关系,则有望改变现有的研究方式。
当前,AlphaGenome已经学会了DNA的基本原理,标志着AI在生物学的革命性进步,有望为精准医疗、合成生物、基础研究打开广阔的天地。
精准医学
除开外伤,几乎所有的疾病都和基因有关。
合成生物学
对AlphaGenome而言,合成生物则是一个更为广阔的领域。
DNA合成是合成生物学的核心技术之一,它需要科学家根据设计合成特定的DNA序列。
AlphaGenome 的预测能力为合成生物学提供了新的工具,使得科学家可以更有效地设计和优化基因调控系统。这种能力对于开发新型生物技术和药物具有重要意义 。
基础研究
AlphaGenome 为基因组功能研究提供了新的视角,使得科学家能够更深入地理解基因调控的复杂过程。
不过,DeepMind的科学家们也提到了AlphaGenome的局限性。
首先,超过1000万个碱基调控预测仍然是一个巨大的挑战,但序列越长就能够覆盖到更多的基因信息,对基因组研究至关重要。
其次,谷歌尚未设计或验证 AlphaGenome 用于个人基因组预测,这是 AI 模型面临的挑战。
虽然 AlphaGenome 可以预测分子结果,但它并不能全面展现遗传变异如何导致复杂的性状或疾病。
无论如何,AlphaGenome的出现都代表着,人类向理解疾病的巨大跃进,有望推动医学的革命性进步。