图片

 

生物学大模型又迎新里程碑!

 

就在今天,来自Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的科学家们,联合发布了生物学大模型Evo2

 

图片

 

 

团队称, Evo 2 是迄今为止最大的公开 AI 生物学模型完整版高达400亿参数,包含12.8万个物种的9.3万亿个核苷酸。

 

它囊括了生物学的基本语言:DNA、RNA 和蛋白质,能够一次分析长达一百万个核苷酸的序列长度。

 

作为基因组基础模型,具有生成整个基因组、预测突变、理解非编码DNA的能力,可以广泛应用于生物分子研究,精准医学、药物研发,合成生物等。

 

此外,Evo2是生物学领域最大规模的全面开源模型之一,发布了包括训练数据、训练和推理代码以及模型权重,引爆了学术界。

 

这也意味着,人类能够已经具备重写生命最底层代码——基因组的能力,这将打开新生物技术时代的大门。

 

 

Evo2震撼发布,多重升级

 

如果说, DeepSeek是以文字作为大模型基础,那么 Evo2 则以基因组数据为基础,不过它生成的不是文本,而是基因组序列。

 

在Evo一代中, 科学家们使用了80,000 种细菌和古细菌的基因组,并在此以单核苷酸分辨率进行训练,使其模型能够完成全基因组规模的预测任务和生成设计。

 

而Evo2在各个方面进行了重大升级,整体能力也进行了巨大的飞跃。

 

首先,Evo2的数据量庞大,完整版包含 400 亿参数,远超一代的70亿参数规模。Evo2在12,8000万个物种(包括人类和其他动物、植物和其他真核生物)的基因组上训练,这些基因组总共包含 9.3 万亿个核苷酸。

 

其次,Evo2使用 stripedhyena2 作为模型架构,和当前普遍transformer架构不同,它不仅能够响应速度更快,还能够捕捉基因组的相互作用,自主学习外显子—内含子边界,以及转录因子结合位点等信息。

 

Evo2显著扩大了上下文窗口,能一次性处理多达100万个碱基对,这种能够大规模处理能力对于基因组非常重要,因为它有助于处理基因组中的长序列,也意味着计算生物学的重大进展。

 

图片

图:Evo 2 的模型架构、训练过程、数据集和评估的概述

 

下游任务方面,Evo2能够执行跨 DNA、RNA 和蛋白质的通用预测和设计任务。此前Evo1生成世界上第一个人工智能生成的 CRISPR-Cas 系统,这是一种蛋白质和 ncRNA(非编码 RNA)的大型功能复合物。

 

而利用Evo2,研究人员分别创建了酵母染色体、人类线粒体基因组 、生殖支原体的原核基因组(常用的最小基因组模型),证明了其生成能力。

 

此外,Evo2还擅长识别人类基因中的致病突变,甚至通过深刻理解意味着它可以识别不同生物体的基因序列模式,而实验研究人员则需要数年时间才能发现这些模式。

 

在技术层面,要在核苷酸精度上训练多达400亿参数并不容易,甚至OpenAI 的联合创始人兼总裁 Greg Brockman 在休假期间都在花时间处理这个问题。

 

最终还是老黄出马支持了这个项目。官方表示,Evo2在英伟达DGX Cloud AI 平台上训练,使用了2000多张H100 GPU,最终使得Evo 2 能够使用比 Evo 1 多 30 倍的数据进行训练,一次推理的核苷酸数量是 Evo 1 的 8 倍以上。

 

当然,结果是Evo 2 被集成到 NVIDIA BioNeMo 中,成为英伟达生命科学模型全家桶中的一员。

 

该项目已经完全开源,研究团队已经在github上传其训练数据、训练和推理代码以及模型权重,是迄今为止规模最大的开源生物学 AI 模型。

 

此外,研究人员还开发了一个名为 Evo Designer 的在线AI平台,科学家们可以输入基因组序列,并在这个平台中进行基因组生成以及预测,真的非常贴心。

 

图片

图:Evo Designer平台

 

开源地址:https://github.com/arcinstitute/evo2

网页地址:https://arcinstitute.org/tools/evo/evo-designer

 

 

从基因组到生命

 

简而言之,Evo2已经学会了DNA的基本原理,标志着AI在生物学的革命性进步,有望为精准医疗、药物研发、合成生物打开广阔的天地。

 

精准医学

 

Evo2能够无需针对人类疾病数据进行专门训练,精准识别基因突变与疾病之间的关联,甚至它的表现超过了没有训练过人类疾病数据的专门模型。例如乳腺癌相关基因 BRCA1的变体测试中,Evo2预测突变的准确率超过90%。未来Evo 2可以深入分析患者基因组数据,为个性化医疗提供支持。

 

药物发现

 

Evo 2不仅可以解读基因序列,还能设计新的基因组和生物分子(如蛋白质分子等)。这意味着研究人员可以利用该模型设计出针对特定疾病靶点的新型药物分子。

 

在基因治疗领域,Evo 2能够设计出仅在特定细胞类型中激活的基因元件,例如新的转座子或基因开关,通过减轻脱靶效应提高基因治疗的安全性。未来,Evo2有望能寻找人类疾病的遗传原因并加速新药的开发,减少细胞或动物实验所需的时间和研究资金。

 

合成生物学

 

对Evo2而言,合成生物则是一个更为广阔的领域。

 

通过生成新的DNA序列,Evo2可以设计具有特别性能的生命体,填补自然界原本不存在的生态位。例如在Evo 2 可设计分解塑料的蛋白质,或者改善气候的微生物。在农业领域,Evo2也有望解决全球粮食短缺问题,加深科学家对植物的理解。

 

关于潜在的伦理和安全风险问题,科学家们也考虑到了。

 

Evo 2 的基础数据集中已经排除了感染人类和其他复杂生物体的病原体,并确保该模型不会对这类问题生成有效的答案。

 

简单来说,人工智能不再局限于描述生物学,而是开始设计生物学,这使得从头开始设计的合成生命、由人工智能优化的可编程基因组、潜在的新基因疗法成为可能,甚至为虚拟细胞奠定了基础。

 

Evo-2完全开源,也可能引发生物工程领域的大规模创新,降低基因组设计的巨大障碍。

 

不过就像通用基础大模型一样,Evo 2 在哪些方面可以产生最大的影响还有待观察。和执行特定任务的小模型不同,可能还需要研究人员在模型之上构建特定于任务的AI程序。

 

而Evo-2背后的缔造者,Acr研究所还展示了一个更为宏大的目标:模拟整个细胞。

 

Evo-2有望将基因组数据与表观遗传学、蛋白质组学等各类数据相结合,这也意味着实施更大规模的生命编程。

 

说不定未来,我们真的有可能看到AI创造新的生命形式。

 

—The End—