图片

AI+生命科学大模型日新月异,出现了多个爆炸性的进展。

 

近期,一篇发表在顶级学术期刊《科学》上的文章,盘点了近期生命科学最值得关注的大模型。

 

作者埃里克·杰弗里·托波尔(Eric Jeffrey Topol)是美国医学院院士,著名的心脏病专家,现在是斯克里普斯研究转化研究生的创始人和主任。

 

近年来,Eric  Topol 专注于使用基因组、数字和 AI 工具进行个体化医疗。

 

2016年,Eric Topol领导了美国国立卫生研究院(NIH)资助的“精准医学计划”,获得2.07亿美元资金,这是NIH历史上规模最大的项目之一。

 

图片

 

在他看来,随着ChatGPT、DeepSeek等大模型的飞速发展,AI生命科学领域已经进入了新基础模型的超加速阶段。

 

AI蛋白质模型

 

短期内,大型语言模型在生命科学中应用,成果最丰富最瞩目的还是设计新型蛋白质。

 

2024年5月,Google DeepMind  发布了新一代AlphaFold3,这是一种革命性模型,用于预测蛋白质、DNA、RNA、小分子等的几乎所有生物分子结构和相互作用。

 

AlphaFold 3 能够预测由蛋白质、DNA、RNA、小分子和配体组合组成的复合物的 3D 结构。它对 80% 的蛋白质-配体复合物的预测与实验误差相差在 2 Å 以内。

 

图片

图:AlphaFold3对普通感冒病毒Spike蛋白与单糖的相互作用时候的结构预测

 

不过,由于Google DeepMind对AlphaFold3有商业化的考量,并没有把它完全开源,多个科学团队在努力研发可替代的开源版本。

 

于是麻省理工学院的研究团队研发出了Boltz-1不仅是完全商业可访问的开源模型,而且在预测生物分子复合物的3D结构方面AlphaFold3级别的准确性,目前已经完全提供推理代码、模型权重和数据集。

 

此外,法国里尔大学的科学家开发了MassiveFold,这是 AlphaFold 的优化版本,它可以并行运行预测,将计算时间从几个月缩短到几个小时。

 

同时,MassiveFold 具有可扩展性,能够在从单台计算机到大型 GPU 基础设施的任何设备上运行,从而充分利用所有计算节点。

 

麻省理工大学生物工程系姜凯议团队则开发了EVOLVEpro,可以通过少量实验数据快速改进蛋白质活性,尤其适用于难以通过高通量筛选的蛋白进化任务。

 

图片

图:EVOLVEpro

 

蛋白质生成算法PocketGen则由中科大哈佛大学打造,可以生成具有优异结合亲和力和结构有效性的高保真蛋白质口袋。它的运行速度比基于物理的方法快十倍,成功率达到 95%。该模型有望进一步推动其在生物医学与合成生物学中的应用。

 

关于蛋白质与疾病的联系,康奈尔大学的团队则开发了PIONEER模型,通过分析来自TCGA的肿瘤数据,识别出586个与癌症预后和药物反应显著相关的关键相互作用(oncoPPIs),揭示了疾病突变在蛋白相互作用中的影响。

 

AI+遗传分子模型

 

在蛋白质模型蓬勃发展的同时,也正在带动DNA、RNA等遗传分子的基础模型发展,这些AI模型能够帮助我们更好地解释遗传密码,探索基因与疾病的关系。

 

RNA结构预测及生成

 

蛋白质结构预测问题被基本解决了,但RNA结构预测还有大量的挑战。

 

精准预测 RNA 3D 结构对于理解其生物学功能、推进 RNA 靶向药物发现和设计合成生物学应用至关重要。

 

于是,来自香港中文大学、复旦大学、哈佛大学组成的团队提出了RhoFold+,这种基于RNA语言模型的深度学习方法,可以从序列中准确预测单链RNA的3D结构。

 

该模型对约 2370万个 RNA序列进行大规模预训练,具备了广泛学习RNA结构特征的能力,在RNA结构预测精准度方面,显著优于其他预测方法。

 

图片

图:RhoFold+

 

基于RhoFold+,麻省理工学院 James Collins 团队开发了一个深度学习模型 RhoDesign,用于 RNA 适配体的从头设计。这种方法可以设计出结构相似但序列不同的 RNA 适配体,它能够以高亲和力与靶蛋白结合。

 

转录组学/表观遗传学

 

AI近年在转录组学和表观遗传学也有巨大的进步。

 

例如GET(general expression transformer),这是一种可解释基础模型,它训练了213种人类胎儿和成体细胞类型中的调控语法,可以准确预测人类细胞类型中哪些基因将被转录成 RNA。

 

训练完成后,GET仅依赖染色质可及性数据和序列信息,在预测基因表达方面达到了实验级别的准确性,具有非常优良的性能。

 

新型DNA语言模型GPN-MSA,则整合了100种脊椎动物的全基因组比对信息,对大约 90 亿个 可能的单核苷酸变异进行了评分,能够更准确地预测编码区和非编码区的变异功能效应,对精准医学和遗传学有巨大贡献。

 

DNA 甲基化组的基础模型 MethylGPT CpGPT 则在超过10万个样本上训练,能够预测疾病和评估干预措施的影响,以及表观遗传分析等。SyntheMol能从300亿化合物库中设计出针对鲍曼不动杆菌的新型抗生素。

 

在单细胞领域,SCimilarity通过机器学习相似性分类识别细胞类型。此前人们认为人体细胞大概有200种,但现在这一数字已经超过5000种。而汇聚了100国3000名科学家的"人类细胞图谱"计划,已经绘制了 6200 万个细胞,并且正在向 10 亿个细胞迈进。

 

生命科学智能体

 

以上介绍的均是单个大语言模型,还有科学家正在研究如何拓展AI的能力,使其能够执行更加复杂的科学任务。

 

科学AI Agent(AI代理)孕育而生,这种更加高级的智能体,具有更高的自主性和决策能力,完成自主完成从检索信息、规划及设计实验等工作。

 

由此,科学研究从人类科学家为主,到“人工智能科学家”的加入,进入计算机辅助科学发现的时代。

 

文中特地提到了一个案例,来自斯坦福大学生物医学数据科学副教授James Zou团队,构建了一个名为Vitual Lab(虚拟实验室)的多智能体系统。

 

他们组建了一个AI实验团队,该团队由一个大模型作为首席研究员,并带领具有不同科学背景的AI代理,如化学家代理、计算机科学家代理、评论代理,团队里还有一名人类研究员提供反馈。

 

人类科学家负责制定研究目标,为 AI 代理安排会议,允许他们相互讨论项目。这些代理们必须根据指定的主题进行多轮讨论,会议结束后回答问题,或者提供规范的科学文本。

 

图片

图:Vitual Lab

 

通过结合最前沿的AI蛋白质设计模型AlphaFold-Multimer、Rosetta 和 ESM(进化比例建模),该团队设计出了 92个 能结合新冠病毒刺突蛋白的纳米抗体。

 

随后,斯坦福大学人类科学家在实验室中创造了突变纳米抗体,以验证 AI 的研究结果,最后他们惊喜地发现,有两种纳米抗体能够和病毒结合,显示出了治疗潜力。

 

简单来说,这一成果代表了从 AI 作为工具到 AI 作为科学研究合作伙伴的转变。

 

虚拟细胞(AIVC)

 

随着大预言模型的狂飙,也使得人工智能虚拟细胞(AI virtual cell,AIVC)而受到了关注,Eric  Topol也提到了这一非常有前景的领域。

 

毕竟,大多数生命活动都是在细胞层面进行的,如果AI能精准模拟分子、细胞和组织的作用,则具有巨大的应用前景。

 

在”木头姐“Cathie Wood发布的《Big Ideas 2025》,也将虚拟细胞列为未来AI+生命科学最具有颠覆性的领域之一。

 

图片

 

这一野心背后的支撑力在于,过去二十年来全球科学家们的各类解码计划:如人类基因组计划、人类细胞图谱、癌症基因组图谱、ENCODE、人类蛋白质图谱等,这个过程中积累的大量参考数据,能够用于训练机器学习模型。

 

虚拟细胞融合了单细胞基因组学与AI,旨在模拟细胞的功能并预测在各种状态下的反应,具有巨大应用前景。例如能够减少对昂贵且耗时的湿实验的依赖,加速药物研发过程。

 

当然,虚拟细胞涉及到构建复杂的多尺度模型,远比当前的基础大模型复杂太多,我们还知道虚拟细胞什么时候能够建成,但大模型的飞速进展,已经让科学家们对这一遥不可及的梦想抱有积极态度。

 

去年12月,40位顶尖科学家在《细胞》杂志发表文章,深入探讨了在虚拟细胞构建过程中需要优先考虑的关键因素以及面临的各种机遇,显然这是一个前沿且具有巨大潜力的领域。

 

写到最后

 

AI+生命科学基础模型的腾飞,让很多人对这一领域的进展非常兴奋,开始意识到AI在生命科学的变革性。

 

例如此前英伟达创始人黄仁勋广为流传的观点:“在人类历史上,生物学第一次有机会成为工程学,而不是科学。”

 

诺贝尔化学奖得主,Google DeepMind 的 Demis Hassabis 也有类似的想法:“我称之为工程科学,因为与自然科学不同,你必须先构建感兴趣的工作,然后,你就可以使用科学方法将其简化并了解其组成部分。

 

但多年来对生物学和基因组的深入研究,也让Eric Topol对黄仁勋的看法有不一样的见解,数字生物学不等同于工程学。

 

因为生命的语言远比我们想象的要复杂,生命是一连串的过程,每个过程都有独特的完整性和自主性,AI能够预测这里面的一些复杂性,但还远远不够。

—The End—