近日,Arc Institute发布了其第一代虚拟细胞模型STATE,该模型旨在预测各种干细胞、癌细胞和免疫细胞对药物、细胞因子或基因扰动的反应。


STATE基于近1.7亿个细胞的观测数据以及超过1亿个细胞的单细胞扰动数据进行训练,是迄今为止任何其他模型都未曾达到的数据量,在预测新细胞背景下扰动后转录组的变化方面,它显著优于现有的最先进方法。


该论文指导者之一,Arc Institute核心研究员、加州大学旧金山分校副教授Hani Goodarzi二十多年来一直致力于构建虚拟细胞。


图片


714日,Hani Goodarzi分享了他的团队在虚拟细胞方面的工作,发表在Arc Institute官网上。


核心观点提炼:


  • 虚拟细胞的效用与蛋白质折叠模型类似只不过虚拟细胞不是预测蛋白质的结构,而是预测细胞的基因表达谱


  • 未来某个时刻科学界将通过持续使用虚拟细胞并信任其预测,就像信任AlphaFold做出的结构预测一样


  • 虚拟细胞的进化方式很可能与语言模型相同,我们正处于类似GPT-1的阶段。最终,我们想要的是一个细胞生物学的基础模型,用户可以在其基础上创造


  • 一个好的模型应该能够学习生物学的基本原理,并将其应用于它从未见过的问题。一个好的模型需要能够泛化到它从未见过的事物,其复杂程度是我们人类自身无法达到的


为什么细胞生物学家应该关心虚拟细胞?

 

我们的虚拟细胞模型STATE完全是关于扰动的。它能够基于单个细胞的基因表达谱,预测该基因表达在受到药物或基因突变等扰动后将如何变化。


细胞生物学最终也与扰动有关。我的实验室一直在操控细胞;我们突变基因,我们过表达或降低基因表达,我们让细胞接触药物,对吧?这就是你理解功能和因果关系的方式。如果没有这些扰动,生物学研究就只是相关性。


因此,一个好的虚拟细胞模型应该足够精确,以至于至少在找到强有力的候选疗法之前,科学家无需再去实验室进行实际实验。这正是科学家应该关注的原因。


虚拟细胞的效用可能与我们在蛋白质折叠模型(例如AlphaFold)中看到的类似。对于这些模型,你基本上输入一个氨基酸序列,然后得到一个结构。当然,结构生物学家可以去实验室手动解析蛋白质结构,但AlphaFold 已经变得非常精确,以至于使用该模型来预测蛋白质结构会更容易。


这与我们虚拟细胞的目标类似。只不过我们不是预测蛋白质的结构,而是预测细胞的基因表达谱。


为什么细胞的基因表达如此重要?这又能说明细胞的哪些功能?


它能揭示很多关于细胞功能的信息。如果你在二十年前问一位神经科学家:“什么是神经元?”他们会通过描述它的功能和谱系来回答。他们会解释神经元如何响应各种信号而激发,等等。过去,科学家会通过例如将细胞移植到小鼠体内并观察其是否持续工作来检查其功能。


但如今,神经元——以及所有其他细胞类型——也根据其转录组状态进行定义。如今的神经科学家只需观察其基因表达模式即可识别神经元。


因此,作为细胞生物学家,我们仍然关心细胞的功能,以及这些功能在发育过程中或疾病过程中如何变化。但我们认为,能够理解和预测基因表达动态的虚拟细胞模型,也能揭示一些关于细胞功能的重要信息。


例如,蛋白质具有结构-功能关系。如果两种蛋白质外观相同——即使它们的序列不同——那么它们很可能具有相同的功能。AlphaFold 很重要,因为它可以通过预测蛋白质的结构来推测其功能。同样,在细胞生物学中,如果两个细胞具有相同的基因表达模式,那么它们也可能具有相同的功能。


如何收集数据来训练这个虚拟细胞模型?


Arc的虚拟细胞在两种类型的单细胞RNA测序数据集上进行训练:观察型扰动型。


观察数据只是从未受干扰的细胞中收集的RNA序列。这些数据不如扰动数据有用。想象一下,如果你有一个包含200位作者的书籍的图书馆,你想用它们来训练一个大型语言模型。那么,在用莎士比亚的数千个单词训练该模型后,莎士比亚的其他单词的收益就会递减。这同样适用于虚拟细胞;一旦模型已经看到了来自一百万个T细胞的RNA测序数据,再看到来自另一个T细胞的RNA测序数据就没那么有价值了。


然而,来自受干扰细胞的每一个数据点,都揭示了生物学中一些全新的信息。扰动一个细胞——使用药物或基因突变——会使其进入一个新的转录“状态”。在生物学中,扰动也是证明因果关系的方法。如果我想知道基因A和基因B是否相关,那么我可能需要数百个来自观察性实验的数据点来拟合一条直线,对吗?但如果我做一次扰动实验,那么原则上一个数据点就足够了。


因此,Arc Institute,我们专注于收集大量的单细胞扰动数据集。这就是我们训练虚拟细胞模型的方式。


然而,我们如今研究细胞的方式需要先破坏细胞。我们无法在扰动前后收集同一细胞的数据。相反,我们会在对受扰动细胞进行RNA 测序的同时,对未受扰动的细胞群进行RNA 测序。每次扰动要么通过将细胞暴露于药物中来实现,要么通过使用CRISPR 系统敲除、抑制或激活细胞内的基因来实现。


另外,Arc的其他研究人员正在研究在不破坏细胞的情况下测量细胞基因表达的方法,例如诱导细胞输出RNA 分子,然后随时间推移对这些分子进行测序。虽然这项技术仍处于开发阶段,但我对它作为我们工具包中又一项工具的前景感到兴奋。


如何判断虚拟细胞模型好不好?


是的,在我们构建这个虚拟单元的同时,我们也在精心构建所需的基准和评估,以追踪我们实现目标的进展。随着我们取得更多进展,我们的基准也会不断发展,变得更加细致入微。


但重要的是,我们不仅关心虚拟细胞的预测能力,我们还关心模型正在学习什么。我们创建虚拟细胞是为了以后能够使用计算机模拟方法对其进行剖析,以了解模型学到了什么。


例如,如果一个细胞中有一段RNA调控着基因A的表达,而模型预测当移除一个转录因子结合位点时,该RNA的表达会发生变化,那么这就是有用的信息!无需进入细胞并物理删除该转录因子,模型就已经了解到这段DNA至关重要。


一个好的模型应该能够学习生物学的基本原理,并将其应用于它从未见过的问题。一个好的模型需要能够泛化到它从未见过的事物,其复杂程度是我们人类自身无法达到的。这才是对一个好的人工智能模型的真正考验。你越接近这个梦想,就越好。


因此,在某个时候,科学界将通过持续使用虚拟细胞并信任其预测来判断虚拟细胞是好的或有用的,就像我们现在信任AlphaFold做出的结构预测一样。

 

这个虚拟细胞的V2V3是什么样子的?

 

我们确实正处于类似GPT-1的阶段。但最终,我们想要的是一个细胞生物学的基础模型。我们正在用一种类型的数据训练这个虚拟细胞,但未来这个虚拟细胞将作为基础,可以用其他类型的数据进行补充。


例如,发育生物学家可能会对基础模型进行微调,以研究胚胎的生长方式。总的来说,我认为虚拟细胞的进化方式很可能与语言模型相同GPT-4 是语言的基础模型,但用户正在其基础上创建各种工具。您可以使用聊天功能(即ChatGPT)与基础模型进行交互,或者将其转换为推理模型,或将其用作编码模型。


建立基础模型后,我们就可以开始整合多模态数据。但需要明确的是,仅仅构建第一个基础模型就需要大量的数据。因此,对于细胞生物学,我们首先从可以大规模收集的数据类型——单细胞RNA测序数据——开始,然后再转向更难或更昂贵的数据模态。


您是什么时候开始对虚拟细胞模型感兴趣的?为什么?

 

我对虚拟细胞模型的兴趣由来已久。研究生时期,我曾为一个虚拟细胞模型编写代码,但从未发表,也并未真正发挥作用。我的方法并非使用神经网络,而是基于第一原理及其已知模块构建系统。尽管我当时已经了解神经网络……我是在20 世纪90 年代末了解它们的,那是神经网络最后一次被认为“酷”的时期。但这些模型在很大程度上未能兑现其承诺,我们进入了著名的“人工智能寒冬”。


与此同时,当我2007年进入博士学位阶段时,使用微阵列进行基因表达谱分析正变得越来越流行。因此,我花了大部分时间构建统计和信息论工具,用于对癌症进行高维数据分析,以揭示驱动癌症病理基因表达的潜在调控程序,同时也对虚拟细胞进行了些许研究。


在我博士生涯即将结束的时候,我意识到机器学习在生物学领域并没有获得足够的关注。进展已经停滞,人工智能的寒冬仍在持续。即使在那时,数据对于训练有用的模型来说仍然是一个巨大的限制。


然而,当我在2016年在加州大学旧金山分校开始我的实验室工作时,情况发生了变化。深度学习重新兴起,部分原因在于计算能力的进步和更大的标记数据集。例如,PyTorch刚刚问世,人工智能似乎即将回归。CRISPR和单细胞测序等功能基因组学工具也越来越受欢迎。我开始意识到,收集训练虚拟细胞所需的数据——再加上新的深度学习架构——或许最终能让这一愿景成为现实。因此,我的职业生涯到那时才回到正轨,从那时起,我就一直致力于研究能够模拟细胞动力学的人工智能模型。





—The End—

推荐阅读