
数字化生命的愿景,正在一步步变成现实。
就在今天,Arc Institute发布了其第一代虚拟细胞模型STATE,该模型旨在预测各种干细胞、癌细胞和免疫细胞对药物、细胞因子或基因扰动的反应。
据悉,STATE基于近1.7亿个细胞的观测数据以及超过1亿个细胞的单细胞扰动数据进行训练。发言人表示,这是迄今为止任何其他模型都未曾达到的数据量,在预测新细胞背景下扰动后转录组的变化方面,它显著优于现有的最先进计算方法。
目前该模型已开源,可用于非商业用途,代码和模型参数已上传至GitHub及Huggingface。

成立于2021年的Arc Institute是一家位于美国加州的顶级生物医学研究机构,其为科学家提供长期、无附带条件的资助,从而可以更自由地追求好奇心驱动的科学项目。今年2月,Arc Institute就曾联合推出当时最大的开源生物学模型Evo 2,参数高达400亿。
继以Alphafold为代表的模型革命性地推进了人类对蛋白质的认知后,越来越多的科学家正将研究重心转向更复杂的细胞层面,利用AI模拟细胞生命活动,探索背后的分子机制与调控规律。
前不久,木头姐管理的ARK Invest发布的《Big Ideas 2025》报告认为,单细胞组学与AI的结合将推动虚拟细胞的发展,重塑药物发现的方式。
峰瑞资本指出,虚拟细胞正站在一个崭新的发展节点上,凭借政策支持、科研突破、产业投入以及AI技术进步,这一领域有望迎来发展机遇,并对生物医药产生深远的影响。
数据算法双突破,性能全方面提升
当我们想要知道某款药物将对细胞带来什么影响时,传统方法需要做大量耗时且昂贵的实验,而虚拟细胞模型的出现,提供了一个全新的解决方案。
通过精确预测细胞对各种扰动(例如药物、基因或环境)的反应,STATE为揭示生命规律、理解疾病机制以及开发创新疗法铺平了道路。
这一重磅突破的实现,得益于研究团队在数据训练与算法架构方面做出的努力。
首先在数据方面,STATE基于近1.7亿个细胞的观测数据以及超过1亿个细胞的单细胞扰动数据进行训练,这是迄今为止任何其他模型都未曾达到的水平。
Arc Institute表示,STATE最初专注于单细胞RNA测序数据,然而测序数据通常纯粹是观测性的,不足以推断细胞生物学中的因果关系。
为了开发出一个真正扎根于生物学机制的虚拟细胞模型,团队收集了大规模的扰动数据:即通过实验(例如CRISPR工具)故意改变特定基因以观察其对细胞影响的数据,并通过AI工具加速了数据收集过程。
长期以来,单细胞研究领域面临着一个关键挑战:大多数数据来源于分散的小型研究,由于实验技术和样本来源的差异,导致不同项目间的数据难以实现无缝整合。
为应对这一挑战,Arc Institute创新性地开发了scBaseCount——该领域首个基于智能体AI技术的单细胞数据分析平台,这一突破性工具通过标准化数据收集和分析流程,显著降低了批次效应带来的偏差。目前,scBaseCount已成为全球规模最大的开源单细胞数据库。
数据之外,STATE在算法上的创新同样令人印象深刻,研究人员开发了一个多尺度机器学习架构,由两个相互关联的模块组成:STATE Embedding model(SE)和STATE Transition model (ST)。

图:STATE
其中,SE将转录组数据转换为计算机更容易理解的平滑多维向量空间,同类型的细胞会在这个向量空间中会聚集在一起,使得模型能够更好地理解细胞之间的相似性、差异性以及它们如何响应扰动。
ST则负责学习和理解细胞如何从一个初始生物学状态转换到另一个响应状态(如受到特定药物扰动后的新状态),采用双向Transformer架构,使模型能够灵活地捕获生物学和技术异质性(例如细胞周期状态或RNA-seq数据中的偏差),而无需依赖明确的分布假设。
在跨数据集的系统评估中,该模型在药物扰动(Tahoe-100M)、细胞因子扰动(Parse-PBMC)和遗传扰动(Replogle-Nadig)三类数据集上均取得突破性表现。
在Tahoe-100M上的基准测试中,STATE在区分扰动效应方面表现出50%的改进,并且在识别真实差异表达基因方面的准确性是现有模型的两倍。在所有度量指标和数据尺度上。STATE实现了对线性基准模型的全面超越,这在业内尚属首次。

令人印象深刻的是,在严格的零样本测试环境下(训练集完全不含目标细胞类型),模型对五种全新细胞系的效应量预测相关性显著提高,展现出强大的泛化能力。
研究人员表示,在预测新细胞背景下扰动后转录组的变化方面,STATE明显优于现有的最先进计算方法。
接棒AI蛋白质,虚拟细胞时代开启
Arc Institute表示,STATE仅仅是其一系列模型中的第一个版本,随着虚拟细胞训练数据的增长,其预测准确性将会随之提高。
在团队看来,AlphaFold之所以有用,很大程度上因为研究人员找到了将其蛋白质预测结果整合到工作流程中的方法,而STATE也将遵循这一模式,尽快使得这一成果真正运用到药物研发之中。

Arc Institute的目标是最终使未来版本的虚拟细胞模型的准确性与实验精度相当,这将使科学家能够运行数百万次计算机模拟扰动,从而缩小假设范围。
近来,关于虚拟细胞的成果层出不穷,国内外重大虚拟细胞项目纷纷启动。
近日,华盛顿大学蛋白质设计研究所所长David Baker联合创立的Xaira Therapeutics宣布,发表名为X-Atlas/Orion的全球最大规模单细胞扰动测序数据集。
6月初,美国艾伦研究所宣布启动「细胞景观」(CellScapes)项目,旨在结合尖端成像技术与AI模型来揭示细胞原理,构造细胞动态图景,为科学家预测乃至设计细胞提供强大工具。
今年3月,“十四五”重大科技基础设施——人类细胞谱系大科学研究设施正式启动建设,由中国科学院广州生物医药与健康研究院牵头,将绘制人体中全生命周期的细胞时空演化图谱,打造数字细胞AI大模型。
不久之前,DeepMind首席执行官Demis Hassabis也公开表达了对虚拟细胞的强烈兴趣,认为这可能会彻底改变生物学研究。

图:2024诺贝尔化学奖得主David Baker、Demis Hassabis和John M Jumper(从左至右)
其中,David Baker和Demis Hassabis因其在AI蛋白质领域的突出贡献获得2024年诺贝尔化学奖,两位领军人物的新动作预示着继AI改变蛋白质研究后,虚拟细胞将接棒成为下一个焦点。
虚拟细胞在药物研发、精准诊断和个性化医疗等领域展现出强大的应用潜力,顶尖投资机构对此展现出浓厚兴趣。
木头姐创立的ARK Invest在《Big Ideas 2025》中强调,单细胞组学与AI的结合将推动虚拟细胞的发展,变革药物发现方式。

报告认为,虚拟细胞模拟细胞功能并预测在不同生物状态下对扰动的反应,标志着药物发现领域的一次重大突破。ARK Invest预计,虚拟细胞在预测分子结构方面将实现与AlphaFold相同的效率提升。
峰瑞资本指出,虚拟细胞这一前沿交叉领域吸引了越来越多的企业,尤其是在欧美地区,创业公司表现尤为活跃。这些公司可以大致分为两类:
第一类企业专注于构建虚拟细胞的基础模型。这类模型或许能够凭借强大的泛化能力,为多种应用场景提供支持,典型案例为Recursion。
第二类企业则选择跳过构建基础模型的步骤,聚焦具体的生物学场景,直接开发专门用于这些任务的特化细胞模型,典型案例为Asimov。
当然,这场革命才刚刚开始,一些专家表示,虚拟细胞距离真正落地仍有10-15年的时间,从模型预测到临床验证,从技术突破到伦理规范,虚拟细胞的发展还面临诸多挑战。
但可以确定的是,当生物学与人工智能深度融合,我们正站在新的起点——这不仅将深刻改变生物医药产业,更将重新定义人类对生命的认知。
推荐阅读