
AI生物学数据,又迎来重磅里程碑!
近日,融资10亿美元的AI+生物医药公司Xaira Therapeutics宣布,发表名为X-Atlas/Orion的全球最大规模单细胞扰动测序数据集,包含800万个单细胞数据。
这是当前全球最大的公开可用的 Perturb-seq 数据集,也是专门为AI驱动的虚拟细胞(Virtual Cell)而构建的数据。
该研究的预印本论文已在bioRxiv发布,文中分享了该数据集以及平台的大量细节。

可以说,该数据集当前解决了虚拟细胞模型发展的核心瓶颈:高质量扰动数据短缺,为构建虚拟细胞和药物研发提供坚实帮助。
公司还表示,计划向非商业机构提供数据集,推动全行业的共同发展。
史上最强单细胞扰动数据集
据介绍,X-Atlas/Orion是目前最大的公开可用单细胞扰动测序数据集,包含了800万个细胞,覆盖了人类所有蛋白质编码基因。
与此同时,每个细胞都对超过 16,000 个唯一分子标识符 (UMI) 进行深度测序,表明数据集测序深度非常高,数据质量很高。
与传统Perturb-seq仅将基因扰动视为“开/关”状态不同,X-Atlas/Orion通过分析sgRNA丰度与表达拷贝数的关联,首次实现对基因活性梯度变化的量化。
因此,该数据集能够更精准地反映药物靶标产生所需治疗效果的精确抑制百分比。
该数据集由Xaira推出的 Fix-Cryopreserve-ScRNAseq (FiCS) 平台实现,通过“固定-冻存-单细胞测序”解决了传统单细胞测序的批次效应和操作耗时问题,实现高通量、标准化数据生产。

图:Perturb-seq平台工作流
目前,FiCS平台方法已经在预印本中公开。此外,公司还计划将X-Atlas/Orion 在非商业许可下向生物技术社区开源。
Xaira 还表示,愿意与表示兴趣的公司讨论数据合作。
“当我们把这样的数据集交到其他计算研究人员手中时,我们很高兴看到他们能想出什么样的新模型架构和方法,”Xaira 早期发现副总裁兼预印本的作者 Ci Chu 博士表示。
Xaira:AI制药梦之队
此次发布单细胞扰动测序数据集,也是AI制药公司Xaira Therapeutics成立一年来的重磅成果。
该数据集当前解决了虚拟细胞模型发展的核心瓶颈——高质量扰动数据短缺。
Xaira究竟是何方神圣?这家公司成立之初就获得10亿美元支持,轰动业界。
公司成立于2024年4月,其创始人、高管、投资人、顾问都是生命科学领域的顶级阵容,希望打造下一个颠覆生命科学行业的公司。
Xaira的使命是运用人工智能技术,创造下一个基因泰克。
公司科学联合创始人为诺贝尔化学奖得主、华盛顿大学蛋白质设计研究所所长David Baker博士,该实验室设计了多个全球领先的基于蛋白质的药物开发模型,有多位博士生全职加入了Xaira Therapeutics。
公司的首席执行官Marc Tessier-Lavigne是前斯坦福校长,他还曾任基因泰克首席科学官。另一位联合创始人Hetu Kamisetty 博士,他曾供职于Meta和蛋白质设计研究所。

左:Marc Tessier-Lavigne;右:David Baker
今年4月, Xaira 宣布任命多伦多大学顶尖 AI 学者 Bo Wang 为生物医学 AI 负责人,也是X-Atlas/Orion项目的主要负责人。
这家初创的背后,则获得包括ARCH、Foresite Labs、F-Prime、NEA、红杉资本、Lux Capital、Lightspeed Venture Partners、Menlo 、 Ventures、Two Sigma Ventures、帕克癌症免疫治疗研究所 (PICI)、拜耳、Rsquared 和 SV Angel 等一众海外顶级投资机构的支持......
其中,著名的生物医药风险投资基金ARCH Venture Partners,押上了其成立以来的最大赌注,向该公司投了2亿美元。
此外,Xaira Therapeutics还有一个跨领域的强大顾问团队,包括诺贝尔化学奖得主Carolyn Bertozzi 博士、波士顿集团高管、强生公司前董事长兼首席执行官Alex Gorsky、23andMe 前首席科学官兼治疗学主管、FDA资深专员.......
AI生物学的下一个圣杯
AlphaFold2解决了蛋白质折叠问题后,虚拟细胞(Virtual Cell, VC)迅速成为AI+生命科学的前沿焦点。
毕竟AlphaFold 2本质上是静态蛋白质结构问题的模型,但生物学是一个动态系统,而不是一个静态系统。
许多大佬都表示过对于虚拟细胞的兴趣与看好。
被誉为“女版巴菲特”木头姐,其创办的ARK Invest发布《Big Ideas 2025》,将虚拟细胞列为未来AI+生命科学最具有颠覆性的领域之一。
和David Baker共同获得诺贝尔化学奖的Demis Hassabis曾表示,他的终极梦想之一是构建虚拟细胞,这将彻底改变生物学研究,可能需要长达10年的时间去实现。
去年12月,40位顶尖科学家在《细胞》杂志发表文章,呼吁利用AI来创建虚拟人类细胞(AIVC),这是一个前沿且具有巨大潜力的领域。
与传统细胞生物学依赖实验不同,AI虚拟细胞通过计算模拟进行“虚拟实验”,可以突破物理限制,高效测试多种假设和条件。
虚拟细胞的价值不仅在于技术突破,更在于其可能重构生物医学研究范式。
当前,大多数生命活动都是在细胞层面进行的,如果AI能精准模拟分子、细胞和组织的作用,则具有巨大的应用前景。包括靶点发现、患者分层、药物筛选等。
为了这一宏大目标,全球多个组织和公司正积极探索AI虚拟细胞的构建与优化。
今年4月,著名非盈利研究机构Arc Institute宣布与10x 和 Ultima Genomics 合作开发虚拟细胞图谱,推动Arc Virtual Cell Atlas成为预测生物模型的关键资源。
前不久,美国艾伦研究所宣布启动“细胞景观”(CellScapes)计划,旨在结合尖端成像技术与AI模型来揭示细胞原理,构造细胞动态图景,为科学家预测乃至设计细胞提供强大工具。
据悉,该项目将为期十年,由75名专家组成的团队负责执行,期间并不设定固定的预算。
我国也正在加大对于该领域的投入。
2025年3月,由中国科学院广州生物医药与健康研究院牵头的人类细胞谱系大科学研究设施正式启动建设,将打造数字细胞AI大模型。
AIVC,并不遥远
或许,在很多人眼里利用AI模拟细胞还太过于遥远。
实际上,虚拟细胞(AIVC)已不再是科幻概念,而是正在迅速发展的前沿技术。

图:虚拟细胞三大支柱
首先,要模拟并且预测细胞的生命活动,其最重要的基础就是在于多样且高质量的生物数据。
这些数据涵盖基因组、转录组、蛋白质组、代谢组等多层次信息,细胞显微成像与单细胞测序数据也不可或缺。
过去二十年来全球科学家们的各类解码计划:如人类基因组计划、人类细胞图谱、癌症基因组图谱、ENCODE、人类蛋白质图谱等,这个过程中积累的大量参考数据,能够用于训练机器学习模型。
学界和产业界也意识到了当前数据的匮乏,正在联合多方构建适合深度训练的多样性生物数据库。
图:虚拟细胞相关数据集
模型层面,近年来涌现了多个单细胞大模型,以及整合生命分子的生物学基础大模型,都极大地促进了技术突破与发展。
图:单细胞以及生物学基础大模型
虽然离人类细胞全尺度模拟还有很长一段距离,但这些模型在特定领域已经发挥巨大的作用,有望实现产业化落地。
例如,清华大学的 scFoundation,支持“开箱即用”的细胞质量提升和虚拟药物试验。
尽管,人类细胞全尺度模拟不仅需要大规模的数据,其算力需求也将远超当前上限。
但算力成本的不断下降,大模型的飞速进展,已经让科学们走向这一遥不可及的梦想。