
女娲造人的神话故事众所周知。“女娲”生命科学系列大模型的命名跟这个神话故事一样富有深意,象征着对生命科学终极规律的探索雄心。
在生命科学与药物研发领域,女娲生命科学系列大模型从帮助人类理解蛋白质、RNA、DNA以及小分子如何在生物体内相互作用,到揭示多蛋白质结构-功能关系和药物开发,都起到至关重要的作用。目前,“女娲“已在基因调控解析、生物流体仿真,以及蛋白动态结构预测等领域取得突破性进展。
在2025VBEF未来医疗医药100强展会·精准医疗与分子诊断产业发展论坛上,上海科学智能研究院主任研究员郭昕,为我们深度讲述了女娲生命科学系列大模型为生命科学研究和药物开发带来的曙光。

上海科学智能研究院主任研究员郭昕
01
AI与生命科学的深度融合是推动生命科学研究的关键力量
AI 与生命科学的双向奔赴与深度融合是推动生命科学研究的关键力量,两者的融合可以概括为两大部分。
一部分是各种观测检验技术的突破带来的生命科学大数据的积累。例如,2013年冷冻电镜技术、2015 年二代测序技术、2017年表观遗传测序技术等一系列关键生物技术的出现,让生命科学领域的数据呈爆炸式增长。这些数据涵盖了蛋白质结构、基因序列、表观遗传信息等多个方面,为一系列生命科学大模型的构建提供了丰富的素材。
另一部分是不断涌现的新AI技术,让人们可以不断完善对生命科学规律的解析。例如,在 2012年深度学习爆发后,CNN在图像识别领域大放异彩;Transformer架构为ChatGPT等大模型的出现打下重要基础。
2017—2018年,AI与生命科学开始有了第一次深度融合,如AlphaFold首次实现了模型预测的蛋白质结构精度达到了湿实验的水平,让人们解析蛋白质结构有了全新的工具。2022年,以ChatGPT为代表的无监督预训练大模型的出现,进一步推动了AI与生命科学的融合,使得从海量无标注数据中学习生命规律成为可能。再到2025年,Evo2大模型的发布,让跨物种生命体的基因组设计成为可能。
郭昕表示,生命科学系统建模的终极目标是解析人体这个多组学、多分子、动态演化的复杂系统。人体包含万亿级细胞,每个细胞又由10亿级分子构成,且细胞不断动态演化。如何切入这一复杂系统,是AI for 生命科学领域亟待解决的首要问题。
上述数据技术和大模型的出现与融合,让我们可以用系统化的视角,了解AI为生命科学领域复杂研究提供的新思路和方法,并从中总结出相应的发展趋势。
在算法层面,郭昕总结了三个现有趋势。一是融合生成式人工智能,可以实现多组学生物分子的从头设计,从而可以产生自然界不存在的新分子,为药物研发及其他功能分子的设计,提供新的理性方法与基础模型;二是以AlphaFold3为代表的大模型,在统一的深度学习框架内,可以实现生物分子复合物的高精度空间建模,为复杂多分子复合物相互作用的研究带来了诸多突破;三是通过大模型和湿实验之间的协同与迭代,可以不断地反馈出更高效、更优化的定向进化设计。
以ChatGPT为代表的一系列大模型,对生命科学研究产生了较大的影响。一方面,大语言模型的建模方法可以整合海量的影像数据、组学数据,从而对生命体的最小单位细胞做一定的解释以及生命规律的模拟;另一方面,大语言模型本身可以作为一个人类知识的复合体,实现类似于研究人员的模拟状态,其基于文献探索和模拟科学辩论,可生成新颖的研究假设,例如谷歌推出的AI Co-Scientist项目。
02
微观+宏观:女娲生命科学系列大模型为生命科学带来新方法
郭昕所在团队研发的女娲生命科学系列大模型,充分利用现有大数据资源,通过对海量数据的挖掘和分析,构建了多组学训练模型,实现了在基因序列设计、基因表达调控、疾病机制解析等多个任务上的突破。
例如,女娲多组学序列大模型通过整合超10亿级别的基因组和RNA转录组数据,在下游多个核酸设计任务中达到领域领先。尤其在创新药领域,基于团队自建的全球最大规模的 siRNA 数据库,为siRNA药物设计提供了重要支持。同时,女娲基因导航大模型通过对表观遗传组数据建模,实现了高精度、超长距离的基因调控关系预测,为疾病诊断和治疗提供了新的方法和手段。
女娲生命科学系列大模型从跨尺度、多组学、动态复杂系统本质出发,以生命科学的微观基因蛋白等分子以及宏观表型两大基础场景为抓手,致力于为基因创新药研发、蛋白动态设计、数字孪生诊疗等产品平台提供基础模型能力,为生命科学研究提供了新的思路和方法。基于女娲生命科学系列大模型,科研人员可通过大语言模型与生成式人工智能的结合,实现了多组学生物分子的从头设计;还可通过物理原理与先进计算架构的融合,完成全分子尺度动态的模拟仿真。
在微观层面,“女娲“通过对基因序列和基因表达的建模,深入解析了生命活动的起点和基础。通过对基因序列的设计和优化,可以开发出核酸药物,为罕见遗传病、乙肝、HIV等疾病的治疗带来新的希望。同时,通过对基因的表达进行建模,可以理解不同疾病和状态下的基因活跃状态,为疾病机制的理解和新靶点的发现提供重要支持,甚至有希望让以往不可成药靶点成为可成药靶点,突破创新药成药痛点。
在宏观层面,“女娲“通过对人体CT-PET影像数据建模,结合分子层面上的建模结果,可实现对人体疾病的全面解析。例如,通过对病理图像和空间转录组结果的关联建模,以及对大型生物银行中MRI-CT影像和患者蛋白组、基因组测序数据的关联研究,该大模型为疾病诊断和治疗提供了新的视角和方法。
女娲生命科学系列大模型不仅在生命科学研究中取得了重要成果,还为科研范式带来了全新的变革。其结合Agent技术和大语言模型,构建了自动化的科研平台,实现了科学研究的循环发展。
郭昕强调,未来女娲生命科学系列大模型将继续深化在基因调控、生命流体、生物结构等领域的研究,不断完善跨尺度、多组学、动态复杂系统的建模能力,为生命科学研究提供更加强大的支持。同时,该平台将开源给科学界,通过与临床医学、药物研发等领域的合作,推动研究成果的转化和应用,为科学研究带来新的机遇和挑战。
*封面图片来源:123rf
如果您想对接文章中提到的项目,或您的项目想被动脉网报道,或者发布融资新闻,请与我们联系;也可加入动脉网行业社群,结交更多志同道合的好友。

近
期
推
荐



