图片


2024年诺贝尔物理学奖、化学奖相继花落人工智能和人工智能生命科学领域,这一里程碑式的事件向世界宣告:我们正身处一场由AI引领的科学研究范式革命之中。


行至当下,生命科学的探索已全面迈入大模型时代:依托海量数据与庞大算力进行训练与优化,大模型在精度、效率、可迁移性、涌现性等方面的优势尽显,正以前所未有的方式推动着人类对生命系统复杂性的认知边界。


大模型对科研实践的革新远不止于算法性能的提升,更在于其催生了新一代基础设施与平台体系,推动科学发现从单点模型突破转向全流程智能闭环,使得高复杂度、大体量的科研任务能够实现自主决策、动态优化与持续进化


作为全球生命科学大模型的先行者,百图生科于2024年10月发布全模态生物大模型xTrimo V3,以2100亿参数量刷新全球最大规模的生命科学AI基础模型纪录。以大模型为驱动,百图生科构建了覆盖信息搜集-生物洞察-智能实验全流程AI生成式发现系统,助力生命科学客户和合作方实现研发效率提升、加速业务闭环。


据悉,百图生科将于4月25日召开“智能进化 发现未来”生成式发现系统发布会,可以实现智能体智能调用自研核心工具和外部资源,用户无需复杂操作,即可驱动“设计-构建-测试-学习”的全流程,并通过知识与模型的共享共建,形成动态、开放、共赢的智能科创生态,加速整个生命科学领域的突破。


图片


立即报名|百图生科生命科学生成式发现系统发布会


近日,智药局专访了百图生科首席科学家(AI大模型)李子青教授,作为享誉世界的AI学者,李教授指导和带领公司多个大模型项目的研发与应用,参与公司整体技术战略的规划和执行。


本次访谈中,我们就AI for Life Science的前沿创新与应用落地等话题进行了深度交流,站在AI深刻变革生命科学发现的历史节点上,一个人、一家公司的探索轨迹和愿景使命被清晰地呈现出来。


图片

百图生科首席科学家(AI大模型)李子青教授

 

李子青(Stan Z. Li)教授是世界著名AI学者,IEEE Fellow、IPAR Fellow。他先后发表论文500余篇、引用76000余次,H-Index指数153,并在2024年世界科学家及大学排名(World Scientist and University Rankings)中, 位列“AI for Science”领域全球第一。他曾担任包括人工智能顶级刊物《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE T-PAMI)副主编等重要学术职务,长期活跃于国际顶级AI学术一线,享有全球学术界和产业界的广泛声誉。


李教授自1991年起在南洋理工大学任职至终身副教授,并于2000年加入微软亚洲研究院担任Lead Researcher,积累了丰富的学术研究和工业经验,发明了世界首个实时人脸识别系统。他2004年起担任中国科学院模式识别国家重点实验室资深研究员,主持了十余项国家重大专项研发。2019年起加入西湖大学,担任人工智能讲席教授,主持西湖大学人工智能研究与创新实验室的工作,并大力投入到AI+生命科学领域,取得了一系列突破性的学术成果。李教授作为项目负责人、首席科学家主持了国家“新一代人工智能”重大项目(AI+蛋白质计算、药物设计)两项,自然基金委重点项目(AI+多组学分析)一项,成为AI+生命科学研究领域的前沿探索者。


Q:您从计算机视觉(如人脸识别)转向AI+生命科学领域的契机是什么?两个领域的核心方法论有哪些共通之处和差异性?


李子青:我之前一直做的是计算机视觉(Computer Vision),尤其是人脸识别技术研发。在微软研究院工作期间,成功开发了全球首个实时人脸识别系统Eye-CU,比尔·盖茨先生曾亲自在CNN专访中演示推荐。


中科院任职期间,带领团队将多模态人脸识别系统与智能视频监控方案应用于多个国家级安防工程,包括2005年设计建设深圳罗湖-香港自动通关系统,和2008北京奥运会及2010上海世博会的安防体系等先导创新性应用。之后,随着深度学习的成功应用,国内相关AI企业的蓬勃发展,使得人脸识别成为了一个成熟的产业,我意识到,我在人脸识别领域的使命已经完成。


2019年我加入西湖大学并担任人脸识别讲习教授。生命科学是西湖大学的优势学科,为我提供了转型契机。通过与生命科学PI合作,开始涉足蛋白质组学研究。尽管研究领域从人脸识别转向生命科学,但其底层方法仍然是数学、模式识别和机器学习。基于深度神经网络构建的特征空间映射模型,我们成功开发了高维数据空间到表征空间的深度流形变换,这项核心技术已应用于癌症早期诊断、蛋白质建模、单细胞分析等多个前沿方向。


Q:针对AI for Life Science的研究,您目前主要精力放在哪些方向上?百图生科“生命科学基础大模型”与您的研究愿景有何契合?


李子青:过去5年,我带领团队从零开始,从蛋白质组学应用研究开始,逐步向蛋白质结构与功能设计延伸,继而拓展至生物中心法则建模及靶标药物开发,从而构建了一个从DNA,RNA、到蛋白质和药物设计一个比较完整的研究体系,这些属于AI+分子生物学层面。这一从分子机理到应用落地的研究路径,与百图生科的战略方向高度契合。


接下来几年,我会将研究拓展到AI+细胞生物学层面,利用AI和大数据,构建刻画细胞运行机理、细胞分化和细胞命运调控的细胞基座大模型,赋能细胞机理研究及其在生命科学、健康医疗与合成生物学中的应用。


百图生科致力于AI生命科学大模型研究与产业,也包括AI分子生物学和AI细胞生物学两个层面,从模型研究到应用落地,这个战略方向与我的研究兴趣高度契合。


在实施层面各有侧重,我的实验室聚焦前沿方法探索,百图生科则着力于大模型方法的规模化、工程化验证与产业化落地。


Q:AI for Life Science目前面临的关键挑战是什么?您和百图将如何进一步解决这些问题?


李子青AI与生命科学跨学科的深度融合,是实现突破的关键点之一。


Alphafold 2的突破为例,其背后是DeepMind拥有一支跨学科的队伍,包括分子动力学专家、生物学家、化学家、AI科学家与工程师等,这样一个交叉团队的密切合作与交流碰撞,才造就了Alphafold 2辉煌的成果,也启动了AI for Science研究的新范式。


另一个例子是斯坦福大学、Arc Institute、英伟达等机构合作的Evo 2。要开发有能力的生命科学大模型,就必须将AI与生命科学进行深入融合,将各个层级的生物内在规律嵌入模型,而不是简单地套用AI架构。


另外一个关键是生物大数据的可得性,Alphafold背后就有PDB(Protein Data Bank)作为数据基础,当时包含20万左右的蛋白质结构。如果没有这样蛋白质序列和结构的数据,就不会有Alphafold。当前AI还无法很好解决生命科学的许多问题,一个重要的原因就是生物技术领域尚未开发出合适且充分的检测技术,以支撑有效的AI建模。


深入的学科交叉、充分的数据,当然还有算力,是AI for Science取得突破的必要条件。

 

Q:蛋白质领域,您和您团队先后推出了PiFold、FoldToken系列等模型,均展现出相比同类模型更加高效的优势,这背后有什么秘诀?

 

李子青:我实验室的小伙伴们是一个非常年轻且具有创造力的团队,大都是计算机出身,也有数学和物理等基础学科的人才,非常聪明能干,勇于进取。新进来的学生在学长指导下通过与刷SOTA积累基础能力,然后在前沿领域开展具有范式革新意义的工作。

 

PiFold中,我们对模型设计对各个层面进行了全面的分析,最终删繁就简推出了第一个非自回归序列设计图模型,取得了效率与精度取得双重突破的模型;在FoldToken中,我们对向量量化的基础方法也进行了详细剖析和改进,提出了首个基于token化的蛋白质序列-结构建模方法。


我们认为,基础方法的创新是最重要的,只有在基础方法上取得突破,才能在各个领域都取得进展。我们也希望通过这些工作,推动蛋白质领域的研究进展。

 

我作为实验室的架构师,会有意避免拥挤的赛道,而是去找更加新颖的、更加promising的方向去探索,这也契合西湖大学"高起点、小而精、研究型"的办学特点。前沿成果可以通过百图做scaling up,成为大模型的一部分。


Q:您之前提出“所有的生物分子都可以被token化”这个观点,如何理解?与自然语言大模型相比,生命科学大模型的数据构建、训练范式有何独特性?百图生科做了哪些努力?

 

李子青:生物数据中的序列(如蛋白质序列)天然适合以token形式表征,而非序列数据(如蛋白质结构、图像)可通过向量量化转化为离散token。


这一过程背后的数学物理原理在于相较于自然语言,生命科学数据是一种更高维度的数据。而连续空间(如n维向量)的表征存在大量信息冗余,而token化通过离散化压缩信息,仅保留关键模式,这可能与物质量子化的离散本质一致,同时也能抑制数据中的噪声。


另外一个原因是,将生物分子token化后,能够适配目前应用广泛的Transformer这样的通用架构,方便建模。当然,如前所述,其中需要巧妙利用数据的生物规律约束。


在过往的4年多的时间里,百图生科致力于基于原始数据的数据图谱构建,针对生物语言和不同模态的算法创新,高通量实验体系的建设以及大量的自产数据的积累,最终通过在药物设计、靶点发现、生物制造等不同应用场景进行验证。

 

我和百图生科最近在做一个事情,是将DNA、 RNA 和蛋白质这些分子能够通过中心法则原理深度地整合起来,嵌入到建模的过程中,我们相信这能够提升大模型的质量,并产生巨大的行业价值。


Q:在您看来,覆盖蛋白质、DNA、RNA等多模态的生物大模型未来将在哪些领域率先落地、切实改变我们的生活?

 

李子青:大语言模型的优势就在于能够扩展多维度下游任务。在医药领域,xTrimo平台在AI靶点发现、蛋白设计和生成、生命科学工具、疾病机理研究等应用场景的200余个任务模型中达到了SOTA水平。已支撑客户取得10余种已验证抗体、10余个创新靶点授权等突破性成果,全球超400家用户,在产业端产生显著价值。


生物制造领域,xTrimo能够为菌株改造、酶设计、工艺发酵等环节赋能我们实际推进的产业化项目主要聚焦于工业应用场景,涵盖化工原料生产、饲料加工、环境保护等领域。从商业化路径考量,初期突破点将优先选择高附加值的医药中间体和基础化工原料领域,这类产品具备明确的市场需求和较高的技术可行性。


Q:您最近做了关于虚拟细胞的报告,这个也是诺贝尔化学奖得主德米斯·哈萨比斯口中“会彻底改变生物学研究”的技术,这方面您和百图做了哪些工作?

 

李子青:目前,我做AI细胞研究有两个大的方向,一个是关于生命科学,另一个是合成生物学。这两个方面都具有重大社会意义。 

 

我们正在构建名为"5M"的多维研究框架5M即5-Multi,包括多组学、多模态、多扰动、多尺度、多任务旨在“5M”数据基础上,构建细胞状态和随时间空间变化的模型。我前面说过,AI生命科学发展有赖于生物化学检测技术的突破,特别是测序技术与成像技术的协同发展。AI虚拟细胞任重道远。

 

相较于生命科学,合成生物学更容易落地。我跟百图生科聚焦于合成生物的产业端,希望能够解析单细胞微生物原理,并应用于生物制造,包括如何设计改造和优化微生物赋能生物制造,如何将工艺进行优化,从而大幅度提升细胞产出效率。

 

Q:前不久百图生科宣布开源全球首个千亿参数蛋白质大模型xTrimoPGLM,您觉得这对行业发展有怎样推动作用?

 

李子青:我们希望通过开源xTrimoPGLM,推动整个AI+生命科学领域的发展。目前,xTrimoPGLM实现了对蛋白质结构预测、功能分析和序列生成等任务的全方位处理能力,在抗体序列生成和复合物结构预测领域已达到国际领先水平,2025年4月,xTrimoPGLM也登上顶级期刊Nature Methods》


图片


其次是降低了行业门槛,加速创新转化。模型开源后,研究人员可直接针对酶稳定性预测、亲和力分析等垂直任务进行微调,大幅降低从零训练大模型所需的数据与算力成本,这为中小型企业提供了低门槛研发路径。我们还希望通过开放生态推动行业标准化。以Model Hub为例,该平台已集成数十个垂类模型,未来有望吸引更多行业贡献者共建开放生态。


简单而言,此次开源不仅提供全球领先的蛋白质AI工具,更通过平台化建设重构研发生态,推动生命科学从单点突破转向系统性创新,预计将为行业带来研发效率的指数级提升与成本结构的根本性优化。


Q:AI领域,Agent(智能体)近来成为热门话题,行业也将2025定位为“智能体元年”,您和百图生科在这方面做了不少工作,可以分享下相关进展吗?


李子青:AI Agent技术正以颠覆性姿态重塑全球产业格局。百图生科在四月底即将发布生成式发现系统,通过多智能体系统重构技术底层。基于2100亿参数的xTrimo多模态大模型,智能体能够自主调用自研核心工具及外部资源,实现超越传统自动化的“深度研究”能力。

 

这一技术突破使AI从单一执行工具升级为具备主动推理能力的“智能研究伙伴”,在靶点发现、分子生成等环节中完成复杂任务协同,标志着生命科学领域AI应用从辅助工具向研究主体的范式跃迁。


在交互场景创新方面,百图生科以自然语言对话重构科研工作流。通过构建“对话即研究”的智能体交互界面,科研人员无需掌握专业编程技能即可驱动涵盖设计、构建、测试、学习的全流程实验闭环。这种低门槛的人机协同模式将研究者从重复性工作中解放,使其更聚焦于科学假设与创新突破,重塑了生命科学研发的人机协作生态。 

 

生态构建层面,企业着力打造开放的智能体网络生态。通过共享模型、数据与知识库,连接产学研多方资源形成动态协作网络。这种开放架构不仅加速了技术迭代与知识沉淀,更通过智能体间的协同计算能力,为药物研发、合成生物等细分领域创造规模化价值,推动整个生命科学产业向智能化、平台化方向演进。

 

Q:国内外的一些研究显示,生成式AI可以有效帮助加速科学发现的进程,”AI科学家“这个概念应运而生,对此您怎么看?AI对科学发现的变革将以何种方式实现?

 

李子青:生成式AI正推动科研范式革命,AI科学家”通过整合文献分析、假设生成、实验设计、数据验证及论文撰写等全流程能力,将科学探索的效率提升至前所未有的高度,同时也引发学界对技术潜力与伦理风险的深度思考。

 

当前“AI科学家”仍面临多重瓶颈:其一,多模态能力不足,尤其在视觉信息处理和实验操作环节依赖人工干预;其二,逻辑推理能力有限,例如大语言模型常出现数字比较错误;其三,评估体系尚未成熟,AI生成结论的可解释性与透明度亟待提升。伦理风险亦不容忽视——自动化论文生产可能加剧学术泡沫,而生物安全等领域的技术滥用更需全球监管协作。

 

Cell一篇名为“Empowering biomedical discovery with AI agents”的文章深入探讨了AI agents如何加速生物医学研究的突破,及其在与研究人员协同合作中发挥的关键作用。文章指出AI agents的发展体现为四个层次:

 

第一层——AI仅作为工具使用,例如AlphaFold用于预测蛋白质的三维结构;

 

第二层——AI agents在研究人员的指导下完成特定任务,如在基因组关联研究(GWAS)中执行生物信息学分析;

 

第三层——AI agents作为研究人员的“合作伙伴”出现,能够参与假设生成与实验规划。例如,AI agents可以基于现有基因数据自动提出某些基因与特定疾病相关的假设,并设计实验验证这些假设。这时的AI agents不仅执行研究人员的指令,还可对实验方案提出改进建议,基于实验结果不断调整研究方向,成为科学研究的重要合作伙伴;

 

第四层——AI agents被设想为具有独立科学发现能力的“AI科学家”,能够基于现有知识自主提出新的科学假设并独立完成实验验证。这类AI agents不仅是工具或助手,更是可以与研究人员并肩作战的研究伙伴。这时的AI agents需具备高度的学习与推理能力,能够在面对复杂性和不确定性时做出合理判断。

 

学界普遍认为,AI将推动科研进入“第五范式”。AI不仅加速数据处理,更通过知识图谱构建与跨学科关联,催生全新科学假设。开放科学资源将成为创新关键,而人类科学家的核心角色将转向战略规划与创造力激发。


在这场人机协作的科研革命中,“AI科学家”既是工具也是伙伴。它虽无法替代人类的直觉与灵感,却能通过超强算力与模式识别,将科学家从重复劳动中解放,聚焦于更本质的探索。随着多模态模型与系统的进化,一个更自主、更富创造力的科学发现新时代正在加速到来。

 

Q:目前百图生科在生命科学大模型的研发和投入主要在哪些方面?未来1-3年的大模型迭代的愿景是什么?

 

李子青:作为生命科学AI大模型的先行者,百图生科近年来持续深化生命科学大模型技术的布局和创新。在技术底层,百图生科构建了全球首个覆盖蛋白质、DNA、RNA、细胞、小分子等七个模态的生命科学大模型xTrimo V3。 


未来三年,百图生科计划将模型参数进一步扩展,并新增代谢组学、微生物组等模态,实现从分子到生态系统的全链条建模。我们正在研发的跨尺度建模技术,例如结合细胞互作模型与临床数据预测药物副作用,或将重新定义药物研发范式。  


应用场景将向合成生物学、细胞基因治疗等领域纵深拓展。公司正在开发基于单细胞转录组基础模型scFoundation的“细胞级生命模拟器”前期成果已入选“2024年度中国生物信息学十大进展”。在生物制造领域,计划通过AI优化工业菌株改造、提高中试发酵工艺效率。

 

此外,公司还将继续执行开源战略。继开源xTrimoPGLM后,公司计划释放更大规模模型能力,使中小型机构也能低成本使用千亿级AI工具。同时加速全球开发者社区建设,我们希望成为生物计算基础设施的核心提供者。 

 

百图正以基础大模型+垂直场景+开放生态”的三维战略,努力引领中国在全球生物计算竞争中占据制高点。



注:本次访谈内容已经过编辑整理并已获得受访者认可,我们也欢迎读者通过留言互动,分享您对本访谈的看法。欲了解更多关于百图生科生成式发现系统的信息,敬请关注本月25日的发布会,届时智药局也将进行直播。



—The End—

推荐阅读