图片


2025年6月2日,斯坦福大学黄柯鑫、Serena Zhang、王瀚宸、屈元昊、陆荧洲等研究人员领衔的团队,联合Genentech, Arc Institute, 加州大学旧金山分校, 普林斯顿等多个顶尖研究机构发表了突破性研究论文“Biomni: A General-Purpose Biomedical AI Agent”,首次报道了通用生物医学AI智能体Biomni, 并在biomni.stanford.edu 开放免费注册和使用



这一系统能够自主完成横跨遗传学、基因组学、微生物学、药理学和临床医学等多个生物医学分支领域的复杂研究任务,标志着AI驱动科学发现迈入全新发展阶段。



01

背景与挑战



当前,生物医学研究正面临前所未有的挑战:复杂的实验室实验、大规模数据集、众多分析工具和海量文献呈爆发式增长。传统研究流程往往碎片化且重复性强,严重制约了发现速度并阻碍创新进程,这凸显出对根本性新方法的迫切需求——一种能够有效扩展科学专业知识、简化研究工作流程并充分释放生物医学研究潜力的全新途径。


尽管人工智能技术已在软件工程、法律、材料科学和医疗保健等领域引发革命性变革,但在生物医学领域,现有方法主要依赖针对特定任务定制的专业智能体工作流程,这种局限性严重制约了其在整个生物医学领域的泛化应用能力。要实现AI智能体对广泛生物医学任务的有效处理,仍面临重大技术挑战——其中最为突出的是如何将先进推理能力与执行高度专业化生物医学操作的能力有机结合。



02

Biomni系统创新



为应对上述挑战,研究团队开发了Biomni——一个专门用于自动化推进跨领域生物医学研究的通用AI智能体。Biomni由两个核心组件构成:Biomni-E1(统一的生物医学软件和数据环境)和Biomni-A1(基于该环境的智能体)。


■ Biomni-E1:统一的生物医学软件和数据环境


为系统性构建生物医学行动空间,研究团队采用了AI驱动的构建方法。他们基于bioRxiv定义的25个学科类别,从每个类别中选取100篇最新发表的论文,然后利用行动发现LLM智能体逐篇分析这些论文,提取复现或生成相关研究所需的关键任务、工具、数据库和软件资源。


Biomni-E1环境整合了150个专业生物医学工具、105个软件包和59个数据库。这些工具均经过人类专家严格验证,特别侧重于具有复杂特性的工具,包括复杂代码实现、领域专业知识或专用AI模型。在数据库集成方面,团队将资源划分为两类:一类是通过网络API访问的大型关系数据库(如PDB、OpenTarget、ClinVar等),另一类是下载至数据湖并预处理为结构化格式的数据库。


图片 1.png


■ Biomni-A1:通用智能体架构


Biomni-A1采用了多项核心创新技术,确保其在生物医学研究领域的有效运行。首先,系统引入基于LLM的工具选择机制,专门应对生物医学工具的复杂性和专业性挑战,能够根据用户目标动态检索定制化的资源子集。其次,考虑到生物医学任务通常需要复杂的程序逻辑,Biomni-A1采用代码作为通用行动接口,使其能够组合执行涉及循环、并行化和条件逻辑的复杂工作流程。第三,智能体运用自适应规划策略,基于生物医学知识制定初始计划,并在执行过程中持续优化改进。



03

性能评估与验证



■ 基准测试表现卓越


研究团队在三个具有挑战性的多选基准测试中对Biomni进行了评估:人类最后考试(HLE)和LAB-Bench(包含数据库问答DbQA和序列问答SeqQA两个关键子任务)。


在HLE测试中,Biomni在涵盖14个生物医学子领域的52个问题上取得17.3%的准确率,显著超越基础LLM模型(6.0%)、编码智能体(12.8%)和文献智能体(12.2%),展现了其在陌生生物医学领域的出色泛化能力。


在LAB-Bench测试中,Biomni在DbQA任务中达到74.4%的准确率,与专家人类表现(74.7%)基本持平;在SeqQA任务中取得81.9%的准确率,显著超越了人类水平(78.8%)。


图片 3.png


■ 真实世界任务泛化能力


为评估Biomni在真实研究任务中的泛化表现,研究团队精心设计了八个横跨遗传学、基因组学、微生物学、药理学和临床医学的全新生物医学基准测试,具体包括:变异优先级排序、GWAS因果基因检测、CRISPR扰动筛选设计、罕见疾病诊断、药物重定位、单细胞RNA测序注释、微生物组疾病-分类群关联分析以及患者基因优先级排序。


在所有测试任务中,Biomni展现出显著的性能优势:相较于基础LLM模型提升402.3%,相较于编码智能体提升43.0%,相较于自身简化版本Biomni-ReAct提升20.4%,平均相对性能提升幅度令人瞩目。


图片 4.png


04

实际应用案例展示



■ 可穿戴传感器数据分析


在一项真实世界案例研究中,研究人员利用Biomni分析了来自30名参与者、涵盖数月时间的458个Excel文件,其中包含可穿戴传感器数据(连续葡萄糖监测CGM和体温记录)。Biomni自主生成并执行了一套10步分析流程:从葡萄糖峰值推断用餐事件,提取餐前/餐后温度窗口,进行跨个体标准化,并综合分析群体水平趋势。智能体成功识别出一致的餐后产热反应模式,发现平均温度升高2.19°C,同时观察到个体间存在显著差异,提示不同代谢表型的存在。


■ 多组学骨骼发育研究


研究人员运用Biomni分析了一个新近发表的人类骨骼发育多组学数据集,该数据集包含336,162个单核RNA测序和ATAC测序数据点。系统自主规划并执行了十阶段分析管道,预测转录因子-靶基因调控链接,并基于基序富集和染色质可及性相关性筛选调节因子。Biomni不仅重现了已知的关键成骨转录因子(如RUNX2和HHIP)间的调控关系,还发现了多个此前未被报告的转录因子,包括AUTS2、ZFHX3和PBX1。


图片 6.png 

■ 实验方案设计与验证


研究团队进一步评估了Biomni在实际实验设计中的表现,重点测试其在分子生物学核心任务——基因克隆方面的能力。在与基因编辑研究专家合作设计的开放式克隆基准测试中,Biomni生成的实验方案在准确性和完整性方面均达到人类专家水平。更重要的是,在实际湿实验室验证中,科学家严格按照Biomni设计的方案进行操作,成功完成基因克隆,测序结果显示序列完美匹配。


图片 7.png


05

用户友好界面



为了让每位科学家都能享受到Biomni的强大功能,研究团队开发了直观的网络平台biomni.stanford.edu,用户只需提交自然语言查询即可获得由Biomni智能体系统全面支持的分析结果。无论是设计复杂的克隆实验、查询多组学数据库,还是从可穿戴设备数据中生成科学假设,科学家们现在都能在无需编程的情况下,轻松获得通用生物医学AI智能体的专业协助。



06

影响与展望



Biomni的问世标志着生物医学研究领域的重大突破,其跨多个子领域的强大泛化能力为AI智能体成为科学发现不可或缺的合作伙伴奠定了坚实基础。通过自动化执行原本需要专家知识和编程技能的复杂工作流程,Biomni让研究人员得以将更多精力投入到创新假设构建、实验设计创新以及跨学科合作之中。


在药物发现领域,Biomni能够自主进行靶点优先化、扰动筛选设计和药物重定位分析,为更高效、更经济的药物研发开辟新路径。在临床应用方面,其在基因优先化和罕见疾病诊断上的卓越表现,预示着更精准个性化的医学洞察和简化诊断流程的到来。在消费者健康领域,Biomni整合可穿戴设备数据和多组学分析的能力,为实时个性化健康监测和精准干预描绘了美好前景。


Biomni及其后续版本有望成为AI驱动生物医学生态系统的核心基础设施,与人类专家形成无缝协作,共同挖掘健康与疾病领域的全新洞察。这种人机协作模式可能从根本上重塑生物医学研究格局——实现假设生成自动化,扩展发现管道规模,推动医学创新以前所未有的速度和规模发展。像Biomni这样的通用智能体不仅能够加速科学突破,更可能重新定义科学探索的未来范式。


论文信息


KexinHuang*, Serena Zhang*, Hanchen Wang*, Yuanhao Qu*, Yingzhou Lu*, et al. "Biomni: A General-Purpose Biomedical AI Agent." bioRxiv, 2025. https://doi.org/10.1101/2025.05.30.656746.


斯坦福大学黄柯鑫、Serena Zhang、王瀚宸、屈元昊、陆荧洲 为本文的共同第一作者, 该论文由斯坦福大学Jure Leskovec, 丛乐,Michael Snyder以及基因泰克Aviv Regev指导。


*封面图片来源:123rf


如果您想对接文章中提到的项目,或您的项目想被动脉网报道,或者发布融资新闻,请与我们联系;也可加入动脉网行业社群,结交更多志同道合的好友。


图片


图片
图片
图片
声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。文中如果涉及企业信息和数据,均由受访者向分析师提供并确认。
动脉网,未来医疗服务平台
图片