近日,日本AI制药公司Elix与AI生命科学合作组织Life Intelligence Consortium(简称“LINC”)宣布在全球首次实现了 AI 药物发现平台的商业化。


该平台整合了多个 AI 模型,使用联邦学习对 16 家制药公司提供的数据进行训练,并在AI药物发现平台 Elix Discovery™ 上部署实施。


图片


值得注意的是,该模型的机器学习库,一款由Elix与京都大学合作开发的联邦学习库kMoL已于2021年开源发布。


开源 URL:https://github.com/elix-tech/kmol


该AI模型的开发是通过日本医学研究开发机构 (AMED) 领导的产学研项目(DAIIA:Development of a Next-generation Drug Discovery AI through Industry-academia Collaboration)推进的。


首批数据也来自于参与该项目的16家日本药企,包括卫材、小野制药、协和麒麟、武田制药等知名药企,后续可用数据池将扩大。


联邦大模型 破解数据难题


AI药物发现的关键,在于高质量和足够大的数据集。


制药公司通常仅限于利用自己的专有数据和公共数据集,导致严重的数据短缺,而联邦学习技术为这一挑战提供了解决方案。


联邦学习(Federated Learning)本质是一种分布式机器学习框架,它做到了在保障数据隐私安全及合法合规的基础上,实现数据共享,共同建模。


这一技术的核心在于数据不动,模型动”,仅共享模型参数而不是数据本身,从而解决了医疗领域尤为重要的数据隐私问题


通过该方法搭建的AI平台Elix Discovery™,使用了制药公司提供的100多万种化合物和超过1000万个数据点的结构数据进行训练。


图片


该平台拥有三大关键模块:


Elix Predict(属性预测):通过将化合物结构输入到 AI 模型中,可以预测有关化合物的关键信息,例如针对目标的活性、物理化学性质和 ADMET 性质。


Elix Create(分子设计):生成式 AI 模型可以通过算法创建具有所需特性的化合物。分子可以针对许多因素进行优化,包括靶活性、物理化学性质、ADMET 和合成难易程度。


Elix Assist(主动学习):当可用的实验数据很少或没有可用数据时,该模型能根据优化算法建议收集下一组实验数据的化合物,从而能够以更少的实验来训练高性能模型。


图片


关于生成式 AI,该公司计划扩展ChemTS 并整合 DyRAMO 等高级功能,以实现高效的多目标优化,并提高准确性和速度,目前该公司已与日本Kaken(科研制药)达成了合作。


还有哪些企业押注该技术?


早在2020年,欧盟的MELLODDY计划就联合了10家制药公司,在三年内使用超过2100万种小分子药物候选物的药理学和毒理学数据训练了共享的联邦学习模型。


在商业领域,AI医疗独角兽Owkin在这一技术领域钻研颇深,围绕药企和医院构建了联邦研究生态系统,作为一项保护隐私、可追溯、安全的技术框架确保网络中的数据在确保隐私和合规的条件下被使用。


图片


此外华为云也有一套名FedAMP的个性化联邦学习整合算法。主打个性化特征,能检测每个产品方的模型权重,更好地区分好质量和差质量,以及正确Label和错误Label的参与方。


图片

学术领域,来自赛诺菲、诺华、默克、基因泰克等药企的专家提出了一种叫FLuIDFederated Learning using Information Distillation)的新型联邦学习框架。

通过知识蒸馏(Knowledge Distillation)技术,在保护数据隐私的前提下实现了跨机构药物发现知识的共享与整合,相关论文于2025年3月,发布于Nature Machine Intelligence。



推荐阅读