近日,日本AI制药公司Elix与AI生命科学合作组织Life Intelligence Consortium(简称“LINC”)宣布,在全球首次实现了 AI 药物发现平台的商业化。
该平台整合了多个 AI 模型,使用联邦学习对 16 家制药公司提供的数据进行训练,并在AI药物发现平台 Elix Discovery™ 上部署实施。

值得注意的是,该模型的机器学习库,一款由Elix与京都大学合作开发的联邦学习库kMoL已于2021年开源发布。
该AI模型的开发是通过日本医学研究开发机构 (AMED) 领导的产学研项目(DAIIA:Development of a Next-generation Drug Discovery AI through Industry-academia Collaboration)推进的。
首批数据也来自于参与该项目的16家日本药企,包括卫材、小野制药、协和麒麟、武田制药等知名药企,后续可用数据池将扩大。
联邦大模型 破解数据难题
AI药物发现的关键,在于高质量和足够大的数据集。
制药公司通常仅限于利用自己的专有数据和公共数据集,导致严重的数据短缺,而联邦学习技术为这一挑战提供了解决方案。
联邦学习(Federated Learning)本质是一种分布式机器学习框架,它做到了在保障数据隐私安全及合法合规的基础上,实现数据共享,共同建模。
这一技术的核心在于“数据不动,模型动”,仅共享模型参数而不是数据本身,从而解决了医疗领域尤为重要的数据隐私问题。
通过该方法搭建的AI平台Elix Discovery™,使用了制药公司提供的100多万种化合物和超过1000万个数据点的结构数据进行训练。

该平台拥有三大关键模块:
Elix Predict(属性预测):通过将化合物结构输入到 AI 模型中,可以预测有关化合物的关键信息,例如针对目标的活性、物理化学性质和 ADMET 性质。
Elix Create(分子设计):生成式 AI 模型可以通过算法创建具有所需特性的化合物。分子可以针对许多因素进行优化,包括靶活性、物理化学性质、ADMET 和合成难易程度。
Elix Assist(主动学习):当可用的实验数据很少或没有可用数据时,该模型能根据优化算法建议收集下一组实验数据的化合物,从而能够以更少的实验来训练高性能模型。
关于生成式 AI,该公司计划扩展ChemTS 并整合 DyRAMO 等高级功能,以实现高效的多目标优化,并提高准确性和速度,目前该公司已与日本Kaken(科研制药)达成了合作。
还有哪些企业押注该技术?
在商业领域,AI医疗独角兽Owkin在这一技术领域钻研颇深,围绕药企和医院构建了联邦研究生态系统,作为一项保护隐私、可追溯、安全的技术框架,确保网络中的数据在确保隐私和合规的条件下被使用。
此外华为云也有一套名为FedAMP的个性化联邦学习整合算法。主打个性化特征,能检测每个产品方的模型权重,更好地区分好质量和差质量,以及正确Label和错误Label的参与方。
