英伟达开源!有史以来最大蛋白质复合物数据库
2026年4月10日
近日,英伟达联合 EMBL-EBI、Google DeepMind 及首尔国立大学发布史上最大开源蛋白质复合体数据库。该数据库包含170万个蛋白质复合体结构,现在向全世界的科学家免费开放,有望成为新药研发和疾病研究的关键基础设施。该数据集基于AlphaFold-Multimer生成,利用英伟达 H100 GPU 集群,完成蛋白质组规模的同源 / 异源蛋白复合物结构预测,大幅扩充 AFDB 数据库。这也是首次在 AFDB 提供高可信度蛋白复合物结构,支撑系统生物学、药物研发、蛋白质生成建模等下游应用。经过测算,加速后的OpenFold(集成 TensorRT 与 cuEquivariance),预测精度与 ColabFold 相当,速度显著提升。近年来,英伟达加强了对生命科学基础模型和数据基础的投入。今年1月,英伟达和礼来达成一项重磅合作。双方未来5年将共同投资10亿美元,共建全球首个"AI药物共创实验室",以提升药物发现水平。
标志着英伟达的直接参与定义AI制药的未来研发范式——通过构建融合顶尖计算、AI模型与自动化机器人的一体化实验室,试图系统性攻克药物研发的难题。
不久前,英伟达发布了一款蛋白质模型Protein-Complexa。
英伟达称,这是当前最先进的蛋白质开源基础模型,它一步就能生成蛋白质的序列和原子级结构,开箱即用。
研发团队做了史上最大规模的湿试验验证。针对127 靶点中,86个达到命中,91.2%为靶点特异性。单个蛋白质下,命中率高达63.5%, 且有皮摩尔级亲和力,有望直接成药。
从最大蛋白复合物数据库的开源,到一步生成原子级结构的基础模型,再到 AI 药物共创实验室的落地,英伟达正将生命科学的探索从单点突破推向体系化革新。推荐阅读