图片

 

最近,AI霸主英伟达市值突破了4万亿美元,成为全球最重要的股票之一。

 

同样,黄仁勋造就了一个财富奇迹,从不善言辞的工程师,到财富超越巴菲特老爷子。

 

谁能成为AI时代的黄仁勋?

 

不过,老黄明确表示人人都必须学会计算机的时代过去了,人类生物学才是未来。

 

图片

 

在他看来,未来生命科学会像传统行业(比如汽车和软件)那样高度工程化,走向理性设计时代。


我相信,我们将实现计算机辅助药物设计。因为我们现在能够表示基因、蛋白质,甚至是细胞,几乎可以理解一个细胞的意义了。

 

像设计芯片一样从头设计蛋白质?这放到以往可以说是天方夜谭,但现在已经从科幻走进现实。

 

今天,英伟达联合加拿大魁北克人工智能研究所Mila,推出了一款全新AI+蛋白质基础生成模型La-Proteina ,能够生成全原子级别的蛋白质结构和序列!

 


这是蛋白质设计领域的重大突破。

 

La-Proteina能够高精度生成多达800个残基的蛋白质,而大多数现有模型在处理如此长的蛋白质时会失败甚至直接宕机



这一功能,这对于蛋白质工程和药物设计具有重要意义。例如,在酶设计中,可以精确地设计活性位点的结构,从而提高酶的催化效率。

 

在英伟达的加持下,模型的计算效率也大大提高,A100 GPU生成800残基蛋白仅需13.5

 

这也意味着,AI蛋白质从头生成领域走向成熟,能够快速产生更完整,更有生物物理学意义的蛋白质。


生物分子正在进入设计时代。

 

蛋白质从头生成,新突破

 

从头生成蛋白质,并不是一个全新的概念。

 

尽管AI近两年在蛋白质生成上面进展迅速,但在设计精度上仍然不足。

 

之前的成果中,已经能够成功解决高质量的蛋白质骨架设计问题,但完全原子结构的生成带来了新的挑战

 

这也意味着设计者必须从零开始构建蛋白质的结构和序列,并且在氨基酸维度进行建模,任务难度较高

 

La-Proteina的核心创新在于其部分潜在蛋白质表示流匹配"框架。

 

该框架专为联合生成蛋白质序列和全原子结构而设计,有效地将显式骨架建模与固定大小的残基潜在表示相结合,实现高效快速采样,以捕获序列和原子侧链。


图片

La-Proteina的模型结构

 

这种方法解决了蛋白质生成中的一个关键挑战显式侧链表示的维度可变性。

 

该模型在长链上实现了超过75%的共设计性,远超基线模型的两倍。


共设计性这一指标至关重要,因为它表明了生成结构与其相应序列保持稳定和可折叠的可能性。此外,该模型生成了更多样化的新型蛋白质结构,增加了发现新功能候选分子的机会。

 

此外,La-Proteina能够一次生成长达800个残基的共设计蛋白质。


图片

图:La-Proteina 可以生成多达 800 个残基的多样化的蛋白质骨架


此前,在这一长度范围内,大多数模型因计算限制和内存限制而程序崩溃,无法生成有效样本。

 

而能够生成长达800个残基的蛋白质,不仅仅是增量改进,而是一个质的飞跃,它使得设计以前生成式人工智能无法触及的复杂、生物学相关蛋白质成为可能。

 

人类的平均蛋白质长度为510个残基,但许多功能性蛋白质,特别是治疗性抗体或酶,都是大型分子。

 

La-Proteina800个氨基酸的生成能力意味着,它能够设计出远超人类平均蛋白质大小的蛋白质,甚至包括大型且复杂的蛋白质。

 

这直接解决了先前模型在处理此类长度时,因为模型直接崩溃,而无法生成样本的限制。这意味着可设计蛋白质类型的显著扩展,为复杂的生物工程开辟了新途径。

 

而为了验证分子的有效性,研究团队还评估了 La-Proteina 生成结构的生物物理质量包括评估键角物理指标。结果表明,La-Proteina 产生更高质量的结构,得分明显优于所有基线。


图:La-Proteina的蛋白质结构效度


也就是说,La-Proteina生成的分子接近于真实物理世界的蛋白质!

  

更值得一提的是,在英伟达强大的算力和工程能力支持下,A100 GPU生成800残基蛋白仅需 13.5这将极大地加快产业应用度。

 

图片

图:单个A100GPU上的计算速度

模型代码即将开源目前预印本论文已经上线arXiv涵盖了各种细节技术进行业期待行业的复现与改进。


项目页面:
https://research.nvidia.com/labs/genair/la-proteina/#samples

预印本:

https://arxiv.org/abs/2507.09466

 

英伟达的AI生命科学野心

 

如今,英伟达已经成为AI+生命科学领域的关键推动者。

 

英伟达表示,医疗保健业务在2026财年ARR将超10亿美元,未来,医疗保健和生命科学领域存在1000亿美元AI计算机会。

 

为此,英伟达正在AI+生命科学的投入不断加大,通过基础模型、计算平台、投资合作成为生态的建构者。

 

此前,Arc Institute联合斯坦福大学发布了全球最大开源AI 生物学模型Evo2高达400亿参数能够执行跨 DNARNA 和蛋白质的通用预测和设计任务

 

Evo2震惊了整个学界,背后就有英伟达的大手笔赞助

 

Evo2在英伟达DGX Cloud AI 平台上训练,使用了2000多张H100 GPU,最终使得Evo 2 能够使用比 Evo 1 多 30 倍的数据进行训练,一次推理的核苷酸数量是 Evo 1 的 倍以上。

 

2022年,英伟达发布生命科学服务平台BioNeMo,将目光瞄准了生命科学领域

 

BioNeMo打包了以下模型:蛋白质结构预测(AlphaFold2ESMFold 和 OpenFold)、蛋白质生成(ProtGPT2)、蛋白质嵌入生成(ESM-1nvESM-2)、分子生成(MegaMolBARTMoFlow)和分子对接(DiffDock),并且可以部署英伟达DGX云服务中。


如今,BioNeMo平台不仅支持生物分子模型的训练和部署,还集成了NVIDIA NIM微服务和BioNeMo Blueprints,优化了从模型开发到推理部署的整个流程,显著缩短了药物研发时间并降低了成本。

 

不仅如此,不差钱的英伟达正在全球搜寻具有成长潜力的AI+生物制药公司,以培养新兴制药公司对于算力的需求。

 

据智药局不完全统计,英伟达已经投资了13AI制药公司,涵盖小分子药物、蛋白质、单细胞、疾病研究等多个领域。

 

图片


在英伟达的支持下,随着行业技术的不断突破,我们将迎来生命科学的设计与工程化时代。



—The End—

推荐阅读