蛋白质是生命活动中不可或缺的分子机器,准确预测蛋白质的结构对于深入理解生命过程、揭示疾病机制以及开发新型药物具有至关重要的意义。
近年来,随着AI技术的飞速发展,蛋白质结构预测领域涌现出了一批如RoseTTAFold(2024年诺贝尔化学奖得主David Baker团队开发)等性能卓越的深度学习模型。
然而,这些先进模型往往需要消耗大量的计算资源,对于许多经费有限的科研机构,高昂的算力成本无疑是一道难以逾越的障碍。
在此背景下,南京理工大学、新加坡南洋理工大学、东南大学的研究团队开发了一款名为LightRoseTTA的全新轻量级深度图神经网络模型,其以高效的预测能力和极低的资源需求,为蛋白质结构预测领域带来了新的希望。

LightRoseTTA 具有三大亮点:
高精度的结构预测:在包括CASP14和CAMEO在内的多个流行数据集上性能媲美先进模型RoseTTAFold
极低的算力门槛:LightRoseTTA 仅需一张3090训练一周时间即可,相比之下,RoseTTAFold需要在8张英伟达V100上训练30天
对多序列比对(MSA)的低依赖性:在那些缺乏足够同源序列信息的蛋白质数据集上,LightRoseTTA的表现明显优于RoseTTAFold和其他依赖MSA的方法
目前LightRoseTTA的权重代码和测试数据已发布在GitHub上,更多的研究人员能够利用和改进这一技术。
开源地址:https://github.com/psp3dcg/LightRoseTTA
LightRoseTTA的亮点
该模型最引人注目的创新之一是其超轻量级的模型设计,LightRoseTTA仅包含140万个参数,这与RoseTTAFold等大型模型动辄上亿的参数量形成了鲜明对比。
更小的参数量意味着模型训练和预测所需的计算资源更少、时间更短,这使得在普通实验室甚至个人电脑上运行复杂蛋白质结构预测成为可能。
图:LightRoseTTA与RoseTTAFold在参数量、训练成本和测试成本的对比
为了在模型如此轻量级的情况下实现高精度预测,研究人员引入了一种名为骨架势能( BPE)的约束条件。
这种约束使得即使是相对较浅的神经网络也能够学习到复杂的骨架构象,从而在保证精度的同时减少了模型的复杂性。
许多蛋白质结构预测方法依赖于多序列比对(Multi-Sequence Alignment, MSA),即寻找与目标蛋白质序列相似的其他蛋白质序列。
然而,某些“孤儿蛋白”或新发现的蛋白质往往缺乏足够的同源序列信息。
LightRoseTTA通过一种创新的训练策略,在模型训练过程中采用了一种两阶段的同源序列抽样方法,使得模型在缺乏足够同源信息的情况下也能进行准确预测,降低了对MSA的依赖性。
这一特性对于研究那些进化上保守性较低或新出现的蛋白质至关重要,因为这些蛋白质往往在生物学研究中具有重要的意义。
性能媲美甚至超越RoseTTAFold
为了全面评估LightRoseTTA的性能,开发人员将其与RoseTTAFold等代表性模型在多个标准的蛋白质结构预测数据集上进行了细致的对比分析 。
在CASP14和CAMEO这两个权威的蛋白质结构预测竞赛数据集上,LightRoseTTA在TM-score和GDT_TS等关键指标上与RoseTTAFold的表现相当,甚至在某些情况下略有优势。

这充分表明,尽管模型结构轻量级,但其预测精度却能与最先进的大型模型相媲美。
更令人瞩目的是,在那些缺乏足够同源序列信息的蛋白质数据集上,例如Orphan、De novo和Orphan25 ,LightRoseTTA的表现明显优于RoseTTAFold和其他依赖MSA的方法。

此外,研究人员还测试了
LightRoseTTA在预测抗体结构方面的能力。
结果显示,经过针对抗体数据的微调后,LightRoseTTA(被称为LightRoseTTA-Ab)在预测抗体中一个非常重要的区域——互补决定区3的重链(CDR-H3)时,其均方根偏差(RMSDH3)值低于DeepAb、IgFold和Ablooper等专门的抗体结构预测模型,这表明LightRoseTTA在预测该关键区域时具有更高的精度。
LightRoseTTA是怎么炼成的?
LightRoseTTA在技术上采用了一种新颖的“骨架到全原子”的预测方法,这种方法类似于画家在绘画时先勾勒出物体的基本轮廓,然后再逐步填充细节。

图:LightRoseTTA的模型架构
模型核心架构包含两个主要的神经网络分支:残基级别分支和原子级别分支。
残基级别分支主要负责处理蛋白质序列中基本组成单元——氨基酸残基之间的相互作用。为了实现这一目标,该分支利用了多种先进的技术,包括共进化学习模块、混合卷积神经网络(CNN)模块以及残基图学习模块。
原子级别分支则更加关注蛋白质结构中的每一个原子,特别是连接在蛋白质主链上的侧链原子。
为了综合利用这两个分支学习到的信息,LightRoseTTA采用了一种称为变分学习的技术,能够有效地将原子级别分支学习到的侧链信息融入到残基级别分支的骨架预测中,使得模型能够同时考虑蛋白质的整体结构和局部原子细节。
最后,模型使用一种特殊的神经网络结构——SE(3)-Transformer,将融合后的特征转化为蛋白质的三维原子坐标,从而完成蛋白质结构的预测。
结论
作为一种轻量级但高精度的蛋白质结构预测模型,LightRoseTTA的出现标志着蛋白质结构预测领域的一个重要进步。
LightRoseTTA在降低计算成本、提高预测效率以及处理MSA信息不足的蛋白质方面的优势,使其成为研究人员的有力工具。
随着LightRoseTTA的开源,我们有理由相信,它将在未来的生物学研究和药物开发中发挥越来越重要的作用,为揭示生命奥秘和改善人类健康做出更大的贡献。
推荐阅读