90亿！上交团队发布全球最大蛋白质数据集

3月22日，由上海交通大学联合天鹜科技主办的“蛋白质功能预测Venus系列模型发布及产业合作峰会”举办。

会上，上海交通大学洪亮教授团队发布了最新成果，将AI与蛋白质设计与改造相结合，建立了全球最大的蛋白质数据集；

基于该数据集训练的模型，可以精准、高效地预测、设计蛋白质的功能，把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”。

据悉，该成果配合行业领先的自动化设备，已经进行产业化落地，例如活性高、稳定性强、产物纯的PET降解酶，用于超敏检测诊断的高活性碱性磷酸酶等。

全球最大的蛋白质序列数据集

本次发布的蛋白质序列数据集Venus-Pod（Venus-Protein Outsize Dataset）含有近90亿条蛋白质序列，包含数亿个功能标签。

该模型是全球数据规模最大、功能批注标签最多的数据集，也是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。

Venus系列模型具备两大核心功能：“AI定向进化”与“AI挖酶”。

所谓“AI定向进化”是指 Venus系列模型可以对一个不尽如人意的蛋白质产品的多种性能进行优化，让它成为一个“六边形战士”满足应用需求；

而“AI挖酶”则是指 Venus 系列模型基于其海量的未知功能蛋白质数据集，可以“海选超能力战士”，去精准发掘满足苛刻应用需求的具备超常规功能的蛋白质，比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。

这些超常规功能的蛋白质在生物技术、医药研发和工业生产中具有巨大的应用潜力，能够为相关领域带来创新和突破。

推荐阅读