3月22日,由上海交通大学联合天鹜科技主办的“蛋白质功能预测Venus系列模型发布及产业合作峰会”举办。
会上,上海交通大学洪亮教授团队发布了最新成果,将AI与蛋白质设计与改造相结合,建立了全球最大的蛋白质数据集;
基于该数据集训练的模型,可以精准、高效地预测、设计蛋白质的功能,把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”。

据悉,该成果配合行业领先的自动化设备,已经进行产业化落地,例如活性高、稳定性强、产物纯的PET降解酶,用于超敏检测诊断的高活性碱性磷酸酶等。
全球最大的蛋白质序列数据集
本次发布的蛋白质序列数据集Venus-Pod(Venus-Protein Outsize Dataset)含有近90亿条蛋白质序列,包含数亿个功能标签。
该模型是全球数据规模最大、功能批注标签最多的数据集,也是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。