酶在生活中发挥着着举足轻重的作用,关系着食品、医药、环境等方方面面。
酶工程则对提升酶活性至关重要,提升了生产效率、改善了生活质量,并推动了可持续发展。
以往优化设计酶时,科学家通常必须从自然界已知的酶开始,然后对酶进行更改以执行所需的功能,也被称为“定向进化”。
而传统的定向进化方法受到低通量筛选和受限序列探索的限制,使酶优化缓慢而繁琐。
传统的酶工程方法通常需要大量的实验和试错,耗时且成本高昂。随着AI预测和设计蛋白质的蓬勃发展,机器学习已成为酶工程的重要工具。
近日,由斯坦福和西北大学的研究团队表示,他们开发了一种基于机器学习引导的无细胞基因表达(CFE)系统,用于加速生物催化剂的设计。
通过AI模型+CFE系统,使得酶的设计和进化时间能够在短短几天内完成,而不是传统的几周或者几个月。
这个由生物工程师和合成生物学家共同发表的研究成果,正在以“通过机器学习引导的无细胞表达加速酶工程”为题发表在《自然通讯》上。
活性提升42倍
这种方法的核心是利用CFE系统快速合成和功能测试蛋白质,结合设计-构建-测试-学习(DBTL)工作流程,通过减少筛选负担来加速生物催化的同步定向进化活动。
验证过程中,团队利用该平台对 10953 个独特反应中的 1217 种酶变体的底物偏好进行评估,从而设计出酰胺合成酶。
机器学习赋能的无细胞酶工程平台
简单来说,使用增强的岭回归模型(ridge regression)结合零样本预测(zero-shot prediction)快速绘制酶序列-功能关系,用于预测更高阶突变体的活性,从而减少了搜索空间并提高了成功率。
另一个关键点是,研究人员使用CFE系统来生成序列功能数据,大大加快了蛋白质表达和评估的速度,使得整个过程可以在数小时内完成,而不是数天或数周。
CFE系统指的是无细胞基因表达系统(Cell-Free Expression System),也称为无细胞蛋白质合成系统。这是一种在细胞外环境中利用细胞提取物进行蛋白质合成的技术。
CFE能够在试管中模拟细胞的蛋白质合成过程,大大加快了蛋白质表达和评估的速度,使得整个过程可以在数小时内完成,而不是数天或数周。
通过机器学习模型,研究者们能够将一个通用酶转化为多个具有不同特异性的专家酶,可用于合成多种高价值化合物,活性相对于野生型酶提高了1.6到42倍。
研究者们以McbA酶为例,这是一种来自耐热海洋放线菌的ATP依赖型酰胺键合成酶,具有广泛的底物耐受性。
他们通过评估McbA的酶促底物杂泛性,探索了其可能的酰胺反应空间,并选择了三种高价值分子作为目标产物。
通过1100个独特的反应,研究者们发现McbA能够合成11种药物化合物和数十种混合分子。
在探索的 1217 个高阶变体中,研究人员能够确定 19 个对生物催化至关重要的关键残基位置。这些工程变体的活性提高了 1.6 到 42 倍,其中一种实现了 96% 的吗氯贝胺合成转化率。
同时,经过AI模型引导的定向进化预测高度活跃的突变体,与迭代位点饱和诱变相比,筛选负担更低。

图:AI赋能的定向进化预测高度活跃的突变体筛选负担更低
这也意味着,未来科学家能够在电脑上完成迭代提高酶活性,大大减少实验室的成本和精力。
未来潜力无穷
总结而言,上述方法显著提高了酶活性,为生物催化剂工程提供了可扩展的高通量策略。
通过与AI结合的酶工程,有效催化效率提高了 42 倍,具有广泛的制药和工业应用潜力。当前团队正在寻找寻找制药合作伙伴来进一步开发该模型。
不过,团队主要研究了酰胺键的形成,尽管该反应在从制药到食品的许多不同领域都很重要,但模型在处理某些大分子或脂肪族底物时遇到了困难。
项目负责人斯坦福大学生物工程教授Michael Jewett表示,之后团队有兴趣扩展模型,以指导许多不同类型的化学反应中的催化或酶功能。
Jewett 说:“我们可以探索可持续性和生物经济方面的多种机会。包括环境降解环境中毒素、提高富含蛋白质的食物的生物利用度的分子类别,或者其他采用需要高压、昂贵组件或毒性反应的现有过程的分子,并使它们更快、更安全、更便宜。
不过,数据仍然是AI+酶工程最大的痛点。因为AI需要大量高质量、高数量的功能数据,但现在业内关于酶功能数据还非常稀缺。
Jewett 指出,在这项研究中最终能够评估约 1,000 种产品和约 10,000 种化学反应中的约 3,000 种酶突变体,但他的数据需求则远远高于这个级别。
此外,随着科学越来越频繁地使用机器学习模型来加速设计,这些数据需求只会增加。
“如果我想突变一种酶来测试数以万计的变体,”Jewett 说,“我可能会在那里找到论文,但他们可能会报告十个变体的突变数据,不是几百个甚至数万个反应,因此,我们在数据方面还有很长的路要走,现在这是第一步。