当前,传统生物制造方法在知识整合、数据处理和实验设计方面面临诸多挑战,限制了其在工业化应用中的效率和可扩展性。
近日,中国科学院天津工业生物技术研究所生物设计中心开发了基于大预言模型(LLMs)的SynBioGPT菌种改造专家系统。
SynBioGPT整合了51,777篇文献摘要和23,318篇开放文献,可以用于查询问现、基因突变、产品查询和竞争途径探索。
目前,团队还打造SynBioGPT线上版本,用户注册后就可以体验。
地址:https://synbiogpt.biodesign.ac.cn
团队还表示,未来大语言模型将会彻底改变代谢建模和工程中的设计-构建-测试-学习 (DBTL) 周期,还将在生物制造中实现自动化实验室。
SynBioGPT
SynBioGPT模由中国科学院天津工业生物技术研究所生物设计中心马红武联合圣路易斯华盛顿大学Yinjie J. Tang研究团队共同发表。
当前,预训练好的模型基座+知识数据库是普遍的解决方式。从合成生物学文献中选择特征,这些特征是设计和预测生物制造性能的影响力因素。
尤其基因组学研究的测序数据(DNA/RNA/蛋白质)对语言模型具有天然的亲和力,非常适合整合进入大语言模型。
于是团队结合检索增强生成(RAG)后,大模型的回答准确性从25%显著提升至85%,其中Qwen1.5和Llama3模型表现尤为突出。为了进一步验证LLMs在生物制造中的应用潜力。
在合成生物学知识抽提和智能问答任务中的比较
大语言模型前景广阔
赋能DBTL
细胞工厂的开发离不开酶工程、途径设计和发酵优化,而DBTL(设计-构建-测试-学习)循环则是研发关键环节。
大语言模型可以为菌株工程提供有效策略。最近的一项研究证明,LLMs可以通过从超过29,000个条目中提取大规模代谢工程方法来增强DBTL循环,涵盖1210种产品和751种生物体。
另一项研究表明,具有RAG的模型不仅可以为酵母途径工程提供遗传靶点和实验设计,还可以引导新的生物合成途径假设。
