AIGC宇宙 AIGC宇宙

西湖大学开发ESM-Ezy:一种用于挖掘高性能酶的深度学习策略

作者:ScienceAI
2025-04-11 02:24
图示:相关 MCO 的晶体结构。 (来源:论文)编辑 | 白菜叶UniProt 数据库是生物催化剂发现的宝贵资源,但预测酶功能仍然具有挑战性,尤其是对于低相似性序列。 识别具有增强催化性能的优质酶更加困难。

图片

图示:相关 MCO 的晶体结构。(来源:论文)

编辑 | 白菜叶

UniProt 数据库是生物催化剂发现的宝贵资源,但预测酶功能仍然具有挑战性,尤其是对于低相似性序列。识别具有增强催化性能的优质酶更加困难。

为了克服这些挑战,西湖大学的研究团队开发了 ESM-Ezy,这是一种利用 ESM-1b 蛋白质语言模型和语义空间相似性计算的酶挖掘策略。

利用 ESM-Ezy,研究人员鉴定出具有优异催化性能的新型多铜氧化酶 (MCO),在至少一项性能(包括催化效率、耐热、耐有机溶剂性以及 pH 稳定性)方面优于查询酶 (QE) 的成功率达到 44%。

值得注意的是,51% 的 MCO 在环境修复应用中表现出色,其中一些表现出独特的结构基序和独特的活性中心,从而增强了其功能。除 MCO 外,40% 的 L-天冬酰胺酶比 QE 具有更高的比活性和催化效率。

因此,ESM-Ezy 为发现具有低序列相似性的高性能生物催化剂提供了一种有前景的方法。

该研究以「ESM-Ezy: a deep learning strategy for the mining of novel multicopper oxidases with superior properties」为题,于 2025 年 4 月 6 日发布在《Nature Communications》。

图片

科学家通常会从通过序列相似性网络(SSN)分析确定的簇中随机选择候选酶。然而,这种反复试验的方法通常效率低下,并且会延长发现过程。

此外,尽管 PLM 最近已成功用于指导蛋白质工程、抗体设计、酶功能评估(如 CLEAN 和 TM-Vec)和远程同源性检测(如 PLMSearch),但它们尚未用于探索低序列同源性区域中酶的催化特性。西湖大学团队开发的 ESM-Ezy 解决了这些以前未解决的挑战。

图片

图示:ESM-Ezy 工作流程。(来源:论文)

ESM-Ezy 是一种由 ESM-1b 辅助的深度学习策略,用于探索具有低序列相似性的新型 MCO,从而以高成功率改善催化性能。

通过使用小型但高质量的数据集对 ESM-1b 进行微调,并根据与查询酶(QE)的较短欧几里得距离选择候选者,研究人员成功识别出具有低序列相似度(大多低于 35%)的新 MCO,表现出优异的催化性能。

图片

图示:对新挖掘的 MCO 和 QE 进行评估。(来源:论文)

几乎 89% 的测试 MCO 成功催化了 2,2'-连氮-双(3-乙基苯并噻唑啉-6-磺酸)二铵盐 (ABTS) 氧化,其中 44% 与 QE 相比,至少一种催化性能有所增强,包括更高的催化效率、更好的热和有机溶剂耐受性以及更宽的 pH 范围。

研究人员发现硫是迄今为止报道的最耐热的 MCO 之一,在 80°C 下半衰期长达 156.9 分钟,并首次用独特的 Cu-Mn 杂原子中心表征了 Bfre。

该团队还评估了新发现的 MCO 在无介质生物修复应用中的性能。53% 的 MCO 比 QE 更有效地使 Remazol Brilliant Blue R (RBBR) 脱色。Talbi 在室温下降解了氯霉素 (CAP),其性能优于之前的真菌系统。

此外,Bcece 在孵育 48 小时后显示出降解 39.4% 黄曲霉毒素 B1 (AFB1) 的能力,与其他细菌 MCO 在温和条件下相比,表现出更优异的无介质降解效率。

为了评估 ESM-Ezy 方法的普遍适用性,研究人员将其应用于 l-天冬酰胺酶(l-天冬酰胺酰胺水解酶;EC 3.5.1.1),该酶可催化 l-天冬酰胺水解为氨和 l-天冬氨酸。这种酶已显示出显著的治疗潜力,特别是在治疗儿童急性淋巴细胞白血病方面。

图片

图示:对新挖掘的 MCO 进行生物修复的评估。(来源:论文)

他们对 ESM-1b 进行了微调用于搜索 l-天冬酰胺酶。他们选择了来自枯草芽孢杆菌 168 的 l-天冬酰胺酶 (UniProt: O34482) 作为 QE,并确定了五种候选酶。

与 QE 相比,A0A3N5F6J4 和 H1D2G7 分别表现出约 2.0 倍和 4.1 倍的比活性以及 2.0 倍和 3.0 倍的 kcat。这些结果表明,ESM-Ezy 可以成功识别除氧化还原酶之外具有优异催化性能的酶。

总体而言,ESM-Ezy 帮助研究人员丰富了 MCO 库,提高了催化活性并增加了结构多样性,促进了它们在各种工业环境中的应用。

ESM-Ezy:https://github.com/westlake-repl/ESM-Ezy

论文链接:https://www.nature.com/articles/s41467-025-58521-y

相关标签:

相关资讯

仅根据蛋白质序列便可预测相互作用界面,一种基于Transformer的蛋白预测模型

编辑 | 萝卜皮蛋白质-蛋白质相互作用(PPI)对于生物过程至关重要,预测这些相互作用的位点对于计算和实验应用都很重要。杜克大学(Duke University)和康奈尔大学(Cornell University)的研究人员提出了一种与结构无关的语言Transformer和肽优先级(Structure-agnostic Language Transformer and Peptide Prioritization,SaLT&PepPr)管线,用于仅根据蛋白质序列预测相互作用界面,以用于后续生成肽结合基序。该模型通过
11/8/2023 2:43:00 PM
ScienceAI

5天完成6个月实验量,加速催化研究,「自动驾驶」催化实验室Fast-Cat登Nature子刊

编辑 | 紫罗「自动驾驶实验室」是未来?今年 1 月底,荷兰阿姆斯特丹大学开发自主化学合成 AI 机器人「RoboChem」。一周内,可以优化大约 10~20 个分子的合成。这需要博士生几个月的时间。还有去年 DeepMind 团队开发的自主实验室 A-Lab,17 天自主合成 41 种新化合物。卡内基梅隆大学的 Coscientist,自主设计、规划和执行复杂的科学实验......现在,来自美国北卡罗来纳州立大学和全球特种材料公司伊士曼化学公司(Eastman Chemical Company)合作,开发了一个「
3/1/2024 11:08:00 AM
ScienceAI

清华AIR等提出ESM-AA,首个从氨基酸到原子尺度的蛋白质语言模型

来自清华大学AIR、北京大学、南京大学的研究团队提出了 ESM-AA 模型。该模型在蛋白质语言建模领域取得了重要进展,提供了一套整合多尺度信息的统一建模方案。它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。模型的出色性能展示了多尺度统一建模在克服现有局限和解锁新能力方面的巨大潜力。作为基座模型,ESM-AA 获得了多位学者的关注与广泛讨论(截图见下方),被认为有潜力基于 ESM-AA 开发出可与 AlphaFold3、RoseTTAFold All-Atom 相竞争的模型,为研究不同生物结构间的相互作
6/28/2024 2:21:00 PM
ScienceAI