提速1400倍，准确标注酶活性位点，浙大、澳门理工多模态深度学习方法，登Nature子刊

编辑 | 萝卜皮注释酶中的活性位点对于药物发现、疾病研究、酶工程和合成生物学等多个领域的发展至关重要。尽管已经开发出许多自动注释算法，但速度和准确性之间的重大权衡限制了它们的大规模实际应用。浙江大学、澳门理工大学等机构的联合研究团队引入了 EasIFA，一种酶活性位点注释算法，它融合了来自蛋白质语言模型和 3D 结构编码器的潜在酶表示，然后使用多模态交叉注意框架将蛋白质水平信息与酶促反应知识对齐。EasIFA 比 BLASTp 速度提升 10 倍，召回率、准确率、f1 分数和 MCC 分别提升 7.57%、13.0

编辑 | 萝卜皮

注释酶中的活性位点对于药物发现、疾病研究、酶工程和合成生物学等多个领域的发展至关重要。尽管已经开发出许多自动注释算法，但速度和准确性之间的重大权衡限制了它们的大规模实际应用。

浙江大学、澳门理工大学等机构的联合研究团队引入了 EasIFA，一种酶活性位点注释算法，它融合了来自蛋白质语言模型和 3D 结构编码器的潜在酶表示，然后使用多模态交叉注意框架将蛋白质水平信息与酶促反应知识对齐。

EasIFA 比 BLASTp 速度提升 10 倍，召回率、准确率、f1 分数和 MCC 分别提升 7.57%、13.08%、9.68% 和 0.1012。

它还超越了基于经验规则的算法和其他基于 PSSM 特征的最先进的深度学习注释方法，在提高注释质量的同时实现了 650 到 1400 倍的速度提升。这使得 EasIFA 成为工业和学术环境中传统工具的合适替代品。

EasIFA 还可以有效地将从粗略注释的酶数据库获得的知识转移到较小的高精度数据集，突出了其对稀疏和高质量数据库进行建模的能力。

此外，EasIFA 还显示出作为催化位点监测工具的潜力，可用于设计具有超出其自然分布所需功能的酶。

该研究以「Multi-modal deep learning enables efficient and accurate annotation of enzymatic active sites」为题，于 2024 年 8 月 27 日发布在《Nature Communications》。

注释酶活性位点具有挑战性

酶作为生化反应的催化剂，在加速生物系统内外的化学反应中起着至关重要的作用。它们对于促进生长、新陈代谢和预防疾病等维持生命的过程至关重要。酶活性主要由活性位点的三维结构决定，这使得酶能够特异性地结合某些底物并催化化学转化。

尽管 DNA 测序技术的进步使得研究人员能够每天从不同物种和来源获得大量的酶序列，但准确注释活性位点仍然是一项艰巨的挑战。

UniProt 数据库显示，尽管已鉴定出超过四千万个酶序列，但其中只有不到 0.7% 的序列对其活性位点进行了高质量的注释。鉴于测序酶的年增长率惊人，通过实验技术对所有酶进行注释是不现实的。

尽管已经开发出可靠的方法来注释酶的功能（例如，预测酶的佣金数量），并且已经投入了大量研究来开发用于预测蛋白质活性位点的算法，但仍然缺乏可靠、快速且强大的工具来注释酶活性位点。

这主要是因为预测酶活性位点本身就很复杂，因为工具需要精确了解酶与其特定底物之间的关系以及反应类型，并区分各种类型的活性位点，例如直接参与反应的结合位点和催化位点。

此外，高质量的酶活性位点注释数据稀缺。这些因素对传统的蛋白质活性位点预测工具提出了重大挑战。

因此，准确预测酶活性位点的方法对于生物学、药理学和生物工程领域的各种科学研究至关重要。正确理解酶促反应对于推进药物设计和发现、阐明疾病机制和促进酶工程的进展有着重要意义。

新的多模态 DL 方法应对挑战

为了解决现有酶活性位点注释算法所面临的挑战，浙江大学、澳门理工大学等机构的联合研究团队提出了一种基于深度学习的酶活性位点注释算法 EasIFA。

图示：EasIFA 模型架构。（来源：论文）

EasIFA 的创新之处在于：

（1）使用 PLMs-Structure 融合方法来表示酶，从而生成更全面的酶结构信息描述；

（2）通过基于图注意网络的反应表示分支引入特定的酶反应作为附加特征，并在大型有机化学数据集上进行预训练，可以表示相对有限的酶反应信息；

（3）使用基于注意机制的可解释跨模态交互网络将酶反应信息整合到酶表示中，即将酶和其催化的生化反应的表征结合起来，完成活性位点注释的任务。

通过多次计算验证，EasIFA 算法不仅在 (1) 定位活性位点和 (2) 注释其类型的预测准确度方面优于所有基准算法，而且还表现出卓越的预测速度。

图示：SwissProt E-RXN ASA 测试集中的性能指标。（来源：论文）

在 SwissProt E-RXN ASA 数据集上的实验结果表明，EasIFA 在注释酶活性位点方面明显优于目前主流算法（即 BLASTp、AEGAN 和 SiteMap）。

此外，与在催化位点预测任务中表现出类似性能的基于 PSSM 特征的图网络算法相比，EasIFA 算法的推理速度提高了约 1400 倍。

具体来说，EasIFA 比最先进的模型 AEGAN 快 1300 倍，比使用整个 SwissProt 作为知识库的 BLASTp 快 10 倍，召回率额外提升了 7.85%。

得益于 EasIFA 在注释酶活性位点方面的高质量和极快的速度，研究人员还基于该算法开发了一个用户友好的网络服务器计算工具。

提速1400倍，准确标注酶活性位点，浙大、澳门理工多模态深度学习方法，登Nature子刊

相关资讯