提速1400倍,准确标注酶活性位点,浙大、澳门理工多模态深度学习方法,登Nature子刊

编辑 | 萝卜皮注释酶中的活性位点对于药物发现、疾病研究、酶工程和合成生物学等多个领域的发展至关重要。尽管已经开发出许多自动注释算法,但速度和准确性之间的重大权衡限制了它们的大规模实际应用。浙江大学、澳门理工大学等机构的联合研究团队引入了 EasIFA,一种酶活性位点注释算法,它融合了来自蛋白质语言模型和 3D 结构编码器的潜在酶表示,然后使用多模态交叉注意框架将蛋白质水平信息与酶促反应知识对齐。EasIFA 比 BLASTp 速度提升 10 倍,召回率、准确率、f1 分数和 MCC 分别提升 7.57%、13.0

图片

编辑 | 萝卜皮

注释酶中的活性位点对于药物发现、疾病研究、酶工程和合成生物学等多个领域的发展至关重要。尽管已经开发出许多自动注释算法,但速度和准确性之间的重大权衡限制了它们的大规模实际应用。

浙江大学、澳门理工大学等机构的联合研究团队引入了 EasIFA,一种酶活性位点注释算法,它融合了来自蛋白质语言模型和 3D 结构编码器的潜在酶表示,然后使用多模态交叉注意框架将蛋白质水平信息与酶促反应知识对齐。

EasIFA 比 BLASTp 速度提升 10 倍,召回率、准确率、f1 分数和 MCC 分别提升 7.57%、13.08%、9.68% 和 0.1012。

它还超越了基于经验规则的算法和其他基于 PSSM 特征的最先进的深度学习注释方法,在提高注释质量的同时实现了 650 到 1400 倍的速度提升。这使得 EasIFA 成为工业和学术环境中传统工具的合适替代品。

EasIFA 还可以有效地将从粗略注释的酶数据库获得的知识转移到较小的高精度数据集,突出了其对稀疏和高质量数据库进行建模的能力。

此外,EasIFA 还显示出作为催化位点监测工具的潜力,可用于设计具有超出其自然分布所需功能的酶。

该研究以「Multi-modal deep learning enables efficient and accurate annotation of enzymatic active sites」为题,于 2024 年 8 月 27 日发布在《Nature Communications》。

图片

注释酶活性位点具有挑战性

酶作为生化反应的催化剂,在加速生物系统内外的化学反应中起着至关重要的作用。它们对于促进生长、新陈代谢和预防疾病等维持生命的过程至关重要。酶活性主要由活性位点的三维结构决定,这使得酶能够特异性地结合某些底物并催化化学转化。

尽管 DNA 测序技术的进步使得研究人员能够每天从不同物种和来源获得大量的酶序列,但准确注释活性位点仍然是一项艰巨的挑战。

UniProt 数据库显示,尽管已鉴定出超过四千万个酶序列,但其中只有不到 0.7% 的序列对其活性位点进行了高质量的注释。鉴于测序酶的年增长率惊人,通过实验技术对所有酶进行注释是不现实的。

尽管已经开发出可靠的方法来注释酶的功能(例如,预测酶的佣金数量),并且已经投入了大量研究来开发用于预测蛋白质活性位点的算法,但仍然缺乏可靠、快速且强大的工具来注释酶活性位点。

这主要是因为预测酶活性位点本身就很复杂,因为工具需要精确了解酶与其特定底物之间的关系以及反应类型,并区分各种类型的活性位点,例如直接参与反应的结合位点和催化位点。

此外,高质量的酶活性位点注释数据稀缺。这些因素对传统的蛋白质活性位点预测工具提出了重大挑战。

因此,准确预测酶活性位点的方法对于生物学、药理学和生物工程领域的各种科学研究至关重要。正确理解酶促反应对于推进药物设计和发现、阐明疾病机制和促进酶工程的进展有着重要意义。

新的多模态 DL 方法应对挑战

为了解决现有酶活性位点注释算法所面临的挑战,浙江大学、澳门理工大学等机构的联合研究团队提出了一种基于深度学习的酶活性位点注释算法 EasIFA。

图片

图示:EasIFA 模型架构。(来源:论文)

EasIFA 的创新之处在于:

(1)使用 PLMs-Structure 融合方法来表示酶,从而生成更全面的酶结构信息描述;

(2)通过基于图注意网络的反应表示分支引入特定的酶反应作为附加特征,并在大型有机化学数据集上进行预训练,可以表示相对有限的酶反应信息;

(3)使用基于注意机制的可解释跨模态交互网络将酶反应信息整合到酶表示中,即将酶和其催化的生化反应的表征结合起来,完成活性位点注释的任务。

通过多次计算验证,EasIFA 算法不仅在 (1) 定位活性位点和 (2) 注释其类型的预测准确度方面优于所有基准算法,而且还表现出卓越的预测速度。

图片

图示:SwissProt E-RXN ASA 测试集中的性能指标。(来源:论文)

在 SwissProt E-RXN ASA 数据集上的实验结果表明,EasIFA 在注释酶活性位点方面明显优于目前主流算法(即 BLASTp、AEGAN 和 SiteMap)。

此外,与在催化位点预测任务中表现出类似性能的基于 PSSM 特征的图网络算法相比,EasIFA 算法的推理速度提高了约 1400 倍。

具体来说,EasIFA 比最先进的模型 AEGAN 快 1300 倍,比使用整个 SwissProt 作为知识库的 BLASTp 快 10 倍,召回率额外提升了 7.85%。

得益于 EasIFA 在注释酶活性位点方面的高质量和极快的速度,研究人员还基于该算法开发了一个用户友好的网络服务器计算工具。

图片

相关工具:http://easifa.iddd.group

为了克服不同数据库中相同酶活性位点的注释趋势和标准的显著差异,研究人员采用了迁移学习的方法,尝试在具有不同注释特征和趋势的酶活性位点库之间进行知识转移。

这使得在大型、粗略注释的数据库上训练的模型可以转移到较小的、精细注释的数据集上。在 MCSA 等高质量数据库上训练的 EasIFA 模型有望与 EzMechanism 等自动酶机制注释方法产生协同作用,扩大酶反应催化机制数据库的知识领域。

EasIFA 能够从大规模、相对粗略的注释数据训练过渡到高质量、手动注释的酶催化位点机制数据集,并保持高水平的预测准确性。经过转移训练的 EasIFA 模型有望与 EzMechanism 等自动酶催化机制预测方法协同工作,增强酶反应催化机制数据库的覆盖范围。

图片

图示:用于支架活性位点酶设计的活性监测器和可解释的案例研究。(来源:论文)

另外,研究人员探索了 EasIFA 作为催化位点监测器在具有挑战性的酶设计任务中的潜力,并开发了一种工作流程,将从天然酶中学到的活性位点知识扩展到更广泛的人工酶领域,这些人工酶可能来自完全不同的分布。

EasIFA 算法的酶反应信息相互作用网络可以通过注意力机制提取酶与其特定反应之间的机制信息。可视化突出显示与催化残基最相关的反应底物原子,具有很高的可解释性。

结语

总体而言,EasIFA 可以轻松取代业界和学术界常用的标准注释工具。在大多数情况下,它可以稳健地处理大规模酶活性位点注释任务,减轻研究人员的负担和成本,并促进药物设计、疾病机制阐明和酶工程的发展。

论文链接:https://www.nature.com/articles/s41467-024-51511-6

相关资讯

优于人类专家,GPT-4 准确注释单细胞类型,成本低且稳健

编辑 | 萝卜皮GPT-4 是一种专为语音理解和生成而设计的大型语言模型。哥伦比亚大学梅尔曼公共卫生学院(Columbia University Mailman School of Public Health)的 Wenpin Hou 和杜克大学医学院(Duke University School of Medicine)的 Zhicheng Ji 证明,大语言模型 GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。「注释单个细胞的细胞类型的过程通常非常耗时,需要人类专家比较跨细胞簇的基

新SOTA,仅几个标记基因即可自动标记,复旦大学开发空间转录组学语义注释贝叶斯框架

编辑 | 萝卜皮空间转录组学的出现,彻底改变了组织内基因表达的研究。然而,注释空间点的生物特性仍然是一个挑战。为了解决这个问题,复旦大学的研究人员引入了 Pianno,一个基于标记基因自动进行结构语义注释的贝叶斯框架。Pianno 在精确注释各种空间语义(从不同的解剖结构到复杂的肿瘤微环境)以及估计细胞类型分布(跨各种空间转录组学平台生成的数据)方面的卓越能力。研究人员使用 Pianno 结合聚类方法,揭示了人类新皮质深层 3 中区域和物种特异性的兴奋性神经元亚型,展示了人类新皮质的细胞进化过程。Pianno 作为

Meta 推出“自学评估器”:无需人工注释改善评估,性能超 GPT-4 等常用 AI 大语言模型评审

Meta 公司为了缓解自然语言处理(NLP)技术依赖人类注释评估 AI 模型的问题,最新推出了“自学评估器”(Self-Taught Evaluator),利用合成数据训练 AI。NPU 技术挑战NPU 技术的发展,推动大型语言模型(LLMs)高精度地执行复杂的语言相关任务,实现更自然的人机交互。不过当前 NPU 技术面临的一个重要挑战,就是评估模型严重依赖人工注释。人工生成的数据对于训练和验证模型至关重要,但收集这些数据既费钱又费时。而且随着模型的改进,以前收集的注释可能需要更新,从而降低了它们在评估新模型时的效