AIGC宇宙 AIGC宇宙

召回率98.5%,开源混合学习系统精准预测生物大分子中金属结合位点

作者:ScienceAI
2025-04-11 02:13
编辑丨&金属离子是许多蛋白质中用于蛋白质功能推断和工程化的重要成分,其复杂性与结构催化等作用有关。 现如今的技术在应对过渡金属离子的建模,特别是在瞬时、可逆和浓度依赖性调节位点等难题时,显得有些乏力。 汕头大学医学院、湖南大学与美国弗吉尼亚大学(University of Virginia)带来了一种混合机器学习系统,名为 PinMyMetal(PMM)。

图片

编辑丨&

金属离子是许多蛋白质中用于蛋白质功能推断和工程化的重要成分,其复杂性与结构催化等作用有关。现如今的技术在应对过渡金属离子的建模,特别是在瞬时、可逆和浓度依赖性调节位点等难题时,显得有些乏力。

汕头大学医学院、湖南大学与美国弗吉尼亚大学(University of Virginia)带来了一种混合机器学习系统,名为 PinMyMetal(PMM)。这个系统旨在准确预测生物大分子中的过渡金属定位和环境,适用于四面体和八面体几何形状。

PMM 优于其他预测因子,在配体和坐标预测方面实现了很高的准确性。它擅长预测调节位点(中位偏差 0.36 Å),在定位催化位点(0.33 Å)和结构位点(0.19 Å)方面表现出卓越的准确性。

该研究以「PinMyMetal: a hybrid learning system to accurately model transition metal binding sites in macromolecules」为题,于 2025 年 3 月 28 日刊登于《Nature Communications》。

图片

模型使用与测试

PMM 系统采用混合学习方法,根据不同的几何形状来识别 MBS。对于四面体配位,该算法使用基于 CH 的方法,专注于 C 和 H 残基,而对于八面体配位,它采用基于 EDH 的方法,考虑 E、D 和 H 残基的组合。

在这个系统中,基于 CH 和 EDH 几何结构的模型需要大量修改,以适应这些金属的不同化学性质、较弱的配体结合和更灵活的配位。

系统首先应用几何约束来识别候选位点,重点关注基于特定氨基酸组成的适用于四面体和八面体几何形状的配体对。然后以完整协调性的一半进行区分,划分为低协调位点的集成学习模型(LCS)与高协调位点的 Pearson 相关系数(HCS)。

预测的配体与至少 50% 的实际配体重叠时,被标记为正预测。在如锰,铁等过渡金属上,这类高准确性的召回率超过了90%。不过由于某些并发症,该程序可能会将某些实验位点排除在考虑范围之外,例如配体之间距离超过 4.5 Å 的位点或配位原子为主链肽键的 N 或 O 的位点。

在混合系统中,团队采用不同的策略为 LCS 和 HCS 的候选站点分配确定性分数。对前者采用了两个独立的集成学习模型,分别检测 CH 站点与 EDH 站点;对后者则计算其预测位点曲线与相同算法对函数值 C 的相应标准曲线之间特殊系数的平均值。

图片

图示:预测低配位 CH 和 EDH 位点的性能指标。(图源:论文)

对于金属类型识别,团队还使用测试集和 Metal3D 中看不见的数据集来评估模型。两个数据集的混淆矩阵都表明,PMM 在预测 Mn 和 Zn 结合位点方面表现稳健。

具体点来说,Mn 在测试集中的准确率为 88.6%,Zn 为 65.9%,而 VIII 的预测准确率在测试集中为 57.5%,这表明,虽然 PMM 可以有效地区分 Mn 和 Zn,但在区分 VIII 与 Mn 或 Cu 方面仍然存在挑战。

除了准确预测已知的实验结合位点外,PMM 还识别了许多未知的、推定的 MBS,包括未在实验结构中确定的 LCS 和 HCS。

虽然分辨率不足可能不支持此模型中金属离子的直接原子建模,但 PMM 提供了一种替代方法来模拟中低分辨率冷冻电镜结构中与金属离子有关的配位键。

此外,PMM 不仅准确预测蛋白质结构中的金属 MBS,还准确预测复杂结构下的金属 MBS,并成功预测了由残基 C670、C667、C685 和 C688 协调的锌结合位点,与实验确定的位点的最小距离偏差为 0.025 Å。

图片

图示:PMM 预测的锌结合位点。(图源:论文)

相较于其他预测变量

PMM 与其他 MBS 预测因子的比较侧重于关键特征,例如输入数据要求、预测方法、输出数据和响应时间。与 Metal3D 等其他几种预测器不同,PMM 提供详细的配体信息,并且可以预测具有 CHED ≥ 2 配体的位点。

此外,PMM 提供的结构模型和金属离子位置比 ZincBindDB 和 znMachine 等不提供金属离子位置或结构模型的预测器具有更高的准确性。

进行不同种类的数据集的代表性预测因子与 PMM 进行比较的实验中,评估的一个数据集被排除在 PMM 的算法中以免出现偏差。尽管如此,PMM 还是实现了 98.5% 的召回率。

图片

图示:PMM 和其他过渡金属预测因子的预测结果。(图源:论文)

开源的 PMM

PMM 预测器代码是开源的,允许对等方在本地下载、运行和编译。团队还提供了在线版本,方便进行基于 Web 的预测,增强了实际应用中的灵活性和易用性。

进行的实验与验证表明,PMM 是一款能根据局部几何和化学微环境预测金属离子位置和配位配体的新系统,在 MBS 中的应用表现出卓越的准确性和效率性能,为科学界提供了一种快速预测 MBS 的方法。

这个系统适用于检测金属结合位点、识别金属类型,还引入了一种创新算法,可显著减少筛选疏水性对比函数和确定候选金属离子位置所需的计算资源。

虽然在特定的实验下可能无法观测到金属结合状态,但不能说给定晶体结构中不存在 MBS 并不能保证它在相关的生物过程中不存在。因此,PMM 凭借其能力可以从任何已知的实验或计算方法都无法获得的角度来研究候选金属结合蛋白。

论文链接:https://www.nature.com/articles/s41467-025-57637-5

相关标签:

相关资讯

量子力学与机器学习相结合,预测高温下的化学反应

编辑/凯霞在高温下从氧化物中提取金属不仅对于钢铁等金属的生产至关重要,而且对回收利用也必不可少。但当前的提取过程是碳密集型的,会排放大量温室气体。研究人员一直在探索开发「更绿色」的工艺方法。第一性原理理论的自下而上的计算过程设计,将是一个有吸引力的替代方案,但迄今为止尚未实现。来自哥伦比亚大学的研究团队开发了一种新的计算技术,将量子力学和机器学习相结合,可准确预测金属氧化物对其「贱金属」的还原温度。该方法在计算上与常规计算一样有效,并且在测试中,比使用量子化学方法对温度效应的计算要求高的模拟更准确。该研究以「Aug
12/13/2021 6:24:00 PM
ScienceAI

成功率超越RoseTTAFold系列,用序列信息直接预测蛋白质-配体复合物结构

编辑 | 萝卜皮蛋白质-配体对接是药物发现和开发中一种成熟的工具,用于缩小实验测试的潜在治疗范围。然而,高质量的蛋白质结构是必需的,而且蛋白质通常被视为完全或部分刚性的。在这里,柏林自由大学(Freie Universität Berlin)的研究人员开发了一个人工智能系统,可以直接从序列信息预测蛋白质-配体复合物的完全柔性全原子结构。虽然经典对接方法仍然更胜一筹,但这也取决于目标蛋白质的晶体结构。除了预测灵活的全原子结构外,预测置信度指标 (plDDT) 还可用于选择准确的预测,以及区分强结合剂和弱结合剂。该研究
6/18/2024 6:29:00 PM
ScienceAI

分子对接速度提升10,000倍,深度图学习加速RNA虚拟筛选,助力药物靶标发现

编辑 | 萝卜皮RNA 是尚未开发的药物靶标的巨大宝库。 基于结构的虚拟筛选 (VS) 利用结合位点信息识别候选分子,传统上采用分子对接模拟。 然而,对接很难在大型化合物库和 RNA 靶标中扩展。
3/25/2025 12:01:00 PM
ScienceAI