分子特性预测新框架来了!浙大侯廷军团队、匹兹堡大学联合提出跨通道学习,各大基准表现亮眼

编辑 | 萝卜皮可靠的分子特性预测对于各种科学研究和工业应用(例如药物研发)至关重要。 然而,由于数据稀缺,加上物理化学和生物特性与传统分子特征化方案之间的高度非线性因果关系,使得开发稳健的分子机器学习模型变得异常复杂。 匹兹堡大学(University of Pittsburgh)与浙江大学侯廷军团队合作开发了一种多通道预训练框架,可以稳健学习利用化学知识。

图片

编辑 | 萝卜皮

可靠的分子特性预测对于各种科学研究和工业应用(例如药物研发)至关重要。

然而,由于数据稀缺,加上物理化学和生物特性与传统分子特征化方案之间的高度非线性因果关系,使得开发稳健的分子机器学习模型变得异常复杂。

匹兹堡大学(University of Pittsburgh)与浙江大学侯廷军团队合作开发了一种多通道预训练框架,可以稳健学习利用化学知识。

它利用分子内的结构层次,通过跨通道的不同预训练任务嵌入它们,并在微调期间以特定于任务的方式聚合通道信息。

该方法在各种分子特性基准中表现出了竞争力,并在特别具有挑战性且普遍存在的场景(如活性悬崖)中具有强大的优势。

该研究以「Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation」为题,于 2024 年 1 月 6 日发布在《Nature Communications》。

图片

自监督学习(SSL)已成为一种流行的解决方案,它利用大规模、未注释的分子数据来学习化学空间的基础表征,这可能有利于下游任务。

然而,现有的分子 SSL 方法在很大程度上忽视了化学知识,包括分子结构相似性、支架组成以及在化学空间中操作时分子特性的上下文相关方面。它们还很难学习结构-活性关系中的细微变化。

当前的挑战

具体来说,现有方法中的两个主要缺点:

首先,在对比学习中,语义相似/不相似(即正/负)样本的传统公式并不适合分子图。大多数图对比方法通过图扰动(例如节点/边的添加/删除)生成正样本。但是,当应用于分子图时,化学有效性可能很容易受到质疑。

分子还可能通过扰乱重要基序(例如,破坏芳香环)而失去基本特征,从而将“语义”转移得很远。负样本(即不同的分子)通常被同等对待,这本质上忽略了分子结构关系和特定分子成分的存在。

其次,几乎所有现有的工作都试图学习一个与上下文无关的分子表征空间,目的是可以使它推广到各种应用中。然而,这与分子特性通常与环境相关的事实相矛盾,无论是从物理角度(例如周围环境)还是生物角度(例如与蛋白质的相互作用)。

换句话说,相同的 SSL 任务是否能够在微调中与具有不同特性的各种下游任务很好地保持一致仍不确定,从而导致学习差距。

多通道学习新方法

为了应对上述挑战,匹兹堡大学与浙江大学的研究人员提出了一个用于分子表征学习的提示引导多通道学习框架。k 个通道中的每一个由特定的提示标记引导,负责学习一个专用的 SSL 任务。

本质上,预训练模型能够学习 k 个不同的表征空间。在微调过程中,提示选择模块将 k 个表征聚合为一个复合表征,并将其用于下游分子特性预测。这涉及确定哪个信息通道与当前应用最相关,从而使表征依赖于上下文。

同时,研究人员设计了预训练任务以形成从全局视图到分子结构局部视图的插值。除了利用全局分子对比学习和局部上下文预测之外,他们还引入了支架对比距离的任务,强调了支架在影响分子特征和行为方面的基本作用。

由于支架通常被视为新化合物设计的起点,支架距离旨在将具有相似支架(通过支架不变扰动生成)的分子映射到表征空间中更近的位置。此外,它还会将具有不同骨架的分子分开,其中距离边距是根据结构组成差异自适应计算的。

该框架主要包含三个主要部分,不同于传统的分子预训练-微调范式:(1)提示引导的多通道学习,(2)具有自适应边距的对比学习,以及(3)支架不变的分子扰动。

图片

图示:框架概述。(来源:论文)

整体框架使用 ZINC15 进行预训练,并在 MoleculeNet5 中的 7 个分子特性预测任务和 MoleculeACE 中的 30 个结合效力预测任务上进行评估。

通过学习利用来自不同通道的信息来应对不同的应用,该方法在两个基准测试中都超越了各种表征学习基准。更重要的是,新方法被证明能够更有效地应对活性悬崖的挑战,而竞争方法更容易受到负迁移的影响,从而导致性能大幅下降。

这表明,即使在预训练之后,这些方法可能仍然更多地依赖于表面模式,或者在微调过程中更容易受到知识遗忘的影响,从而导致它们难以解决需要对化学知识有细致理解的挑战性问题。

相反,该框架学习到的表征在微调过程中表现出了更强的保留预训练知识的能力,与其他基线相比,提供了更好的可转移性和稳健性。案例研究表明,即使仅依赖拓扑信息,该方法也有潜力识别导致活动悬崖的关键模式。

图片

图示:表征空间探测。(来源:论文)

局限性

当然,也存在一些局限性。该框架的一个限制是需要更有效的提示权重优化机制。使用粗糙度指数初始化提示权重可能会导致性能不佳。由于粗糙度指数是针对整个化学空间的全局 QSPR 指标,因此它不考虑训练集和测试集之间的任何分布变化。

对于其他 QSPR 测量(例如 SALI、SARI),情况也是如此。因此,在指定分割下,最终表征性能可能与初始粗糙度值的相关性较低。

图片

图示:结合效力预测。(来源:论文)

未来研究

未来研究有几个有趣的方向。一个有希望的方向是将不同的输入表征形式纳入框架。仅通过利用拓扑分子结构,该模型无法区分具有不同构象(例如,功能基团的方向或原子的手性)的分子成分,这可能会显著改变生化行为。

此外,还有其他先进的数据驱动技术可用于研究结构-活性关系 (SAR),这些技术可能与这里的框架兼容。

如,Manelfi 的《Molecular Anatomy》认为,从支架碎片化和抽象的网络聚类可以实现高质量的 SAR 分析。此类研究旨在将化学信息学知识转移到机器学习模型中,从而有可能提高模型的可解释性和稳健性。

更重要的是,该方法除了对药物发现具有直接影响,其分子表征稳健性可以进一步揭示其在化学其他子领域(如材料科学和环境化学)中应用的巨大潜力。

论文链接:https://www.nature.com/articles/s41467-024-55082-4 

相关资讯

以大模型加速新药研发,成本降低70%:一家大厂的「云端」实战

最近几年,AI 加持下的新药研发成为被寄予厚望的赛道之一。从流程上看,药物研发分为药物发现、临床前研究、临床研究、审批与上市四个阶段。医药界有一个「双十定律」的说法 —— 即需要超过 10 年时间、10 亿美元的成本,才有可能成功研发出一款新药。即使如此,也只有约 10% 新药能被批准进入临床期。目前,AI 技术的参与主要集中于药物发现阶段。挑战在于,虽然 AI 技术加快了一部分工作的推进速度,但 AI 技术与药物研发的 “联姻” 并不是一蹴而就的,囿于算法低效、数据割裂、数据安全、算力瓶颈等挑战,药物研发仍然是一

NUS研究团队开发自动化药物生产新技术,「自动化多步合成」成可能

发现和开发用于治疗的新型小分子化合物需要投入大量的时间、精力和资源。新加坡国立大学(NUS)的研究团队开发了一种适合药物小分子的自动化生产方法,为传统化学合成提供了新的思路。该方法可能用于通常通过手动工艺生产的分子,从而减少所需的人力。取得这一技术突破的研究小组由新加坡国立大学化学系助理教授Wu Jie 和新加坡国立大学化学和生物分子工程系副教授Saif A. Khan领导。Liu Chenguang博士(左)和Wu Jie助理教授(右)。(来源:NUS)NUS团队演示了用于癌症治疗的药物分子prexersatib

受 ChatGPT 启发,结合 Transformer 和 RL-MCTS 进行从头药物设计

编辑 | 萝卜皮通过从头药物设计发现新型治疗化合物是药物研究领域的一项关键挑战。传统的药物发现方法通常资源密集且耗时,这促使科学家探索利用深度学习和强化学习技术力量的创新方法。在这里,美国查普曼大学(Chapman University)的研究人员开发了一种称为 drugAI 的新型药物设计方法,该方法利用编码器-解码器 Transformer 架构与通过蒙特卡罗树搜索(RL-MCTS)进行的强化学习来加快药物发现过程,同时确保生产具有药物样特性和对其靶标具有强结合亲和力的有效小分子。与两种现有的基准方法相比,dr