分子特性预测新框架来了！浙大侯廷军团队、匹兹堡大学联合提出跨通道学习，各大基准表现亮眼

2025-01-09 05:38

编辑 | 萝卜皮可靠的分子特性预测对于各种科学研究和工业应用（例如药物研发）至关重要。然而，由于数据稀缺，加上物理化学和生物特性与传统分子特征化方案之间的高度非线性因果关系，使得开发稳健的分子机器学习模型变得异常复杂。匹兹堡大学（University of Pittsburgh）与浙江大学侯廷军团队合作开发了一种多通道预训练框架，可以稳健学习利用化学知识。

编辑 | 萝卜皮

可靠的分子特性预测对于各种科学研究和工业应用（例如药物研发）至关重要。

然而，由于数据稀缺，加上物理化学和生物特性与传统分子特征化方案之间的高度非线性因果关系，使得开发稳健的分子机器学习模型变得异常复杂。

匹兹堡大学（University of Pittsburgh）与浙江大学侯廷军团队合作开发了一种多通道预训练框架，可以稳健学习利用化学知识。

它利用分子内的结构层次，通过跨通道的不同预训练任务嵌入它们，并在微调期间以特定于任务的方式聚合通道信息。

该方法在各种分子特性基准中表现出了竞争力，并在特别具有挑战性且普遍存在的场景（如活性悬崖）中具有强大的优势。

该研究以「Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation」为题，于 2024 年 1 月 6 日发布在《Nature Communications》。

自监督学习（SSL）已成为一种流行的解决方案，它利用大规模、未注释的分子数据来学习化学空间的基础表征，这可能有利于下游任务。

然而，现有的分子 SSL 方法在很大程度上忽视了化学知识，包括分子结构相似性、支架组成以及在化学空间中操作时分子特性的上下文相关方面。它们还很难学习结构-活性关系中的细微变化。

当前的挑战

具体来说，现有方法中的两个主要缺点：

首先，在对比学习中，语义相似/不相似（即正/负）样本的传统公式并不适合分子图。大多数图对比方法通过图扰动（例如节点/边的添加/删除）生成正样本。但是，当应用于分子图时，化学有效性可能很容易受到质疑。

分子还可能通过扰乱重要基序（例如，破坏芳香环）而失去基本特征，从而将“语义”转移得很远。负样本（即不同的分子）通常被同等对待，这本质上忽略了分子结构关系和特定分子成分的存在。

其次，几乎所有现有的工作都试图学习一个与上下文无关的分子表征空间，目的是可以使它推广到各种应用中。然而，这与分子特性通常与环境相关的事实相矛盾，无论是从物理角度（例如周围环境）还是生物角度（例如与蛋白质的相互作用）。

换句话说，相同的 SSL 任务是否能够在微调中与具有不同特性的各种下游任务很好地保持一致仍不确定，从而导致学习差距。

多通道学习新方法

为了应对上述挑战，匹兹堡大学与浙江大学的研究人员提出了一个用于分子表征学习的提示引导多通道学习框架。k 个通道中的每一个由特定的提示标记引导，负责学习一个专用的 SSL 任务。

本质上，预训练模型能够学习 k 个不同的表征空间。在微调过程中，提示选择模块将 k 个表征聚合为一个复合表征，并将其用于下游分子特性预测。这涉及确定哪个信息通道与当前应用最相关，从而使表征依赖于上下文。

同时，研究人员设计了预训练任务以形成从全局视图到分子结构局部视图的插值。除了利用全局分子对比学习和局部上下文预测之外，他们还引入了支架对比距离的任务，强调了支架在影响分子特征和行为方面的基本作用。

由于支架通常被视为新化合物设计的起点，支架距离旨在将具有相似支架（通过支架不变扰动生成）的分子映射到表征空间中更近的位置。此外，它还会将具有不同骨架的分子分开，其中距离边距是根据结构组成差异自适应计算的。

该框架主要包含三个主要部分，不同于传统的分子预训练-微调范式：（1）提示引导的多通道学习，（2）具有自适应边距的对比学习，以及（3）支架不变的分子扰动。

图示：框架概述。（来源：论文）

整体框架使用 ZINC15 进行预训练，并在 MoleculeNet5 中的 7 个分子特性预测任务和 MoleculeACE 中的 30 个结合效力预测任务上进行评估。

通过学习利用来自不同通道的信息来应对不同的应用，该方法在两个基准测试中都超越了各种表征学习基准。更重要的是，新方法被证明能够更有效地应对活性悬崖的挑战，而竞争方法更容易受到负迁移的影响，从而导致性能大幅下降。

这表明，即使在预训练之后，这些方法可能仍然更多地依赖于表面模式，或者在微调过程中更容易受到知识遗忘的影响，从而导致它们难以解决需要对化学知识有细致理解的挑战性问题。

相反，该框架学习到的表征在微调过程中表现出了更强的保留预训练知识的能力，与其他基线相比，提供了更好的可转移性和稳健性。案例研究表明，即使仅依赖拓扑信息，该方法也有潜力识别导致活动悬崖的关键模式。

图示：表征空间探测。（来源：论文）

局限性

当然，也存在一些局限性。该框架的一个限制是需要更有效的提示权重优化机制。使用粗糙度指数初始化提示权重可能会导致性能不佳。由于粗糙度指数是针对整个化学空间的全局 QSPR 指标，因此它不考虑训练集和测试集之间的任何分布变化。

对于其他 QSPR 测量（例如 SALI、SARI），情况也是如此。因此，在指定分割下，最终表征性能可能与初始粗糙度值的相关性较低。

图示：结合效力预测。（来源：论文）

未来研究

未来研究有几个有趣的方向。一个有希望的方向是将不同的输入表征形式纳入框架。仅通过利用拓扑分子结构，该模型无法区分具有不同构象（例如，功能基团的方向或原子的手性）的分子成分，这可能会显著改变生化行为。

此外，还有其他先进的数据驱动技术可用于研究结构-活性关系 (SAR)，这些技术可能与这里的框架兼容。

如，Manelfi 的《Molecular Anatomy》认为，从支架碎片化和抽象的网络聚类可以实现高质量的 SAR 分析。此类研究旨在将化学信息学知识转移到机器学习模型中，从而有可能提高模型的可解释性和稳健性。

更重要的是，该方法除了对药物发现具有直接影响，其分子表征稳健性可以进一步揭示其在化学其他子领域（如材料科学和环境化学）中应用的巨大潜力。

论文链接：https://www.nature.com/articles/s41467-024-55082-4

AI赋能传统力场：字节跳动开发高精度通用小分子力场ByteFF

编辑 | ScienceAI小分子力场是药物发现中的重要工具，在计算机辅助药物设计中发挥关键作用。化学空间覆盖广泛且高效精确的小分子力场将为药物发现奠定可靠的基础。尽管基于机器学习的 MLFF（如 ANI-2x，MACE-OFF23 等）能够提供非常精确的小分子势能面预测，但它们的训练需要海量数据量，且推理速度较慢，还存在外推场景不确定度大等问题。

1/16/2025 11:49:00 AM

ScienceAI

基于药效团与GPT从头生成分子，北大开发TransPharmer助力药物发现

编辑 | 萝卜皮深度生成模型推动了药物发现，但生成的化合物通常结构新颖性有限，限制了药物化学家的灵感。为了解决这个问题，北京大学的研究人员开发了 TransPharmer，这是一种生成模型，它将基于配体的可解释药效团指纹与基于生成预训练 Transformer（GPT）的框架相结合，用于从头生成分子。 TransPharmer 在无条件分布学习、从头生成和药效团约束下的骨架构建方面表现出色。

3/11/2025 12:16:00 PM

ScienceAI

以大模型加速新药研发，成本降低70%：一家大厂的「云端」实战

最近几年，AI 加持下的新药研发成为被寄予厚望的赛道之一。从流程上看，药物研发分为药物发现、临床前研究、临床研究、审批与上市四个阶段。医药界有一个「双十定律」的说法 —— 即需要超过 10 年时间、10 亿美元的成本，才有可能成功研发出一款新药。即使如此，也只有约 10% 新药能被批准进入临床期。目前，AI 技术的参与主要集中于药物发现阶段。挑战在于，虽然 AI 技术加快了一部分工作的推进速度，但 AI 技术与药物研发的 “联姻” 并不是一蹴而就的，囿于算法低效、数据割裂、数据安全、算力瓶颈等挑战，药物研发仍然是一

5/19/2023 9:03:00 AM

机器之心

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 AI视频用哪个？6个知名的AI视频工具使用测评报告

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

分子特性预测新框架来了！浙大侯廷军团队、匹兹堡大学联合提出跨通道学习，各大基准表现亮眼

相关资讯

AI赋能传统力场：字节跳动开发高精度通用小分子力场ByteFF

基于药效团与GPT从头生成分子，北大开发TransPharmer助力药物发现

以大模型加速新药研发，成本降低70%：一家大厂的「云端」实战