编辑 | 萝卜皮
在不断发展的药物发现领域,传统方法由于效率低和资源需求高而面临重大挑战。
AI 药物公司 Model Medicines 和加州大学圣地亚哥分校的研究人员开发了 GALILEO AI 药物发现平台及其核心模型 ChemPrint,旨在提高药物发现的效率。
为了解决命中率低和探索新化学空间困难的挑战,该平台采用自适应分子嵌入和严格的模型训练环境来增强预测能力并导航未知的分子领域。
在针对 AXL 和 BRD4 肿瘤学靶标的案例中,ChemPrint 实现了 45.5% 的体外命中率,并鉴定了 20 种新型作用化合物。这些化合物表现出巨大的化学新颖性,其训练集的平均 Tanimoto 相似度得分为 0.32。
该研究以「ChemPrint: An AI-Driven Framework for Enhanced Drug Discovery」为题,于 2024 年 3 月 27 日发布在 bioRxiv 预印平台。
传统药物发现方法面临资源消耗大、效率低下等严峻挑战,尤其是在高通量筛选(HTS)后阶段成功率极低,导致大量潜在药物候选化合物未能转化为临床药物。
此外,现有AI模型在预测未知化学空间的化合物性质时能力有限,易受训练数据集化学多样性的制约。
因此,亟需发展能够有效探索新化学领域并准确预测新型活性化合物的AI驱动药物发现框架,以突破传统瓶颈,显著提高药物发现的成功率。
为了应对这些挑战,Model Medicines 和加州大学圣地亚哥分校的研究人员,提出了人工智能药物发现平台 GALILEO 及其核心组件零样本分子几何深度学习 (Molecular-Geometric Deep Learning,Mol-GDL) 模型 ChemPrint。
图示:GALILEO AI 药物发现平台工作流程。(来源:论文)
GALILEO AI 药物发现平台是一个综合性的智能系统,旨在通过先进的人工智能技术革新传统药物发现流程,大幅提高新药候选物的筛选效率与成功率。
平台通过整合大规模的高通量筛选(HTS)数据,利用自适应分子嵌入和严格的模型训练环境,增强对未知化学空间的探索能力。GALILEO 平台通过创新的数据分割技术,如 t-SNE 方法,来最大化训练集和测试集之间的差异性,从而更好地预测和发现新化合物。
ChemPrint 模型作为 GALILEO 平台的核心组件,是一种基于 Mol-GDL 的创新 AI 模型。该模型通过学习分子的几何结构与化学特性,生成适应性强、能够保留关键化学信息的分子嵌入表示。
ChemPrint在训练与验证过程中注重实际药物发现场景的应用而非仅追求技术指标,展现出卓越的预测能力,能在未探索的化学空间中精准识别具有新颖活性的化合物。
图示:ChemPrint 训练周期期间 AXL t-SNE 分割数据的模型潜在嵌入的 t-SNE 可视化。(来源:论文)
其在针对 AXL 和 BRD4 肿瘤学靶点的案例中取得了高达 45.5% 的体外命中率,比业界公布的平均命中率提高 75%;同时,鉴定了 20 种新型作用化合物。这些化合物表现出巨大的化学新颖性,其训练集的平均 Tanimoto 相似度得分为 0.32,与已知化合物显著不同,显著超越传统方法。
图示:对 AXL 和 BRD4 进行体外验证的命中图。(来源:论文)
研究人员采用优化技术来减少过度拟合,从而创建高度专业化的自适应分子嵌入,证实其在前瞻性药物发现研究中的有效性。这一进步对于实现临床的发现至关重要。
总而言之,GALILEO 和 ChemPrint 有效地弥合了学界期望的人工智能效率与实际治疗、药物发现之间的差距。该团队所展示的平台解决了人工智能驱动的药物发现中一些最困难的挑战,为追求更高效、更有效的药物开发流程提供了一条充满希望的道路,最终将为拯救生命发挥力量。
论文链接:https://www.biorxiv.org/content/10.1101/2024.03.22.586314v1