比传统量子化学计算快约40倍,机器学习揭示了如何将聚合物材料溶解在有机溶剂中

编辑 | 紫罗用有机溶剂溶解聚合物是高分子材料研究和开发中必不可少的过程,包括塑料回收、聚合物合成、精制、涂漆和涂层等。然而,预测和理解聚合物-溶剂二元系统的相平衡或相分离是聚合物化学中尚未解决的基本问题。日本统计数理研究所(The Institute of Statistical Mathematics)的研究人员利用三菱化学集团 (MCG) 的量子化学计算数据库,开发了一种新型机器学习系统,用于确定任何给定聚合物与其候选溶剂的混溶性,称为 χ 参数。该系统使科学家能够通过使用高通量量子化学计算整合计算机实验产生

图片

编辑 | 紫罗

用有机溶剂溶解聚合物是高分子材料研究和开发中必不可少的过程,包括塑料回收、聚合物合成、精制、涂漆和涂层等。然而,预测和理解聚合物-溶剂二元系统的相平衡或相分离是聚合物化学中尚未解决的基本问题。

日本统计数理研究所(The Institute of Statistical Mathematics)的研究人员利用三菱化学集团 (MCG) 的量子化学计算数据库,开发了一种新型机器学习系统,用于确定任何给定聚合物与其候选溶剂的混溶性,称为 χ 参数。

该系统使科学家能够通过使用高通量量子化学计算整合计算机实验产生的大量数据,克服聚合物与溶剂混溶性实验数据有限所产生的限制。

该研究以「Multitask Machine Learning to Predict Polymer–Solvent Miscibility Using Flory–Huggins Interaction Parameters」为题,发表在《Macromolecules》杂志上。

图片

论文链接:https://pubs.acs.org/doi/10.1021/acs.macromol.2c02600

需要一个 χ 参数的数据集来训练模型

预测和理解聚合物溶剂溶液中的相平衡或相分离代表了聚合物科学中尚未解决的基本问题。聚合物混溶性的相行为和热力学取决于与溶剂混合的具有一定分子量分布的聚合物的分子间和分子内相互作用。

根据 Flory-Huggins 聚合物溶液理论,聚合物溶液的热力学性质,例如混溶性或溶胀平衡,可以用称为 Flory-Huggins χ 参数的聚合物-溶剂相互作用参数来表示。对于给定的 χ 参数值,聚合物-溶剂相空间可以描述为以下可控变量的函数:温度、体积分数和分子链长度。然而,通过实验测量 χ 参数在技术上困难且成本高昂。

尽管已经开发了各种模型来计算预测 χ 参数,但基于聚合物和溶剂溶解度参数之间的距离的经验模型是最广泛使用的。例如,汉森溶解度参数 (Hansen solubility parameter,HSP) 将给定分子的潜在溶解度表示为由色散(范德华力)、极性(偶极矩)和氢键成分组成的三维矢量。聚合物-溶剂溶解度是根据 HSP 向量之间的距离确定的。基于量子化学的 COSMO-RS 方法已应用于广泛的聚合物-溶剂体系。然而,这些原子模拟的计算成本很高。

近年来,随着大数据和高性能计算资源的可用性不断增加,机器学习已成为实现高速预测的一种有前途的方法。然而,它需要一个 χ 参数的数据集来训练模型。在这方面,已经提出了多种技术来获得实验 χ 参数值。然而,此类技术在技术上困难且成本高。此外,每种方法的适用性都有限。这使得创建可应用于各种系统的高度通用的 χ 参数预测模型变得困难。

目前,利用机器学习研究聚合物混溶性方面进展甚微。尽管已有一些研究,但已有模型的适用范围是有限的,因为训练数据在数量上是有限的。

机器学习框架,实现高度通用和稳健的 χ 参数预测

在此,研究人员提出了一个机器学习框架,以实现高度通用的温度相关 χ 参数预测。

该模型将 χ 参数描述为聚合物和溶剂化学结构的函数,该模型使用了 1190 个实验观察到的 χ 参数样本,其中有 766 个独特的聚合物-溶剂对,由 46 个聚合物和 140 个溶剂组成。

与之前的研究一样,该数据集的化学多样性有限;此外,实验 χ 参数存在偏差。

为了克服这些限制,创建了两个辅助数据集。研究人员从 PoLyInfo 中提取了一个辅助数据集,以提供 29777 个可溶性和不溶性聚合物-溶剂对的列表。此外,使用 COSMO-RS 进行量子化学计算,生成了 9575 个聚合物-溶剂对的 χ 参数内部数据集。

研究人员使用这三个数据集,进行了基于深度神经网络的多任务机器学习,以同时进行聚合物混溶性的二元分类以及真实系统和模型系统中 χ 参数的定量预测。

图片

图示:用于预测暴露于溶剂 s 的聚合物 p 的 Flory-Huggins χ 参数的神经网络架构。(来源:论文)

神经网络的输入变量包括聚合物-溶剂对及其化学结构以及混合温度。输出层分为三个不同的任务:实验和计算的 χ 参数的预测值以及指示给定聚合物-溶剂对是否可混溶的分类概率。从输入到输出的映射是使用多层神经网络建模的,保留了与汉森溶解度球(Hansen’s solubility sphere)的类比。虽然 HSP 距离是在与色散、极性和氢键相关的三种不同力的空间中定义的,但所提模型旨在通过将聚合物-溶剂化学特征嵌入到 10-40 维的潜在空间中,自主创建广义的、扩展的溶解度球。嵌入的特征及其相关维度是根据观察到的数据自主学习的。

训练后的模型表现出相当好的泛化性能。预测能力超过了使用 COSMO-RS 的预测和使用汉森溶解度球的预测器。由于聚合物溶剂种类的结构多样性不足,实验 χ 参数的数据集提供的训练样本有限。因此,在普通的单任务机器学习范围内,训练模型的适用范围仅限于狭窄数据分布的内部或稍外部。这里表明,通过与另外两个大数据集联合学习,可以成功扩展模型的适用范围。

计算速度比传统量子化学计算快约 40 倍

在这项研究中,研究人员创建了一个基本模型,可以同时解决聚合物混溶性的三个密切相关的任务。

研究人员开发的预测模型计算 χ 参数的速度大约是传统量子化学计算的 40 倍。使用该模型,可以超高速地筛选数百万数量级的候选溶剂分子。

在计算时间方面,在传统服务器上执行量子化学计算并为 47 种聚合物和 138 种溶剂创建 COSMO 文件总共花费了 4129 秒。此外,从 COSMO 文件中计算 1190 对的 χ 参数需要 732 秒。因此,每个聚合物-溶剂对需要 (4129 + 732)/1190  ≃ 4.1 s。这比神经网络的执行时间慢了近 40 倍,神经网络的执行时间约为每个聚合物-溶剂对 0.11 秒,包括描述符计算。

图片

图示:通过 (a) 使用 COSMO-RS 方法进行量子化学计算和 (b) HSP 距离预测器来预测实验 χ 参数。(来源:论文)

到目前为止,该模型已被证明是准确的,当它涉及到需要什么来使聚合物和溶剂成为一种适合回收的均匀混合物时,需要大量的猜测工作和试验和错误,以创造一种适合回收方法的混溶物质。

但对于任何新兴技术,在真正准备好大规模使用之前,总是可以做一些工作来简化流程并解决问题。

该研究共同作者 Ryo Yoshida 说:「为了进一步改进和扩展机器学习技术,促进材料信息学领域的开放创新和开放科学,我们已将开发的部分源代码和数据向公众开放。」

为了便于后续的研究,Python 源代码和其他相关资料已经上传到 GitHub 上。预计这些结果将有助于克服聚合物科学领域中尚未解决的重要问题。

GitHub 地址:https://github.com/yoshida-lab/MTL_ChiParameter

参考内容:https://phys.org/news/2023-10-machine-reveals-dissolve-polymeric-materials.html

相关资讯

比手动快13倍多,「机器人+AI」发现电池最佳电解质,加速材料研究

编辑 | 紫罗传统的材料研发模式主要依赖「试错」的实验方法或偶然性的发现,其研发过程一般长达 10-20 年。虽然基于机器学习 (ML) 的数据驱动方法可以加速清洁能源技术新材料的设计,但由于缺乏大型高保真实验数据库,其在材料研究中的实际应用仍然受到限制。近日,美国西北太平洋国家实验室和阿贡国家实验室的研究团队,设计了一个高度自动化的工作流程,将高通量实验平台与最先进的主动学习算法相结合,可有效筛选对阳极电解质具有最佳溶解度的二元有机溶剂。除了设计用于开发高性能氧化还原液流电池的高效工作流程之外,该机器学习引导的高

实现量子化学精度,同时规避几何弛豫瓶颈,深度对比学习用于分子性质有效预测

编辑 | 紫罗数据驱动的深度学习算法可以准确预测高级量子化学分子特性。然而,它们的输入必须限制在与训练数据集相同的量子化学几何弛豫水平,从而限制了它们的灵活性。采用替代的经济有效的构象生成方法会引入域偏移(domain-shift)问题,从而降低预测精度。近日,来自韩国首尔大学的研究人员提出了一种基于深度对比学习的域适应(domain-adaptation)方法,称为局部原子环境对比学习(Local Atomic environment Contrastive Learning,LACL)。LACL 通过比较不同的

加速量子化学计算,字节&北大团队量子蒙特卡罗研究新进展登Nature子刊

编辑 | 萝卜皮基于神经网络的变分蒙特卡罗(NN-VMC)已成为一种有前途、有潜力的从头计算量子化学的尖端技术。然而,现有方法的高计算成本,阻碍了它们在现实化学问题中的应用。字节跳动与北京大学团队介绍了 NN-VMC 的最新研究进展,它实现了显著的加速率,从而极大地将 NN-VMC 的适用性扩展到更大的系统。该团队的关键设计是一个名为 Forward Laplacian 的计算框架,它通过有效的前向传播(forward)过程来计算与神经网络相关的 Laplacian(这是 NN-VMC 的瓶颈)。然后,研究人员证明