厦大团队材料预测迁移学习范式登Nature子刊，发现高性能催化剂

2024-07-31 02:18

编辑 | KX传统的材料发现依赖反复试验或偶然发现，效率低下且成本高昂。AI 在发现新型催化剂方面潜力巨大。然而，受到算法的选择，以及数据质量和数量的影响。在此，来自厦门大学、深圳大学、武汉大学、南京航空航天大学和英国利物浦大学的研究团队开发了一种迁移学习范式，结合了预训练模型、集成学习和主动学习，能够预测未被发现的钙钛矿氧化物，并增强该反应的通用性。通过筛选 16,050 种成分，鉴定和合成了 36 种新的钙钛矿氧化物，其中包括 13 种纯钙钛矿结构。Pr0.1Sr0.9Co0.5Fe0.5O3（PSCF）和 P

编辑 | KX

传统的材料发现依赖反复试验或偶然发现，效率低下且成本高昂。

AI 在发现新型催化剂方面潜力巨大。然而，受到算法的选择，以及数据质量和数量的影响。

在此，来自厦门大学、深圳大学、武汉大学、南京航空航天大学和英国利物浦大学的研究团队开发了一种迁移学习范式，结合了预训练模型、集成学习和主动学习，能够预测未被发现的钙钛矿氧化物，并增强该反应的通用性。

通过筛选 16,050 种成分，鉴定和合成了 36 种新的钙钛矿氧化物，其中包括 13 种纯钙钛矿结构。

Pr0.1Sr0.9Co0.5Fe0.5O3（PSCF）和 Pr0.1Sr0.9Co0.5Fe0.3Mn0.2O3（PSCFM）在 10 mA cm^-2 时分别表现出 327 mV 和 315 mV 的低过电位。电化学测量表明，两种材料中 O-O 耦合的吸附质演化机制（AEM）和晶格氧机制（LOM）共存。

该研究为加速发现和开发用于该反应的高性能钙钛矿氧化物电催化剂铺平了道路。

相关研究以「Transfer learning guided discovery of efficient perovskite oxide for alkaline water oxidation」为题，于 7 月 26 日发布在《Nature Communications》上。

论文链接：https://www.nature.com/articles/s41467-024-50605-5

当前材料发现方法的局限性

钙钛矿氧化物材料在增值化学品的绿色电合成中起着关键作用，这是实现碳中和的关键一步。

一个值得关注的应用是它们在析氧反应（OER）中的应用，该反应可以与各种阴极反应相结合。然而，OER 在动力学上仍然很缓慢，涉及 4 步质子-电子耦合转移过程。因此，开发高效且经济的电催化剂至关重要。

先前的研究表明，将各种阳离子（Ce、Pr、Cr、Sr、V、W、Co、Fe、Mn、Nb、Mg 等）掺入钙钛矿氧化物的 A 位或 B 位，可以有效调节局部配位环境和电子结构，从而提高电催化性能。然而，由于材料发现的反复试验方法效率低下，其具体化学成分仍未得到探索。

高通量密度泛函理论 (DFT) 计算通常需要预先了解特定的算法或方法，从而阻碍了不同系统之间的数据统一，限制了其通用性。

AI 在发现新型电催化剂方面有巨大潜力。然而，基于特征选择和简化的 ML 算法通常会消除不太重要的描述符，不可避免地导致信息丢失和预测准确性降低。此外，在分析同一数据集的相对重要性时，不同的算法经常会产生不一致的结果。

除了算法的选择之外，数据的质量和数量在确定基于 ML 的预测的准确性方面也起着至关重要的作用。从 DFT 派生的传统模拟数据库通常仅限于单个或几个类似的系统，从而限制了所提取知识的适用性和普遍性。此外，由于缺乏普遍接受的实验方法报告标准，因此实验数据相对稀缺且难以整合。

迁移学习范式

为了应对这一挑战，厦大团队提出了一种以钙钛矿氧化物电催化剂的阳离子信息为中心的强大迁移学习范式。该方法利用预训练的模型有效地将 OER 数据与来自不同研究领域的大量数据集相结合，涵盖了更广泛的钙钛矿成分。

采用集成方法来组合通过结合领域知识和无监督学习技术确定的不同子簇衍生的模型。该策略促进了不同材料系统之间的知识转移，从而显著提高了预测准确性。

所提出的迁移学习范式包括七个步骤：数据提取、阳离子编码、特征嵌入、聚类、局部预测、全局集成和主动学习闭环实验验证。

由于 OER 钙钛矿氧化物数据有限，研究人员还收集了非 OER 钙钛矿氧化物的数据。这种方法将数据集从 94 个条目扩展到 140 个条目，增加了 48.9%。丰富的数据集涵盖了多种特征，包括材料成分、氧空位浓度和化学价态分布。

图示：迁移学习工作流程，发现用于析氧反应的钙钛矿电催化剂。（来源：论文）

实验验证和主动学习

研究人员对候选材料进行了实验验证。由于预测结构熵较高的钙钛矿氧化物材料的性质本身就很复杂，最初的预测仅限于四元和五元组成。

从超过 500 万个预测点中选择了 30 种化学式进行实验验证。重要的是，预测组成为 PSCF 的材料将是一种高性能材料，其最低过电位

为 340.81 mV（364.80 ± 18.55 mV）。初步线性扫描伏安法 (LSV) 评估证实了 PSCF 的过电位为 327 mV。

图示：迁移学习模型的评估和预测。（来源：论文）

从第二轮预测中，主动学习方法的结合将预测能力扩展到更复杂的六元材料系统，PSCF 中 Mn 部分取代 Fe 的 PSCFM，实现了 302.92 mV（322.75 mV ± 14.09 mV）的最小预测过电位。随后，所有这些选定的材料都经过制造、XRD 筛选并通过 LSV 测量进行评估。与预测一致，PSCFM 在 10 mA cm^−2 时显示出 315 mV 的降低过电位，验证了模型的可靠性。

主动学习策略的进一步验证涉及将精确编码的 PSCFM 价态分布纳入第三个预测周期的训练集。

研究表明，尽管六元系统本身就很复杂，但应用主动学习策略可以提高预测准确性。

图示：Mn 掺杂对钙钛矿氧化物 OER 的影响。（来源：论文）

综合表征表明，晶格氧在促进 OER 过程中的 O-O 偶联方面起着关键作用。DFT 计算进一步阐明了这种增强 OER 活性的机制基础。Mn 融入 PSCF 可增强 Co 反应位点的稳定性，同时通过晶格氧机制 (LOM) 途径降低 Mn-O-Co 基序上的反应势垒。

该方法证明了迁移学习和主动学习在克服数据限制和准确预测 OER 催化剂方面的有效性。研究建立了强大的 ML 范式，为加速高性能 OER 催化剂的开发铺平了道路。

注：封面来自网络

终于把深度学习中的微调、提炼和迁移学习搞懂了！！！

大家好，我是小寒今天给大家分享深度学习中的三个重要知识点，微调、提炼和迁移学习在深度学习中，微调（Fine-tuning）、提炼（Distillation，即知识蒸馏）和迁移学习（Transfer Learning）是三种常见的模型优化技术，主要用于提高模型的泛化能力、减少训练时间以及优化资源利用率。微调微调是指在一个已经训练好的模型（通常是预训练模型）的基础上，对部分或全部参数进行进一步训练，以适应特定的新任务。通常，预训练模型是在大规模数据集（如ImageNet）上训练得到的，它能够学习到一些通用的特征。

3/3/2025 1:50:00 AM

程序员小寒

基于LLaMA却改张量名，李开复公司大模型开源行为引争议，官方回应来了

机器之心报道机器之心编辑部有研究者发现，李开复「零一万物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架构，只是重命名了两个张量。对此，「零一万物」给出了官方回应。前段时间，开源大模型领域迎来了一个新的模型 —— 上下文窗口大小突破 200k，能一次处理 40 万汉字的「Yi」。这个大模型由创新工场董事长兼 CE0 李开复创立的大模型公司「零一万物」构建，包括了 Yi-6B 和 Yi-34B 两个版本。根据 Hugging Face 英文开源社区平台和 C-Eval 中文评测榜单，Yi-34B 推出时取得

11/14/2023 5:15:00 PM

机器之心