LeMaterial:一项加速材料发现与研究的开源倡议

今天,我们很高兴地宣布**LeMaterial**的推出,这是一个由*Entalpic*和*Hugging Face*共同领导的开源协作项目。LeMaterial 旨在简化和加速材料研究,使其更容易训练机器学习模型、发现新型材料和探索化学空间。⚛️🤗
作为第一步,我们发布了一个名为LeMat-Bulk
的数据集,它统一、清理并标准化了最著名的材料数据集,包括Materials Project、Alexandria和OQMD——从而形成了一个单一的、统一的数据格式,包含**670 万个条目**和**7 种材料属性**。
LeMaterial 站在巨人的肩膀上,我们正在基于那些对这项倡议的发展至关重要的卓越项目进行构建:Optimade、Materials Project、Alexandria和OQMD,未来还将有更多。在使用 LeMaterial 时,请务必相应地注明它们的贡献。
为什么选择 LeMaterial?
材料科学领域,处于量子化学和机器学习的交叉点,充满了机遇——从更亮的 LED,到电化学电池,更高效的光伏电池和可回收塑料,应用无穷无尽。通过在大规模结构化数据集上利用机器学习(ML),研究人员可以以空前的规模对新材料进行高通量筛选和测试,显著加速具有所需性能的新化合物的发现周期。在这个范式中,**数据成为驱动机器学习模型的必要燃料**,可以指导实验,降低成本,并比以往更快地实现突破。
该领域受益于非常完整的数据集,如 Materials Project、Alexandria 和 OQMD,所有这些数据集都是开源的,并采用 CC-BY-4.0 许可。**然而,这些数据集在格式、参数和范围上各不相同,带来了以下挑战:**
- 数据集集成问题(例如,不一致的格式或字段定义、不兼容的计算)
- 数据集组成中的偏差(例如,Materials Project 侧重于氧化物和电池材料)
- 有限的范围(例如,NOMADs 侧重于量子化学计算而非材料特性)
- 不同数据库中相似材料之间缺乏明确的连接或标识符
这种碎片化的格局使得 AI4Science 和材料信息学领域的研究人员难以有效利用现有数据。无论是涉及训练基础 ML 模型、构建准确的相图、识别新型材料还是有效探索化学空间,都没有简单的解决方案。尽管像 Optimade 这样的努力标准化了结构数据,但它们并未解决材料特性差异或数据集范围偏差的问题。
**LeMaterial** 通过统一和标准化来自三大数据库(Materials Project、Alexandria 和 OQMD)的数据,将其整合成一个具有一致和系统属性的高质量资源,从而解决了这些挑战。下面的元素组成树状图突出了这种集成的价值,展示了我们如何扩大现有数据集的范围,例如 Materials Project,它专注于特定材料类型,如电池材料(Li、O、P)或氧化物。
材料项目和LeMat-BulkUnique树状图
实现一个干净、统一且标准化的数据集
LeMat-Bulk
不仅仅是一个拥有开放许可(CC-BY-4.0)的大规模合并数据集。凭借其 670 万条具有一致属性的条目,它代表了创建材料科学领域经过整理和标准化的开放生态系统的基础步骤,旨在简化研究工作流程并提高数据质量。以下是其更近距离的视图。如需交互式浏览我们的材料,请查看使用 MP Dash 组件构建的材料探索器空间。
发布 | 描述与价值 | 日期 |
---|---|---|
v.1.0 |
|
2024 年 12 月 10 日 |
v.1.1 |
|
2025 年第一季度 |
未来版本 | 2025 年第二季度 |
**我们提供不同的数据集和子集,**使研究人员能够根据其需求(一致性计算、材料去重或全面探索)定制工作流程。
- **兼容性:**这些子集仅提供可以混合的兼容计算。目前有 3 种泛函(PBE、PBESol 和 SCAN)可用。
- **不兼容:**此子集提供不包含在兼容性子集中的所有材料。
- **LeMat-BulkUnique**:此数据集通过我们的结构指纹算法提供去重材料。它有 3 个子集,分别用于 PBE、PBESol 和 SCAN 泛函。更多数据集详细信息可在🤗Hugging Face上找到。
整合一个经过良好基准测试的材料指纹
除了构建这个标准化数据集,LeMaterial 的一个关键贡献是提出通过**哈希函数**来定义材料指纹,该哈希函数为每种材料分配一个唯一标识符。
当前识别材料相对于数据库是否新颖的方法主要依赖于相似性度量,这需要组合式努力来筛选现有数据库以寻找新颖性。为了提供更快的数据集新颖性检测,Entalpic 引入了一种哈希方法来计算材料的指纹。
上面是指纹识别的分解。我们使用键合算法(例如 EconNN)在晶体结构上提取图,然后在此图上计算 Weisfeiler-Lehman 算法以获得哈希。此哈希与成分和空间群信息相结合,以创建材料指纹。
我们的指纹识别方法具有以下优点::
- 快速识别材料是新颖的还是已分类的。
- 确保数据集没有重复和不一致之处。
- 允许连接不同数据集中的材料。
- 支持更高效的热力学性质计算,例如高于包络线的能量。
下面是我们哈希函数与 Pymatgen 的 StructureMatcher 的比较,以查找数据集中所有重复项。该实验在两个结构差异很大的数据集上运行。
使用我们的方法时,**几乎所有任务时间都用于计算材料哈希值**;后续的比较步骤在时间上可以忽略不计。使用StructureMatcher
时,绝大多数任务时间都花在**比较结构对**上;构建这些结构在时间上可以忽略不计。
数据集 | 结构数量 | 哈希函数的任务时间(12个CPU并行计算) | StructureMatcher 的任务时间(64 个 CPU 并行) |
---|---|---|---|
碳-24 | 10,153 | 100 秒 | 17 小时 |
MPTS-52 | 40,476 | 330 秒 | 4.9 小时 |
此外,我们计划发布**一套精心策划的基准测试**,以评估我们哈希函数的有效性。例如,我们调查了:
- 如果不同材料根据现有数据库中的材料识别标签产生不同的哈希值
- 是否对材料添加微小噪声或应用对称操作会导致相同的哈希值
- 不同或相同数据库中具有相同哈希值的材料是否确实是同一种材料——通过手动和 DFT 检查
- 我们的哈希与 Pymatgen 的 StructureMatcher 在现有数据库上的速度和准确性对比
** 🤗 社区呼吁:**我们的目标并非将此指纹识别方法定位为去重材料数据库和发现新材料的唯一解决方案,而是旨在围绕此问题促进讨论。当前此哈希技术的一个限制是它不涵盖无序结构;我们希望推动社区达成共识,同时在此期间提出一种相对简单有效的指纹识别方法。
LeMaterial 的实际应用:应用与影响
从长远来看,LeMaterial 旨在成为一个社区驱动的倡议,汇集大型且经过整理的数据集、机器学习模型、便捷的工具包等。它被设计为实用且灵活,能够实现广泛的应用,例如:
- **探索扩展相图**(我们的相图探索器链接,通过 Materials Project 的各种开源工具构建),通过更广泛的数据集构建,以更详细地分析化学空间。结合更大的数据集意味着我们可以在给定的组成空间中提供更精细的材料稳定性分辨率。
Ti、Bb、Sn 的实验相图,引自这篇研究论文
Sn、Ti、Nb 的 LeMat-Bulk 相图,利用 Pymatgen、Crystal Toolkit(Materials Project 工具)构建
**比较不同数据库和泛函的材料属性:**通过为研究人员提供跨 DFT 泛函的数据,并通过我们的材料指纹算法链接材料,我们能够建立和连接通过不同参数计算的材料属性。这为研究人员提供了对泛函在不同成分空间中如何表现和差异的见解。
**确定材料是否新颖**。我们的哈希函数允许研究人员快速评估材料是否独一无二或重复,从而简化发现过程并避免冗余计算。
示例 1:我们的指纹方法将以下 Alexandria 条目(
agm002153972
,agm002153975
)识别为*可能*是同一种材料——具有相同的哈希值。当我们对能量较高的条目进行弛豫时,该材料弛豫到了能量较低的构型。能量较低的结构
能量较高的结构
示例 2:将我们的哈希值应用于另一个常用于训练生成模型的AIRSS数据集,我们发现了以下具有相同哈希值的材料。
共享相同指纹的材料的晶胞
对于未经训练的眼睛来说,这些材料在视觉上看起来非常不同。然而,当我们复制晶格时,我们很快就会发现它们非常相似。
共享相同指纹的材料的超晶胞
**训练预测性机器学习模型。**我们还可以在
LeMat-Bulk
上训练像 EquiformerV2 这样的机器学习原子间势。这些模型将受益于其规模和数据质量以及消除成分空间偏差的优势,并且评估这个新数据集的优势将会很有趣。关于如何将 LeMaterial 与Fairchem结合的示例可以在Colab中找到。我们目前正在使用这个数据集训练一个 EquiformerV2 模型——敬请期待💫
总结
作为一个社区,我们通常非常重视这些大规模开源数据库的**质量**。然而,缺乏标准化使得利用多个数据集成为一项巨大的挑战。**LeMaterial** 提供了一个解决方案,它统一、标准化现有主要数据源,并进行额外的清理和验证工作。这个新的开放科学项目旨在加速研究,提高机器学习模型的质量,并使材料发现更高效、更易于获取。
**我们才刚刚开始**——我们知道仍有不足和改进之处——因此非常乐意听取您的反馈!如果您有兴趣为这项开源倡议贡献力量,请随时联系我们。我们很乐意与社区一起,继续扩展 LeMaterial,加入新的数据集、工具和应用程序!⚛️🤗
我们衷心感谢Zachary Ulissi和Luis Barroso-Luque(Meta),以及Matt McDermott(Newfound Materials, Inc.)对本次倡议提出的宝贵反馈。
引用
下载 LeMaterial 的内容即表示您同意接受 知识共享署名 4.0 许可,这意味着在正确署名 LeMaterial 的情况下,内容可以被复制、分发、传输和改编,而无需获得 LeMaterial 的特别许可。
如果您在研究中使用 LeMaterial 作为资源,请引用我们数据卡中的引用部分(论文即将发布)。
CC-BY-4.0(Materials Project、Alexandria、OQMD 使用的许可证)要求适当致谢。因此,如果您使用的材料数据在 immutable_id 中包含(“mp-”),请引用Materials Project。如果您使用的材料数据在 immutable_id 中包含(“agm-”),请引用Alexandria, PBE或Alexandria PBESol, SCAN。如果您使用的材料数据在 immutable_id 中包含(“oqmd-”),请引用OQMD。最后,如果您出于可视化目的使用相图,或在材料浏览器中使用晶体查看器,请致谢Crystal Toolkit。
了解更多关于 LeMaterial 并参与其中