弥合物理数值模拟与机器学习之间的鸿沟:介绍 The Well

有用链接: GitHub / NeurIPS 2024 论文 / 网站 / ArXiv。
作为一名机器学习研究员,如今很难忽视处理复杂问题所需数据集和模型的庞大规模。例如,用于训练数十亿参数大型语言模型的高度精选数据集 FineWeb,其大小达到了 44TB。这个互联网的精简版本是自然语言处理社区多年深入研究的成果,并得到了 Hugging Face 的 Datasets 库 等开源工作的支持。
相比之下,科学数据带来了独特的挑战——它们更难收集、过滤和解释。虽然任何人都可以评估生成文本的连贯性,但评估例如蛋白质序列或湍流天体物理过程的合理性通常需要深厚的领域专业知识。这种复杂性要求领域专家和机器学习研究人员之间进行密切合作,从而给原本就错综复杂的过程增加了难度。
尽管存在这些困难,用于模拟物理动力学的数据集仍在不断扩展。虽然流体动力学模拟已成为常见的基准,但它们只解决了有限的物理范围或提供了稀疏数量的高分辨率快照。此外,单个样本的大小和复杂性通常限制了它们的更广泛效用。这些限制强调了需要为现代机器学习用例量身定制和扩展新数据集。这促使我们创建了 The Well,一个包含各种物理过程的统一集合,可用于大规模训练神经网络代理。
什么是 The Well?
The Well 包含 16 个数据集,总计超过 15TB,单个数据集大小从 6.9GB 到 5.1TB 不等。所有数据均以均匀空间网格、恒定时间间隔采样,并以 HDF5 格式存储,以简化、可访问性以及与科学工作流程的兼容性。为了方便使用,我们还提供了 PyTorch 接口,以便与机器学习模型无缝集成。
我们与领域专家密切合作,生成并整理了代表复杂物理现象的数据集,并将其标准化为统一格式。这种方法确保数据集自给自足、易于共享,并可直接应用于机器学习模型,从而消除了预处理开销。通过优先考虑可用性,我们让研究人员能够专注于真正的挑战:预测物理现象。
数值模拟社区的机遇
通过与数值模拟专家的对话,我们发现他们的领域与机器学习社区之间存在显著的沟通鸿沟。这种由人工智能炒作所加剧的脱节,往往导致人们对机器学习真正能实现什么持怀疑态度。通过 The Well,我们旨在迈出弥合这一鸿沟的第一步,通过提供一个鼓励协作的平台,同时提供具有挑战性的数据集,代表先进的、有时甚至知之甚少的物理过程。
其中一些模拟是其各自现象在世界上最先进的模拟,需要数百万 CPU 小时,这凸显了对高效代理模型的需要。预测这些过程类似于视频预测,但引入了独特的挑战:一方面,数据的演化依赖于明确但复杂的物理定律;另一方面,数据本身可能更难处理(例如,具有许多通道,或在训练和推理过程中保持高精度)。
在我们看来,机器学习应该被视为数值模拟的补充,而不是替代。例如,它可以通过提供物理行为的快速近似来帮助科学研究,例如估计现象的增长率或预测其稳态。这使得研究人员能够更有效地分配计算资源并加速科学发现。
机器学习社区的机遇
除了促进科学研究,The Well 还为机器学习社区带来了独特的挑战。与自然图像和视频不同,我们模拟的空间频率和动力学差异很大,为计算机视觉创新提供了一套新的基准。此外,我们的数据集引入了标准视觉任务中很少遇到的问题,例如:
- 对未知物理的泛化能力: 在数据集子集上训练的模型能否有效地泛化到未知物理?
- 跨分辨率的知识迁移: 在一种分辨率下训练的模型能否有效地泛化到相同物理的更高分辨率或维度?
- 时间变化: 模型如何处理以不同时间间隔采样的数据,同时保持预测准确性?
- 物理参数泛化: 在部分物理参数上训练的模型能否预测未知参数值的模拟结果?
我们希望这些任务能够推动现代机器学习模型的极限,从而促进计算机视觉和生成建模的创新。您可以在论文的附录 D 中了解有关这些挑战的更多信息。
探索 The Well
通过 The Well,我们期待能激发两个鲜有互动的社区之间的对话。数值模拟为机器学习研究人员带来了重大挑战,而机器学习模型则有望加速基于模拟的研究。想象一下,使用预训练的机器学习模型在几秒钟内预测中子星的演化,或者利用模拟数据中的见解推动生成建模的突破。通过连接这些领域,我们旨在加速这两个领域的发现和创新。我们迫不及待地想看到您将通过 The Well 实现什么!