Datasets 🤝 Arrow

什么是 Arrow？

Arrow 能够快速处理和移动大量数据。它是一种特定的数据格式，将数据以列式内存布局存储。这提供了几个显著的优势。

Arrow 的标准格式允许零拷贝读取，这几乎消除了所有的序列化开销。
Arrow 是语言无关的，因此它支持不同的编程语言。
Arrow 是面向列的，因此在查询和处理数据切片或列时速度更快。
Arrow 允许无拷贝地将数据传递给标准的机器学习工具，如 NumPy、Pandas、PyTorch 和 TensorFlow。
Arrow 支持许多，可能是嵌套的，列类型。

内存映射

🤗 Datasets 使用 Arrow 作为其本地缓存系统。它允许数据集由磁盘上的缓存支持，该缓存是内存映射的，以实现快速查找。这种架构允许在设备内存相对较小的机器上使用大型数据集。

例如，加载完整的英文维基百科数据集仅占用几 MB 的 RAM。

>>> import os; import psutil; import timeit
>>> from datasets import load_dataset

# Process.memory_info is expressed in bytes, so convert to megabytes 
>>> mem_before = psutil.Process(os.getpid()).memory_info().rss / (1024 * 1024)
>>> wiki = load_dataset("wikimedia/wikipedia", "20220301.en", split="train")
>>> mem_after = psutil.Process(os.getpid()).memory_info().rss / (1024 * 1024)

>>> print(f"RAM memory used: {(mem_after - mem_before)} MB")
RAM memory used: 50 MB

这是可能的，因为 Arrow 数据实际上是从磁盘进行内存映射的，而不是加载到内存中。内存映射允许访问磁盘上的数据，并利用虚拟内存功能进行快速查找。

性能

使用 Arrow 迭代内存映射的数据集速度很快。在笔记本电脑上迭代维基百科的速度可达 1-3 Gbit/s。

>>> s = """batch_size = 1000
... for batch in wiki.iter(batch_size):
...     ...
... """

>>> elapsed_time = timeit.timeit(stmt=s, number=1, globals=globals())
>>> print(f"Time to iterate over the {wiki.dataset_size >> 30} GB dataset: {elapsed_time:.1f} sec, "
...       f"ie. {float(wiki.dataset_size >> 27)/elapsed_time:.1f} Gb/s")
Time to iterate over the 18 GB dataset: 31.8 sec, ie. 4.8 Gb/s

< > 在 GitHub 上更新