大数据？ 🤗 数据集来救援啦！

如今，您会发现自己处理多 GB 数据集的情况并不少见，特别是如果您计划从头开始预训练像 BERT 或 GPT-2 这样的 Transformer 模型。在这些情况下，即使是加载数据也可能是一个挑战。例如，用于预训练 GPT-2 的 WebText 语料库包含超过 800 万篇文档和 40 GB 的文本 — 将其加载到笔记本电脑的 RAM 中很可能会让它崩溃！

幸运的是，🤗 Datasets 的设计旨在克服这些限制。它通过将数据集视为内存映射文件，使您摆脱了内存管理问题；并通过流式传输语料库中的条目，使您摆脱了硬盘限制。

在本节中，我们将使用一个名为 Pile 的 825 GB 巨型语料库来探索 🤗 Datasets 的这些功能。让我们开始吧！

什么是 Pile？

Pile 是一个英语文本语料库，由 EleutherAI 创建，用于训练大规模语言模型。它包括各种各样的数据集，涵盖科学文章、GitHub 代码仓库和经过筛选的网络文本。训练语料库以 14 GB 的块提供，您还可以下载几个单独的组件。让我们首先看一下 PubMed Abstracts 数据集，这是一个来自 PubMed 上 1500 万篇生物医学出版物摘要的语料库。该数据集采用 JSON Lines 格式，并使用 zstandard 库进行压缩，因此首先我们需要安装它

!pip install zstandard

接下来，我们可以使用我们在第 2 节中学到的远程文件方法加载数据集

from datasets import load_dataset

# This takes a few minutes to run, so go grab a tea or coffee while you wait :)
data_files = "https://the-eye.eu/public/AI/pile_preliminary_components/PUBMED_title_abstracts_2019_baseline.jsonl.zst"
pubmed_dataset = load_dataset("json", data_files=data_files, split="train")
pubmed_dataset

Dataset({
    features: ['meta', 'text'],
    num_rows: 15518009
})

我们可以看到我们的数据集中有 15,518,009 行和 2 列 — 这真是太多了！

✎ 默认情况下，🤗 Datasets 将解压缩加载数据集所需的文件。如果您想节省硬盘空间，可以将 DownloadConfig(delete_extracted=True) 传递给 load_dataset() 的 download_config 参数。有关更多详细信息，请参阅文档。

让我们检查一下第一个示例的内容

pubmed_dataset[0]

{'meta': {'pmid': 11409574, 'language': 'eng'},
 'text': 'Epidemiology of hypoxaemia in children with acute lower respiratory infection.\nTo determine the prevalence of hypoxaemia in children aged under 5 years suffering acute lower respiratory infections (ALRI), the risk factors for hypoxaemia in children under 5 years of age with ALRI, and the association of hypoxaemia with an increased risk of dying in children of the same age ...'}

好的，这看起来像是一篇医学文章的摘要。现在让我们看看我们使用了多少 RAM 来加载数据集！

内存映射的魔力

在 Python 中测量内存使用情况的一种简单方法是使用 psutil 库，可以使用 pip 按如下方式安装

!pip install psutil

它提供了一个 Process 类，允许我们按如下方式检查当前进程的内存使用情况

import psutil

# Process.memory_info is expressed in bytes, so convert to megabytes
print(f"RAM used: {psutil.Process().memory_info().rss / (1024 * 1024):.2f} MB")

RAM used: 5678.33 MB

这里的 rss 属性指的是常驻集大小，它是进程在 RAM 中占用的内存部分。此测量还包括 Python 解释器和我们加载的库使用的内存，因此用于加载数据集的实际内存量会略小。为了进行比较，让我们使用 dataset_size 属性查看数据集在磁盘上的大小。由于结果像以前一样以字节表示，我们需要手动将其转换为千兆字节

print(f"Dataset size in bytes: {pubmed_dataset.dataset_size}")
size_gb = pubmed_dataset.dataset_size / (1024**3)
print(f"Dataset size (cache file) : {size_gb:.2f} GB")

Dataset size in bytes : 20979437051
Dataset size (cache file) : 19.54 GB

不错 — 尽管它将近 20 GB 大，但我们能够使用更少的 RAM 加载和访问数据集！

✏️ 试试看！ 从 Pile 中选择一个大于您的笔记本电脑或台式机 RAM 的子集，使用 🤗 Datasets 加载它，并测量使用的 RAM 量。请注意，为了获得准确的测量结果，您需要在一个新进程中执行此操作。您可以在 Pile 论文的表 1 中找到每个子集的解压缩大小。

如果您熟悉 Pandas，那么这个结果可能会让您感到惊讶，因为 Wes Kinney 著名的经验法则是，您通常需要 5 到 10 倍于数据集大小的 RAM。那么 🤗 Datasets 如何解决这个内存管理问题呢？ 🤗 Datasets 将每个数据集视为一个内存映射文件，它提供了 RAM 和文件系统存储之间的映射，允许库访问和操作数据集的元素，而无需将其完全加载到内存中。

内存映射文件也可以在多个进程之间共享，这使得像 Dataset.map() 这样的方法可以并行化，而无需移动或复制数据集。在底层，这些功能都由 Apache Arrow 内存格式和 pyarrow 库实现，这使得数据加载和处理速度极快。（有关 Apache Arrow 的更多详细信息以及与 Pandas 的比较，请查看 Dejan Simic 的博客文章。）为了亲眼目睹这一点，让我们运行一个小型的速度测试，迭代 PubMed Abstracts 数据集中的所有元素

import timeit

code_snippet = """batch_size = 1000

for idx in range(0, len(pubmed_dataset), batch_size):
    _ = pubmed_dataset[idx:idx + batch_size]
"""

time = timeit.timeit(stmt=code_snippet, number=1, globals=globals())
print(
    f"Iterated over {len(pubmed_dataset)} examples (about {size_gb:.1f} GB) in "
    f"{time:.1f}s, i.e. {size_gb/time:.3f} GB/s"
)

'Iterated over 15518009 examples (about 19.5 GB) in 64.2s, i.e. 0.304 GB/s'

在这里，我们使用了 Python 的 timeit 模块来测量 code_snippet 所花费的执行时间。您通常能够以每秒十分之几 GB 到几 GB 的速度迭代数据集。这对于绝大多数应用程序都非常有效，但有时您必须处理的数据集太大，甚至无法存储在笔记本电脑的硬盘驱动器上。例如，如果我们尝试完全下载 Pile，我们将需要 825 GB 的可用磁盘空间！为了处理这些情况，🤗 Datasets 提供了一个流式传输功能，允许我们即时下载和访问元素，而无需下载整个数据集。让我们看看这是如何工作的。

💡 在 Jupyter 笔记本中，您还可以使用 %%timeit magic 函数为单元格计时。

流式数据集

要启用数据集流式传输，您只需将 streaming=True 参数传递给 load_dataset() 函数。例如，让我们再次加载 PubMed Abstracts 数据集，但以流式模式加载

pubmed_dataset_streamed = load_dataset(
    "json", data_files=data_files, split="train", streaming=True
)

使用 streaming=True 返回的对象是一个 IterableDataset，而不是我们在本章其他地方遇到的熟悉的 Dataset。顾名思义，要访问 IterableDataset 的元素，我们需要对其进行迭代。我们可以按如下方式访问流式数据集的第一个元素

next(iter(pubmed_dataset_streamed))

{'meta': {'pmid': 11409574, 'language': 'eng'},
 'text': 'Epidemiology of hypoxaemia in children with acute lower respiratory infection.\nTo determine the prevalence of hypoxaemia in children aged under 5 years suffering acute lower respiratory infections (ALRI), the risk factors for hypoxaemia in children under 5 years of age with ALRI, and the association of hypoxaemia with an increased risk of dying in children of the same age ...'}

可以使用 IterableDataset.map() 即时处理来自流式数据集的元素，如果您需要在训练期间对输入进行分词，这将非常有用。该过程与我们在第 3 章中用于分词数据集的过程完全相同，唯一的区别是输出是逐个返回的

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")
tokenized_dataset = pubmed_dataset_streamed.map(lambda x: tokenizer(x["text"]))
next(iter(tokenized_dataset))

{'input_ids': [101, 4958, 5178, 4328, 6779, ...], 'attention_mask': [1, 1, 1, 1, 1, ...]}

💡 为了加速流式传输的分词，您可以传递 batched=True，正如我们在上一节中看到的那样。它将按批处理示例；默认批处理大小为 1,000，可以使用 batch_size 参数指定。

您还可以使用 IterableDataset.shuffle() 对流式数据集进行洗牌，但与 Dataset.shuffle() 不同，这仅对预定义的 buffer_size 中的元素进行洗牌

shuffled_dataset = pubmed_dataset_streamed.shuffle(buffer_size=10_000, seed=42)
next(iter(shuffled_dataset))

{'meta': {'pmid': 11410799, 'language': 'eng'},
 'text': 'Randomized study of dose or schedule modification of granulocyte colony-stimulating factor in platinum-based chemotherapy for elderly patients with lung cancer ...'}

在本例中，我们从缓冲区的前 10,000 个示例中选择了一个随机示例。一旦访问了一个示例，它在缓冲区中的位置就会被语料库中的下一个示例（即，上述情况中的第 10,001 个示例）填充。您还可以使用 IterableDataset.take() 和 IterableDataset.skip() 函数从流式数据集中选择元素，它们的作用方式与 Dataset.select() 类似。例如，要选择 PubMed Abstracts 数据集中的前 5 个示例，我们可以执行以下操作

dataset_head = pubmed_dataset_streamed.take(5)
list(dataset_head)

[{'meta': {'pmid': 11409574, 'language': 'eng'},
  'text': 'Epidemiology of hypoxaemia in children with acute lower respiratory infection ...'},
 {'meta': {'pmid': 11409575, 'language': 'eng'},
  'text': 'Clinical signs of hypoxaemia in children with acute lower respiratory infection: indicators of oxygen therapy ...'},
 {'meta': {'pmid': 11409576, 'language': 'eng'},
  'text': "Hypoxaemia in children with severe pneumonia in Papua New Guinea ..."},
 {'meta': {'pmid': 11409577, 'language': 'eng'},
  'text': 'Oxygen concentrators and cylinders ...'},
 {'meta': {'pmid': 11409578, 'language': 'eng'},
  'text': 'Oxygen supply in rural africa: a personal experience ...'}]

同样，您可以使用 IterableDataset.skip() 函数从洗牌数据集中创建训练集和验证集，如下所示

# Skip the first 1,000 examples and include the rest in the training set
train_dataset = shuffled_dataset.skip(1000)
# Take the first 1,000 examples for the validation set
validation_dataset = shuffled_dataset.take(1000)

让我们用一个常见的应用来完善我们对数据集流式传输的探索：将多个数据集组合在一起以创建一个语料库。 🤗 Datasets 提供了一个 interleave_datasets() 函数，该函数将 IterableDataset 对象列表转换为单个 IterableDataset，其中新数据集的元素通过在源示例之间交替获得。当您尝试组合大型数据集时，此功能特别有用，因此作为一个示例，让我们流式传输 Pile 的 FreeLaw 子集，这是一个来自美国法院的 51 GB 法律意见数据集

law_dataset_streamed = load_dataset(
    "json",
    data_files="https://the-eye.eu/public/AI/pile_preliminary_components/FreeLaw_Opinions.jsonl.zst",
    split="train",
    streaming=True,
)
next(iter(law_dataset_streamed))

{'meta': {'case_ID': '110921.json',
  'case_jurisdiction': 'scotus.tar.gz',
  'date_created': '2010-04-28T17:12:49Z'},
 'text': '\n461 U.S. 238 (1983)\nOLIM ET AL.\nv.\nWAKINEKONA\nNo. 81-1581.\nSupreme Court of United States.\nArgued January 19, 1983.\nDecided April 26, 1983.\nCERTIORARI TO THE UNITED STATES COURT OF APPEALS FOR THE NINTH CIRCUIT\n*239 Michael A. Lilly, First Deputy Attorney General of Hawaii, argued the cause for petitioners. With him on the brief was James H. Dannenberg, Deputy Attorney General...'}

这个数据集足够大，可以给大多数笔记本电脑的 RAM 带来压力，但我们已经能够加载和访问它而毫不费力！现在让我们使用 interleave_datasets() 函数组合来自 FreeLaw 和 PubMed Abstracts 数据集的示例

from itertools import islice
from datasets import interleave_datasets

combined_dataset = interleave_datasets([pubmed_dataset_streamed, law_dataset_streamed])
list(islice(combined_dataset, 2))

[{'meta': {'pmid': 11409574, 'language': 'eng'},
  'text': 'Epidemiology of hypoxaemia in children with acute lower respiratory infection ...'},
 {'meta': {'case_ID': '110921.json',
   'case_jurisdiction': 'scotus.tar.gz',
   'date_created': '2010-04-28T17:12:49Z'},
  'text': '\n461 U.S. 238 (1983)\nOLIM ET AL.\nv.\nWAKINEKONA\nNo. 81-1581.\nSupreme Court of United States.\nArgued January 19, 1983.\nDecided April 26, 1983.\nCERTIORARI TO THE UNITED STATES COURT OF APPEALS FOR THE NINTH CIRCUIT\n*239 Michael A. Lilly, First Deputy Attorney General of Hawaii, argued the cause for petitioners. With him on the brief was James H. Dannenberg, Deputy Attorney General...'}]

在这里，我们使用了 Python 的 itertools 模块中的 islice() 函数来选择组合数据集中的前两个示例，我们可以看到它们与来自两个源数据集中的每一个的第一个示例匹配。

最后，如果您想流式传输整个 825 GB 的 Pile，您可以按如下方式获取所有准备好的文件

base_url = "https://the-eye.eu/public/AI/pile/"
data_files = {
    "train": [base_url + "train/" + f"{idx:02d}.jsonl.zst" for idx in range(30)],
    "validation": base_url + "val.jsonl.zst",
    "test": base_url + "test.jsonl.zst",
}
pile_dataset = load_dataset("json", data_files=data_files, streaming=True)
next(iter(pile_dataset["train"]))

{'meta': {'pile_set_name': 'Pile-CC'},
 'text': 'It is done, and submitted. You can play “Survival of the Tastiest” on Android, and on the web...'}

✏️ 试试看！ 使用大型 Common Crawl 语料库之一，如 mc4 或 oscar，创建一个流式多语言数据集，该数据集表示您选择的国家的语言口语比例。例如，瑞士的四种官方语言是德语、法语、意大利语和罗曼什语，因此您可以尝试根据其口语比例对 Oscar 子集进行采样，从而创建一个瑞士语料库。

现在您已经拥有加载和处理各种形状和大小的数据集所需的所有工具 — 但除非您非常幸运，否则在您的 NLP 之旅中，您将不得不实际创建一个数据集来解决手头的问题。这就是下一节的主题！

< > 更新在 GitHub 上

LLM 课程

大数据？ 🤗 数据集来救援啦！

什么是 Pile？

内存映射的魔力

流式数据集