简介
在 第三章 中,您初尝了 🤗 Datasets 库,并了解了微调模型时的三个主要步骤
- 从 Hugging Face Hub 加载数据集。
- 使用
Dataset.map()
预处理数据。 - 加载和计算指标。
但这只是 🤗 Datasets 功能的冰山一角!在本章中,我们将深入探讨该库。在此过程中,我们将找到以下问题的答案
- 如果您的数据集不在 Hub 上,该怎么办?
- 如何对数据集进行切片和切丁?(如果您确实需要使用 Pandas,该怎么办?)
- 如果您的数据集太大,会消耗笔记本电脑的 RAM,该怎么办?
- 什么是“内存映射”和 Apache Arrow?
- 如何创建自己的数据集并将其推送到 Hub?
您在此处学习的技术将为您在 第六章 和 第七章 中的 advanced 分词和微调任务做好准备 - 因此,喝杯咖啡,让我们开始吧!