NLP 课程文档

简介

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

简介

Ask a Question

第 3 章 中,你初步体验了 🤗 Datasets 库,并了解了微调模型时的三个主要步骤

  1. 从 Hugging Face Hub 加载数据集。
  2. 使用 Dataset.map() 预处理数据。
  3. 加载和计算指标。

但这仅仅是 🤗 Datasets 功能的冰山一角!在本章中,我们将深入了解该库。在此过程中,我们将找到以下问题的答案

  • 如果你的数据集不在 Hub 上,该怎么办?
  • 如何切分和整理数据集?(如果你真的需要使用 Pandas 该怎么办?)
  • 如果你的数据集非常庞大,会耗尽笔记本电脑的 RAM,该怎么办?
  • 什么是“内存映射”和 Apache Arrow?
  • 如何创建自己的数据集并将其推送到 Hub?

你在此处学习的技术将为你在 第 6 章第 7 章 中进行的高级分词和微调任务做好准备——所以,来杯咖啡,让我们开始吧!