LLM 课程文档

引言

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

简介

Ask a Question

第3章中,您首次接触了🤗 Datasets库,并了解到微调模型主要有三个步骤:

  1. 从Hugging Face Hub加载数据集。
  2. 使用Dataset.map()预处理数据。
  3. 加载并计算指标。

但这只是🤗 Datasets功能的一小部分!在本章中,我们将深入探讨该库。在此过程中,我们将找到以下问题的答案:

  • 如果您的数据集不在Hub上,该怎么办?
  • 如何对数据集进行切片和切块?(如果您确实需要使用Pandas,该怎么办?)
  • 当您的数据集非常庞大,会导致您的笔记本电脑RAM熔断时,该怎么办?
  • “内存映射”和Apache Arrow到底是什么?
  • 如何创建自己的数据集并将其推送到Hub?

您在此处学到的技术将为您在第6章第7章中进行高级分词和微调任务做好准备——所以,泡杯咖啡,让我们开始吧!

< > 在 GitHub 上更新