LLM 课程文档
介绍
加入 Hugging Face 社区
并获得增强的文档体验
开始
介绍
在第 3 章中,你初步体验了 🤗 Datasets 库,并了解到微调模型主要有三个步骤
- 从 Hugging Face Hub 加载数据集。
- 使用
Dataset.map()
预处理数据。 - 加载并计算指标。
但这只是 🤗 Datasets 功能的冰山一角!在本章中,我们将深入探讨该库。在此过程中,我们将找到以下问题的答案
- 当你的数据集不在 Hub 上时,你该怎么办?
- 如何切片和切块数据集?(如果你真的需要使用 Pandas 怎么办?)
- 当你的数据集非常庞大,会耗尽你笔记本电脑的 RAM 时,你该怎么办?
- “内存映射”和 Apache Arrow 到底是什么?
- 如何创建你自己的数据集并将其推送到 Hub?
你在这里学到的技术将为你准备好第 6 章和第 7 章中的高级分词和微调任务 — 所以,去喝杯咖啡,让我们开始吧!
< > 在 GitHub 上更新