LLM 课程文档

引言

LLM 课程

0. 环境配置

1. Transformer 模型

2. 使用 🤗 Transformers

3. 微调预训练模型

4. 共享模型和分词器

5. 🤗 Datasets 库

简介如果我的数据集不在Hub上怎么办？是时候切片和切丁了大数据？🤗 Datasets来帮忙！创建自己的数据集使用FAISS进行语义搜索 🤗 Datasets，搞定！章节末测验

6. 🤗 Tokenizers 库

7. 经典的 NLP 任务

8. 如何寻求帮助

9. 构建和共享演示

10. 策划高质量数据集

11. 微调大型语言模型

12. 构建推理模型新

课程活动

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

简介

在第3章中，您首次接触了🤗 Datasets库，并了解到微调模型主要有三个步骤：

从Hugging Face Hub加载数据集。
使用Dataset.map()预处理数据。
加载并计算指标。

但这只是🤗 Datasets功能的一小部分！在本章中，我们将深入探讨该库。在此过程中，我们将找到以下问题的答案：

如果您的数据集不在Hub上，该怎么办？
如何对数据集进行切片和切块？（如果您确实需要使用Pandas，该怎么办？）
当您的数据集非常庞大，会导致您的笔记本电脑RAM熔断时，该怎么办？
“内存映射”和Apache Arrow到底是什么？
如何创建自己的数据集并将其推送到Hub？

您在此处学到的技术将为您在第6章和第7章中进行高级分词和微调任务做好准备——所以，泡杯咖啡，让我们开始吧！

< > 在 GitHub 上更新

←章节末测验如果我的数据集不在Hub上怎么办？→

© . This site is unofficial and not affiliated with Hugging Face, Inc.