NLP 课程文档

简介

NLP 课程

0. 设置

1. Transformer 模型

2. 使用 🤗 Transformers

3. 微调预训练模型

4. 共享模型和分词器

5. 🤗 Datasets 库

简介如果我的数据集不在 Hub 上怎么办？是时候切分和整理数据了大数据？ 🤗 Datasets 来帮忙！创建自己的数据集使用 FAISS 进行语义搜索 🤗 Datasets，搞定！章节末测试

6. 🤗 Tokenizers 库

7. 主要 NLP 任务

8. 如何寻求帮助

9. 构建和共享演示新增

课程活动

加入 Hugging Face 社区

并获得增强文档体验

协作模型、数据集和空间

使用加速推理更快地运行示例

在文档主题之间切换

开始使用

简介

在第 3 章中，你初步体验了 🤗 Datasets 库，并了解了微调模型时的三个主要步骤

从 Hugging Face Hub 加载数据集。
使用 Dataset.map() 预处理数据。
加载和计算指标。

但这仅仅是 🤗 Datasets 功能的冰山一角！在本章中，我们将深入了解该库。在此过程中，我们将找到以下问题的答案

如果你的数据集不在 Hub 上，该怎么办？
如何切分和整理数据集？（如果你真的需要使用 Pandas 该怎么办？）
如果你的数据集非常庞大，会耗尽笔记本电脑的 RAM，该怎么办？
什么是“内存映射”和 Apache Arrow？
如何创建自己的数据集并将其推送到 Hub？

你在此处学习的技术将为你在第 6 章和第 7 章中进行的高级分词和微调任务做好准备——所以，来杯咖啡，让我们开始吧！

←章节末测试如果我的数据集不在 Hub 上怎么办？→

© . This site is unofficial and not affiliated with Hugging Face, Inc.