🌟 使用 Hugging Face SQL 控制台、笔记本创建器和 SFT 轻松进行微调

社区文章发布于 2024 年 9 月 24 日

Andrea Soria

asoria

在本教程中，我们将带您了解创建新数据集、使用其微调模型并在 Hugging Face 上共享模型的端到端过程。最后，您将拥有一个能够以美妙的诗意方式回应的模型！💖

我们将使用什么

Hugging Face 数据集查看器 SQL 控制台
数据集笔记本创建器
Google Colab

在本示例中，我们将使用一个诗歌数据集，并且只筛选“爱情”类别的诗歌。这将使我们能够微调模型，以生成充满爱和情感的答案。💌

1. 获取数据

让我们从获取数据开始。我们将使用 Georgii/poetry-genre 数据集，其中包含各种主题的诗歌。

我们只需要“爱情”诗歌，并且我们将过滤掉任何短于 150 个字符的诗歌。为此，我们将使用 SQL 控制台

单击 SQL 控制台

现在，编写以下 SQL 查询

SELECT text AS poem FROM train WHERE genre = 'Love' AND len(text) > 150

💡 提示：有关使用 SQL 控制台的更多高级技术和示例，请查看此指南。

现在，单击“下载”将筛选后的数据集保存为 Parquet 文件。我们将在接下来的步骤中使用此文件。

2. 将数据集上传到 Hugging Face

在 Hugging Face 上为您的数据集创建一个新仓库。您可以手动上传 Parquet 文件，也可以使用以下 Python 代码片段以编程方式上传

from datasets import load_dataset

# Load the Parquet file into a dataset
dataset = load_dataset('parquet', data_files='query_result.parquet')

# Push the dataset to your Hugging Face repository
dataset.push_to_hub('your_dataset_name')

或者按照这些步骤创建您的数据集。

在我的例子中，我这个数据集现在看起来是这样

3. 生成训练代码

接下来，我们将使用笔记本创建器应用程序为我们的数据集生成训练代码。

选择 asoria/love-poems 作为数据集名称

选择 Supervised fine-tuning (SFT) 笔记本类型。

点击 生成笔记本 并在 Google Colab 中打开它。

4. 微调模型

现在，是时候运行生成笔记本中的脚本了。我们将使用该数据集微调预训练模型，例如 facebook/opt-350m，以创建新的、更具爱意版本。

按照笔记本中的说明训练模型。训练完成后，您将拥有一个能够以更可爱的方式回应的模型！🌹✨

结论

只需几个简单的步骤，我们就使用 Hugging Face SQL 控制台创建了数据集的新版本，使用笔记本创建器生成了必要的代码，并微调了一个模型，使其能够以更多的爱和诗意进行回答。

现在，您的模型已准备好在每次回应中传播爱！💕🎉

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论