🌟 使用 Hugging Face SQL 控制台、笔记本创建器和 SFT 轻松进行微调
社区文章 发布于 2024 年 9 月 24 日
在本教程中,我们将带您了解创建新数据集、使用其微调模型并在 Hugging Face 上共享模型的端到端过程。最后,您将拥有一个能够以美妙的诗意方式回应的模型!💖
我们将使用什么
- Hugging Face 数据集查看器 SQL 控制台
- 数据集笔记本创建器
- Google Colab
在本示例中,我们将使用一个诗歌数据集,并且只筛选“爱情”类别的诗歌。这将使我们能够微调模型,以生成充满爱和情感的答案。💌
1. 获取数据
让我们从获取数据开始。我们将使用 Georgii/poetry-genre 数据集,其中包含各种主题的诗歌。
我们只需要“爱情”诗歌,并且我们将过滤掉任何短于 150 个字符的诗歌。为此,我们将使用 SQL 控制台
单击 SQL 控制台
现在,编写以下 SQL 查询
SELECT text AS poem FROM train WHERE genre = 'Love' AND len(text) > 150
💡 提示:有关使用 SQL 控制台的更多高级技术和示例,请查看此指南。
现在,单击“下载”将筛选后的数据集保存为 Parquet 文件。我们将在接下来的步骤中使用此文件。
2. 将数据集上传到 Hugging Face
在 Hugging Face 上为您的数据集创建一个新仓库。您可以手动上传 Parquet 文件,也可以使用以下 Python 代码片段以编程方式上传
from datasets import load_dataset
# Load the Parquet file into a dataset
dataset = load_dataset('parquet', data_files='query_result.parquet')
# Push the dataset to your Hugging Face repository
dataset.push_to_hub('your_dataset_name')
或者按照这些步骤创建您的数据集。
在我的例子中,我这个数据集现在看起来是这样
3. 生成训练代码
接下来,我们将使用 笔记本创建器 应用程序为我们的数据集生成训练代码。
- 选择
asoria/love-poems
作为数据集名称
- 选择
Supervised fine-tuning (SFT)
笔记本类型。
- 点击
生成笔记本
并在 Google Colab 中打开它。
4. 微调模型
现在,是时候运行生成笔记本中的脚本了。我们将使用该数据集微调预训练模型,例如 facebook/opt-350m
,以创建新的、更具爱意版本。
按照笔记本中的说明训练模型。训练完成后,您将拥有一个能够以更可爱的方式回应的模型!🌹✨
结论
只需几个简单的步骤,我们就使用 Hugging Face SQL 控制台创建了数据集的新版本,使用笔记本创建器生成了必要的代码,并微调了一个模型,使其能够以更多的爱和诗意进行回答。
现在,您的模型已准备好在每次回应中传播爱!💕🎉