🌟 使用 Hugging Face SQL 控制台、笔记本创建器和 SFT 轻松进行微调

社区文章 发布于 2024 年 9 月 24 日

在本教程中,我们将带您了解创建新数据集、使用其微调模型并在 Hugging Face 上共享模型的端到端过程。最后,您将拥有一个能够以美妙的诗意方式回应的模型!💖

我们将使用什么

  • Hugging Face 数据集查看器 SQL 控制台
  • 数据集笔记本创建器
  • Google Colab

在本示例中,我们将使用一个诗歌数据集,并且只筛选“爱情”类别的诗歌。这将使我们能够微调模型,以生成充满爱和情感的答案。💌

1. 获取数据

让我们从获取数据开始。我们将使用 Georgii/poetry-genre 数据集,其中包含各种主题的诗歌。

image/png

我们只需要“爱情”诗歌,并且我们将过滤掉任何短于 150 个字符的诗歌。为此,我们将使用 SQL 控制台

单击 SQL 控制台

image/png

现在,编写以下 SQL 查询

SELECT text AS poem FROM train WHERE genre = 'Love' AND len(text) > 150

image/png

💡 提示:有关使用 SQL 控制台的更多高级技术和示例,请查看指南。

现在,单击“下载”将筛选后的数据集保存为 Parquet 文件。我们将在接下来的步骤中使用此文件。

image/png

2. 将数据集上传到 Hugging Face

在 Hugging Face 上为您的数据集创建一个新仓库。您可以手动上传 Parquet 文件,也可以使用以下 Python 代码片段以编程方式上传

from datasets import load_dataset

# Load the Parquet file into a dataset
dataset = load_dataset('parquet', data_files='query_result.parquet')

# Push the dataset to your Hugging Face repository
dataset.push_to_hub('your_dataset_name')

或者按照这些步骤创建您的数据集。

在我的例子中,我这个数据集现在看起来是这样

image/png

3. 生成训练代码

接下来,我们将使用 笔记本创建器 应用程序为我们的数据集生成训练代码。

  1. 选择 asoria/love-poems 作为数据集名称

image/png

  1. 选择 Supervised fine-tuning (SFT) 笔记本类型。

image/png

  1. 点击 生成笔记本 并在 Google Colab 中打开它。

4. 微调模型

现在,是时候运行生成笔记本中的脚本了。我们将使用该数据集微调预训练模型,例如 facebook/opt-350m,以创建新的、更具爱意版本。

按照笔记本中的说明训练模型。训练完成后,您将拥有一个能够以更可爱的方式回应的模型!🌹✨

结论

只需几个简单的步骤,我们就使用 Hugging Face SQL 控制台创建了数据集的新版本,使用笔记本创建器生成了必要的代码,并微调了一个模型,使其能够以更多的爱和诗意进行回答。

现在,您的模型已准备好在每次回应中传播爱!💕🎉

社区

注册登录 发表评论