LLM 课程文档
Supervised Fine-Tuning
加入 Hugging Face 社区
并获取增强的文档体验
开始入门
Supervised Fine-Tuning
在 第 2 章第 2 节 中,我们看到生成式语言模型可以在特定任务上进行微调,例如摘要和问答。然而,如今更常见的是同时在广泛的任务上微调语言模型;这种方法被称为监督式微调 (SFT)。此过程有助于模型变得更加通用,并能够处理各种用例。人们在 ChatGPT 等平台上互动的大多数 LLM 都经过了 SFT,以使其更有帮助并更符合人类偏好。我们将本章分为四个部分
1️⃣ 聊天模板
聊天模板构建用户和 AI 模型之间的交互,确保一致且在上下文中适当的响应。它们包括系统提示和基于角色的消息等组件。
2️⃣ Supervised Fine-Tuning
监督式微调 (SFT) 是调整预训练语言模型以适应特定任务的关键过程。它涉及在带有标记示例的特定于任务的数据集上训练模型。有关 SFT 的详细指南,包括关键步骤和最佳实践,请参阅 TRL 文档的监督式微调部分。
3️⃣ 低秩适配 (LoRA)
低秩适配 (LoRA) 是一种通过在模型的层中添加低秩矩阵来微调语言模型的技术。这允许高效的微调,同时保留模型的预训练知识。LoRA 的主要优势之一是它提供的显着内存节省,这使得在资源有限的硬件上微调大型模型成为可能。
4️⃣ 评估
评估是微调过程中至关重要的一步。它允许我们衡量模型在特定于任务的数据集上的性能。
⚠️ 为了从 Model Hub 和 🤗 Transformers 提供的所有功能中获益,我们建议创建一个帐户。
参考文献
- Transformers 文档关于聊天模板
- TRL 中监督式微调的脚本
- TRL 中的
SFTTrainer
- 直接偏好优化论文
- 使用 TRL 进行监督式微调
- 如何使用 ChatML 和 Hugging Face TRL 微调 Google Gemma
- 微调 LLM 以生成 JSON 格式的波斯产品目录