LLM 课程文档
监督式微调
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
监督式微调
在第2章第2节中,我们看到生成式语言模型可以针对摘要和问答等特定任务进行微调。然而,如今更常见的是同时针对广泛任务对语言模型进行微调;这种方法被称为监督式微调 (SFT)。这个过程有助于模型变得更通用,能够处理各种用例。人们在ChatGPT等平台上与大多数LLM的交互都经过了SFT,以使其更具帮助性并符合人类偏好。本章我们将分为四个部分:
1️⃣ 聊天模板
聊天模板构建用户与AI模型之间的交互,确保一致且符合上下文的响应。它们包括系统提示和基于角色的消息等组件。
2️⃣ 监督式微调
监督式微调 (SFT) 是使预训练语言模型适应特定任务的关键过程。它涉及使用带标签的示例在任务特定数据集上训练模型。有关 SFT 的详细指南,包括关键步骤和最佳实践,请参阅 TRL 文档的监督式微调部分。
3️⃣ 低秩适应 (LoRA)
低秩适应 (LoRA) 是一种通过向模型层添加低秩矩阵来微调语言模型的技术。这使得能够高效地进行微调,同时保留模型的预训练知识。LoRA 的主要优势之一是它显著节省了内存,使得在资源有限的硬件上微调大型模型成为可能。
4️⃣ 评估
评估是微调过程中的关键步骤。它允许我们衡量模型在特定任务数据集上的性能。
⚠️ 为了充分利用模型中心和 🤗 Transformers 的所有可用功能,我们建议创建一个账户。
参考文献
- Transformers 关于聊天模板的文档
- TRL 中监督式微调的脚本
- TRL 中的
SFTTrainer
- 直接偏好优化论文
- 使用 TRL 进行监督式微调
- 如何使用 ChatML 和 Hugging Face TRL 微调 Google Gemma
- 微调 LLM 以 JSON 格式生成波斯语产品目录