LLM 课程文档

监督式微调

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

监督式微调

第2章第2节中,我们看到生成式语言模型可以针对摘要和问答等特定任务进行微调。然而,如今更常见的是同时针对广泛任务对语言模型进行微调;这种方法被称为监督式微调 (SFT)。这个过程有助于模型变得更通用,能够处理各种用例。人们在ChatGPT等平台上与大多数LLM的交互都经过了SFT,以使其更具帮助性并符合人类偏好。本章我们将分为四个部分:

1️⃣ 聊天模板

聊天模板构建用户与AI模型之间的交互,确保一致且符合上下文的响应。它们包括系统提示和基于角色的消息等组件。

2️⃣ 监督式微调

监督式微调 (SFT) 是使预训练语言模型适应特定任务的关键过程。它涉及使用带标签的示例在任务特定数据集上训练模型。有关 SFT 的详细指南,包括关键步骤和最佳实践,请参阅 TRL 文档的监督式微调部分

3️⃣ 低秩适应 (LoRA)

低秩适应 (LoRA) 是一种通过向模型层添加低秩矩阵来微调语言模型的技术。这使得能够高效地进行微调,同时保留模型的预训练知识。LoRA 的主要优势之一是它显著节省了内存,使得在资源有限的硬件上微调大型模型成为可能。

4️⃣ 评估

评估是微调过程中的关键步骤。它允许我们衡量模型在特定任务数据集上的性能。

⚠️ 为了充分利用模型中心和 🤗 Transformers 的所有可用功能,我们建议创建一个账户

参考文献

< > 在 GitHub 上更新