LLM 课程文档

Supervised Fine-Tuning

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始入门

Supervised Fine-Tuning

第 2 章第 2 节 中,我们看到生成式语言模型可以在特定任务上进行微调,例如摘要和问答。然而,如今更常见的是同时在广泛的任务上微调语言模型;这种方法被称为监督式微调 (SFT)。此过程有助于模型变得更加通用,并能够处理各种用例。人们在 ChatGPT 等平台上互动的大多数 LLM 都经过了 SFT,以使其更有帮助并更符合人类偏好。我们将本章分为四个部分

1️⃣ 聊天模板

聊天模板构建用户和 AI 模型之间的交互,确保一致且在上下文中适当的响应。它们包括系统提示和基于角色的消息等组件。

2️⃣ Supervised Fine-Tuning

监督式微调 (SFT) 是调整预训练语言模型以适应特定任务的关键过程。它涉及在带有标记示例的特定于任务的数据集上训练模型。有关 SFT 的详细指南,包括关键步骤和最佳实践,请参阅 TRL 文档的监督式微调部分

3️⃣ 低秩适配 (LoRA)

低秩适配 (LoRA) 是一种通过在模型的层中添加低秩矩阵来微调语言模型的技术。这允许高效的微调,同时保留模型的预训练知识。LoRA 的主要优势之一是它提供的显着内存节省,这使得在资源有限的硬件上微调大型模型成为可能。

4️⃣ 评估

评估是微调过程中至关重要的一步。它允许我们衡量模型在特定于任务的数据集上的性能。

⚠️ 为了从 Model Hub 和 🤗 Transformers 提供的所有功能中获益,我们建议创建一个帐户

参考文献

< > 更新 在 GitHub 上