TRL 文档
社区教程
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
社区教程
社区教程由 Hugging Face 社区的活跃成员制作,他们希望与他人分享他们的知识和专业知识。 它们是了解该库及其功能以及开始使用核心类和模式的好方法。
语言模型
任务 | 类 | 描述 | 作者 | 教程 | Colab |
---|---|---|---|---|---|
强化学习 | GRPOTrainer | 在 TRL 中使用 GRPO 进行推理的 LLM 后期训练 | Sergio Paniego | 链接 | |
强化学习 | GRPOTrainer | Mini-R1:复现 Deepseek R1 “顿悟时刻” RL 教程 | Philipp Schmid | 链接 | |
指令调优 | SFTTrainer | 使用 ChatML 格式和 QLoRA 微调 Google Gemma LLM | Philipp Schmid | 链接 | |
结构化生成 | SFTTrainer | 使用 QLoRA 和 PEFT 微调 Llama-2-7B 以生成 JSON 格式的波斯语产品目录 | Mohammadreza Esmaeilian | 链接 | |
偏好优化 | DPOTrainer | 使用直接偏好优化对齐 Mistral-7b 以实现人类偏好对齐 | Maxime Labonne | 链接 | |
偏好优化 | ORPOTrainer | 使用 ORPO 结合指令调优和偏好对齐微调 Llama 3 | Maxime Labonne | 链接 | |
指令调优 | SFTTrainer | 如何在 2025 年使用 Hugging Face 微调开放 LLM | Philipp Schmid | 链接 |
视觉语言模型
任务 | 类 | 描述 | 作者 | 教程 | Colab |
---|---|---|---|---|---|
视觉问答 | SFTTrainer | 在 ChartQA 数据集上微调 Qwen2-VL-7B 以进行视觉问题解答 | Sergio Paniego | 链接 | |
视觉问答 | SFTTrainer | 在消费级 GPU 上使用 TRL 微调 SmolVLM | Sergio Paniego | 链接 | |
SEO 描述 | SFTTrainer | 微调 Qwen2-VL-7B 以从图像生成 SEO 友好的描述 | Philipp Schmid | 链接 | |
视觉问答 | DPOTrainer | PaliGemma 🤝 直接偏好优化 | Merve Noyan | 链接 | |
视觉问答 | DPOTrainer | 在消费级 GPU 上使用 TRL 通过直接偏好优化 (DPO) 微调 SmolVLM | Sergio Paniego | 链接 |
贡献
如果您有想要添加到此列表的教程,请打开 PR 添加它。 如果它与社区相关,我们将对其进行审查并合并。
< > 在 GitHub 上更新