TRL 文档
社区教程
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
社区教程
社区教程由 Hugging Face 社区的活跃成员制作,他们希望与他人分享自己的知识和专业技能。这些教程是了解该库及其功能、并开始使用核心类和模态的绝佳方式。
语言模型
任务 | 分类 | 描述 | 作者 | 教程 | Colab |
---|---|---|---|---|---|
强化学习 | GRPOTrainer | 在 TRL 中使用 GRPO 对 LLM 进行推理后训练 | Sergio Paniego | 链接 | |
强化学习 | GRPOTrainer | Mini-R1:复现Deepseek R1的“顿悟时刻”——RL教程 | Philipp Schmid | 链接 | |
强化学习 | GRPOTrainer | 使用 GRPO 和 Unsloth 优化在 LLaMA 3.1-8B 上进行强化学习 | Andrea Manzoni | 链接 | |
指令微调 | SFTTrainer | 使用 ChatML 格式和 QLoRA 微调 Google Gemma LLM | Philipp Schmid | 链接 | |
结构化生成 | SFTTrainer | 使用 QLoRA 和 PEFT 微调 Llama-2-7B 以生成 JSON 格式的波斯语产品目录 | Mohammadreza Esmaeilian | 链接 | |
偏好优化 | DPOTrainer | 使用直接偏好优化对 Mistral-7b 进行对齐以符合人类偏好 | Maxime Labonne | 链接 | |
偏好优化 | ORPOTrainer | 使用 ORPO 微调 Llama 3,结合指令微调和偏好对齐 | Maxime Labonne | 链接 | |
指令微调 | SFTTrainer | 如何在 2025 年使用 Hugging Face 微调开放式 LLM | Philipp Schmid | 链接 |
视觉语言模型
任务 | 分类 | 描述 | 作者 | 教程 | Colab |
---|---|---|---|---|---|
视觉问答 | SFTTrainer | 在 ChartQA 数据集上微调 Qwen2-VL-7B 用于视觉问答 | Sergio Paniego | 链接 | |
视觉问答 | SFTTrainer | 在消费级 GPU 上使用 TRL 微调 SmolVLM | Sergio Paniego | 链接 | |
SEO 描述 | SFTTrainer | 微调 Qwen2-VL-7B 以从图像生成对 SEO 友好的描述 | Philipp Schmid | 链接 | |
视觉问答 | DPOTrainer | PaliGemma 🤝 直接偏好优化 | Merve Noyan | 链接 | |
视觉问答 | DPOTrainer | 在消费级 GPU 上使用 TRL 和直接偏好优化 (DPO) 微调 SmolVLM | Sergio Paniego | 链接 | |
目标检测定位 | SFTTrainer | 使用 TRL 微调视觉语言模型 (VLM) 以进行目标检测定位 | Sergio Paniego | 链接 | |
视觉问答 | DPOTrainer | 使用 TRL 和 MPO 微调视觉语言模型 | Sergio Paniego | 链接 | |
强化学习 | GRPOTrainer | 使用 TRL 和 GRPO 对 VLM 进行推理后训练 | Sergio Paniego | 链接 |
贡献
如果您有希望添加到此列表的教程,请提交一个 PR 以添加它。我们将进行审核,如果它与社区相关,我们将合并它。
< > 在 GitHub 上更新