TRL 文档

社区教程

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

社区教程

社区教程由 Hugging Face 社区的活跃成员制作,他们希望与他人分享自己的知识和专业技能。这些教程是了解该库及其功能、并开始使用核心类和模态的绝佳方式。

语言模型

任务 分类 描述 作者 教程 Colab
强化学习 GRPOTrainer 在 TRL 中使用 GRPO 对 LLM 进行推理后训练 Sergio Paniego 链接 Open In Colab
强化学习 GRPOTrainer Mini-R1:复现Deepseek R1的“顿悟时刻”——RL教程 Philipp Schmid 链接 Open In Colab
强化学习 GRPOTrainer 使用 GRPO 和 Unsloth 优化在 LLaMA 3.1-8B 上进行强化学习 Andrea Manzoni 链接 Open In Colab
指令微调 SFTTrainer 使用 ChatML 格式和 QLoRA 微调 Google Gemma LLM Philipp Schmid 链接 Open In Colab
结构化生成 SFTTrainer 使用 QLoRA 和 PEFT 微调 Llama-2-7B 以生成 JSON 格式的波斯语产品目录 Mohammadreza Esmaeilian 链接 Open In Colab
偏好优化 DPOTrainer 使用直接偏好优化对 Mistral-7b 进行对齐以符合人类偏好 Maxime Labonne 链接 Open In Colab
偏好优化 ORPOTrainer 使用 ORPO 微调 Llama 3,结合指令微调和偏好对齐 Maxime Labonne 链接 Open In Colab
指令微调 SFTTrainer 如何在 2025 年使用 Hugging Face 微调开放式 LLM Philipp Schmid 链接 Open In Colab

视觉语言模型

任务 分类 描述 作者 教程 Colab
视觉问答 SFTTrainer 在 ChartQA 数据集上微调 Qwen2-VL-7B 用于视觉问答 Sergio Paniego 链接 Open In Colab
视觉问答 SFTTrainer 在消费级 GPU 上使用 TRL 微调 SmolVLM Sergio Paniego 链接 Open In Colab
SEO 描述 SFTTrainer 微调 Qwen2-VL-7B 以从图像生成对 SEO 友好的描述 Philipp Schmid 链接 Open In Colab
视觉问答 DPOTrainer PaliGemma 🤝 直接偏好优化 Merve Noyan 链接 Open In Colab
视觉问答 DPOTrainer 在消费级 GPU 上使用 TRL 和直接偏好优化 (DPO) 微调 SmolVLM Sergio Paniego 链接 Open In Colab
目标检测定位 SFTTrainer 使用 TRL 微调视觉语言模型 (VLM) 以进行目标检测定位 Sergio Paniego 链接 Open In Colab
视觉问答 DPOTrainer 使用 TRL 和 MPO 微调视觉语言模型 Sergio Paniego 链接 Open In Colab
强化学习 GRPOTrainer 使用 TRL 和 GRPO 对 VLM 进行推理后训练 Sergio Paniego 链接 Open In Colab

贡献

如果您有希望添加到此列表的教程,请提交一个 PR 以添加它。我们将进行审核,如果它与社区相关,我们将合并它。

< > 在 GitHub 上更新