TRL 文档

社区教程

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

社区教程

社区教程由 Hugging Face 社区的活跃成员制作,他们希望与他人分享他们的知识和专业知识。 它们是了解该库及其功能以及开始使用核心类和模式的好方法。

语言模型

任务 描述 作者 教程 Colab
强化学习 GRPOTrainer 在 TRL 中使用 GRPO 进行推理的 LLM 后期训练 Sergio Paniego 链接 Open In Colab
强化学习 GRPOTrainer Mini-R1:复现 Deepseek R1 “顿悟时刻” RL 教程 Philipp Schmid 链接 Open In Colab
指令调优 SFTTrainer 使用 ChatML 格式和 QLoRA 微调 Google Gemma LLM Philipp Schmid 链接 Open In Colab
结构化生成 SFTTrainer 使用 QLoRA 和 PEFT 微调 Llama-2-7B 以生成 JSON 格式的波斯语产品目录 Mohammadreza Esmaeilian 链接 Open In Colab
偏好优化 DPOTrainer 使用直接偏好优化对齐 Mistral-7b 以实现人类偏好对齐 Maxime Labonne 链接 Open In Colab
偏好优化 ORPOTrainer 使用 ORPO 结合指令调优和偏好对齐微调 Llama 3 Maxime Labonne 链接 Open In Colab
指令调优 SFTTrainer 如何在 2025 年使用 Hugging Face 微调开放 LLM Philipp Schmid 链接 Open In Colab

视觉语言模型

任务 描述 作者 教程 Colab
视觉问答 SFTTrainer 在 ChartQA 数据集上微调 Qwen2-VL-7B 以进行视觉问题解答 Sergio Paniego 链接 Open In Colab
视觉问答 SFTTrainer 在消费级 GPU 上使用 TRL 微调 SmolVLM Sergio Paniego 链接 Open In Colab
SEO 描述 SFTTrainer 微调 Qwen2-VL-7B 以从图像生成 SEO 友好的描述 Philipp Schmid 链接 Open In Colab
视觉问答 DPOTrainer PaliGemma 🤝 直接偏好优化 Merve Noyan 链接 Open In Colab
视觉问答 DPOTrainer 在消费级 GPU 上使用 TRL 通过直接偏好优化 (DPO) 微调 SmolVLM Sergio Paniego 链接 Open In Colab

贡献

如果您有想要添加到此列表的教程,请打开 PR 添加它。 如果它与社区相关,我们将对其进行审查并合并。

< > 在 GitHub 上更新