TRL 文档

社区教程

TRL

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

社区教程

社区教程由 Hugging Face 社区的活跃成员制作，他们希望与他人分享他们的知识和专业知识。它们是了解该库及其功能以及开始使用核心类和模式的好方法。

语言模型

任务	类	描述	作者	教程	Colab
强化学习	GRPOTrainer	在 TRL 中使用 GRPO 进行推理的 LLM 后期训练	Sergio Paniego	链接
强化学习	GRPOTrainer	Mini-R1：复现 Deepseek R1 “顿悟时刻” RL 教程	Philipp Schmid	链接
指令调优	SFTTrainer	使用 ChatML 格式和 QLoRA 微调 Google Gemma LLM	Philipp Schmid	链接
结构化生成	SFTTrainer	使用 QLoRA 和 PEFT 微调 Llama-2-7B 以生成 JSON 格式的波斯语产品目录	Mohammadreza Esmaeilian	链接
偏好优化	DPOTrainer	使用直接偏好优化对齐 Mistral-7b 以实现人类偏好对齐	Maxime Labonne	链接
偏好优化	ORPOTrainer	使用 ORPO 结合指令调优和偏好对齐微调 Llama 3	Maxime Labonne	链接
指令调优	SFTTrainer	如何在 2025 年使用 Hugging Face 微调开放 LLM	Philipp Schmid	链接

视觉语言模型

任务	类	描述	作者	教程	Colab
视觉问答	SFTTrainer	在 ChartQA 数据集上微调 Qwen2-VL-7B 以进行视觉问题解答	Sergio Paniego	链接
视觉问答	SFTTrainer	在消费级 GPU 上使用 TRL 微调 SmolVLM	Sergio Paniego	链接
SEO 描述	SFTTrainer	微调 Qwen2-VL-7B 以从图像生成 SEO 友好的描述	Philipp Schmid	链接
视觉问答	DPOTrainer	PaliGemma 🤝 直接偏好优化	Merve Noyan	链接
视觉问答	DPOTrainer	在消费级 GPU 上使用 TRL 通过直接偏好优化 (DPO) 微调 SmolVLM	Sergio Paniego	链接

贡献

如果您有想要添加到此列表的教程，请打开 PR 添加它。如果它与社区相关，我们将对其进行审查并合并。

< > 在 GitHub 上更新

←示例概览 Sentiment Tuning→