TRL 文档
TRL - Transformer 强化学习
并获得增强的文档体验
开始

TRL - Transformer 强化学习
TRL 是一个全栈库,我们提供了一系列工具,用于使用诸如监督微调 (SFT)、群体相对策略优化 (GRPO)、直接偏好优化 (DPO)、奖励建模等方法训练 Transformer 语言模型。该库与 🤗 transformers 集成。
您还可以在 TRL Hugging Face 组织中探索与 TRL 相关的模型、数据集和演示。
学习
在 🤗 smol course 中学习使用 TRL 和其他库进行后训练。
目录
文档分为以下几个部分
- 入门指南:安装和快速入门指南。
- 概念指南:数据集格式、训练常见问题解答和理解日志。
- 实践指南:减少内存使用、加速训练、分布式训练等。
- 集成:DeepSpeed、Liger Kernel、PEFT 等。
- 示例:示例概览、社区教程等。
- API:训练器、实用程序等。
博客文章

发布于 January 28, 2025
Open-R1: a fully open reproduction of DeepSeek-R1

发布于 July 10, 2024
Preference Optimization for Vision Language Models with TRL

发布于 June 12, 2024
Putting RL back in RLHF

发布于 September 29, 2023
Finetune Stable Diffusion Models with DDPO via TRL

发布于 August 8, 2023
Fine-tune Llama 2 with DPO

发布于 April 5, 2023
StackLLaMA: A hands-on guide to train LLaMA with RLHF

发布于 March 9, 2023
Fine-tuning 20B LLMs with RLHF on a 24GB consumer GPU

发布于 December 9, 2022
Illustrating Reinforcement Learning from Human Feedback