TRL 文档

TRL - Transformer 强化学习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始

TRL - Transformer 强化学习

TRL 是一个全栈库,我们提供了一系列工具,用于使用诸如监督微调 (SFT)、群体相对策略优化 (GRPO)、直接偏好优化 (DPO)、奖励建模等方法训练 Transformer 语言模型。该库与 🤗 transformers 集成。

您还可以在 TRL Hugging Face 组织中探索与 TRL 相关的模型、数据集和演示。

学习

在 🤗 smol course 中学习使用 TRL 和其他库进行后训练。

目录

文档分为以下几个部分

  • 入门指南:安装和快速入门指南。
  • 概念指南:数据集格式、训练常见问题解答和理解日志。
  • 实践指南:减少内存使用、加速训练、分布式训练等。
  • 集成:DeepSpeed、Liger Kernel、PEFT 等。
  • 示例:示例概览、社区教程等。
  • API:训练器、实用程序等。

博客文章

< > 在 GitHub 上更新