TRL 文档

TRL - Transformer 强化学习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

以开始使用

TRL - Transformer 强化学习

TRL 是一个全栈库,我们提供了一套工具来使用强化学习训练 Transformer 语言模型,从监督微调步骤 (SFT)、奖励建模步骤 (RM) 到近端策略优化 (PPO) 步骤。该库与 🤗 transformers 集成。

根据您的需要查看文档的相应部分

API 文档

  • 模型类: 每个公共模型类的简要概述。
  • SFTTrainer: 使用 SFTTrainer 轻松监督微调您的模型
  • RewardTrainer: 使用 RewardTrainer 轻松训练您的奖励模型。
  • PPOTrainer: 使用 PPO 算法进一步微调监督微调模型
  • 最佳 N 个采样: 使用最佳 N 个采样作为从您的活动模型中采样预测的替代方法
  • DPOTrainer: 使用 DPOTrainer 进行直接偏好优化训练。
  • TextEnvironment: 文本环境,使用 RL 使用工具训练您的模型。

示例

博客文章

< > 更新 在 GitHub 上