TRL - Transformer 强化学习
TRL 是一个全栈库,我们提供了一套工具来使用强化学习训练 Transformer 语言模型,从监督微调步骤 (SFT)、奖励建模步骤 (RM) 到近端策略优化 (PPO) 步骤。该库与 🤗 transformers 集成。
根据您的需要查看文档的相应部分
API 文档
- 模型类: 每个公共模型类的简要概述。
SFTTrainer
: 使用SFTTrainer
轻松监督微调您的模型RewardTrainer
: 使用RewardTrainer
轻松训练您的奖励模型。PPOTrainer
: 使用 PPO 算法进一步微调监督微调模型- 最佳 N 个采样: 使用最佳 N 个采样作为从您的活动模型中采样预测的替代方法
DPOTrainer
: 使用DPOTrainer
进行直接偏好优化训练。TextEnvironment
: 文本环境,使用 RL 使用工具训练您的模型。
示例
- 情感调整: 微调您的模型以生成正面的电影内容
- 使用 PEFT 训练: 使用适配器和 PEFT 进行内存高效的 RLHF 训练
- 净化大型语言模型: 通过 RLHF 净化您的语言模型
- StackLlama: 在 Stack Exchange 数据集上对 Llama 模型进行端到端 RLHF 训练
- 学习使用工具: 使用
TextEnvironments
的分步指南 - 多适配器训练: 使用单个基础模型和多个适配器进行内存高效的端到端训练
博客文章
< > 更新 在 GitHub 上