Diffusers 文档
使用 DDPO 进行强化学习训练
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
使用 DDPO 进行强化学习训练
您可以使用 🤗 TRL 库和 🤗 Diffusers 通过强化学习,根据奖励函数微调 Stable Diffusion。这通过 Black 等人在 Training Diffusion Models with Reinforcement Learning 中介绍的去噪扩散策略优化 (DDPO) 算法实现,该算法在 🤗 TRL 中使用 DDPOTrainer 实现。
欲了解更多信息,请查看 DDPOTrainer API 参考和 Finetune Stable Diffusion Models with DDPO via TRL 博客文章。
< > 在 GitHub 上更新