使用 DDPO 进行强化学习训练
您可以通过强化学习和 🤗 TRL 库以及 🤗 Diffusers 在奖励函数上微调 Stable Diffusion。这通过 Black 等人在 使用强化学习训练扩散模型 中介绍的去噪扩散策略优化 (DDPO) 算法完成,该算法在 🤗 TRL 中使用 DDPOTrainer 实现。
有关更多信息,请查看 DDPOTrainer API 参考和 通过 TRL 使用 DDPO 微调 Stable Diffusion 模型 博客文章。
< > 在 GitHub 上更新