Diffusers 文档

使用 DDPO 进行强化学习训练

Hugging Face's logo
加入 Hugging Face 社区

并获取增强文档体验

开始使用

使用 DDPO 进行强化学习训练

您可以通过强化学习和 🤗 TRL 库以及 🤗 Diffusers 在奖励函数上微调 Stable Diffusion。这通过 Black 等人在 使用强化学习训练扩散模型 中介绍的去噪扩散策略优化 (DDPO) 算法完成,该算法在 🤗 TRL 中使用 DDPOTrainer 实现。

有关更多信息,请查看 DDPOTrainer API 参考和 通过 TRL 使用 DDPO 微调 Stable Diffusion 模型 博客文章。

< > 在 GitHub 上更新