Diffusers 文档

使用 DDPO 进行强化学习训练

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

使用 DDPO 进行强化学习训练

您可以使用 🤗 TRL 库和 🤗 Diffusers 通过强化学习,根据奖励函数微调 Stable Diffusion。这通过 Black 等人在 Training Diffusion Models with Reinforcement Learning 中介绍的去噪扩散策略优化 (DDPO) 算法实现,该算法在 🤗 TRL 中使用 DDPOTrainer 实现。

欲了解更多信息,请查看 DDPOTrainer API 参考和 Finetune Stable Diffusion Models with DDPO via TRL 博客文章。

< > 在 GitHub 上更新