Diffusers 文档

带有 DDPO 的强化学习训练

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

带有 DDPO 的强化学习训练

您可以使用 🤗 TRL 库和 🤗 Diffusers,通过强化学习在奖励函数上微调 Stable Diffusion。这是通过 Black 等人在 Training Diffusion Models with Reinforcement Learning 中介绍的去噪扩散策略优化 (Denoising Diffusion Policy Optimization, DDPO) 算法完成的,该算法在 🤗 TRL 中通过 DDPOTrainer 实现。

有关更多信息,请查看 DDPOTrainer API 参考和 通过 TRL 使用 DDPO 微调 Stable Diffusion 模型 博客文章。

< > 更新 在 GitHub 上