Diffusers 文档
带有 DDPO 的强化学习训练
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
带有 DDPO 的强化学习训练
您可以使用 🤗 TRL 库和 🤗 Diffusers,通过强化学习在奖励函数上微调 Stable Diffusion。这是通过 Black 等人在 Training Diffusion Models with Reinforcement Learning 中介绍的去噪扩散策略优化 (Denoising Diffusion Policy Optimization, DDPO) 算法完成的,该算法在 🤗 TRL 中通过 DDPOTrainer 实现。
有关更多信息,请查看 DDPOTrainer API 参考和 通过 TRL 使用 DDPO 微调 Stable Diffusion 模型 博客文章。
< > 更新 在 GitHub 上