Diffusers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

使用 DDPO 进行强化学习训练

您可以使用 🤗 TRL 库和 🤗 Diffusers 通过强化学习，根据奖励函数微调 Stable Diffusion。这通过 Black 等人在 Training Diffusion Models with Reinforcement Learning 中介绍的去噪扩散策略优化 (DDPO) 算法实现，该算法在 🤗 TRL 中使用 DDPOTrainer 实现。

欲了解更多信息，请查看 DDPOTrainer API 参考和 Finetune Stable Diffusion Models with DDPO via TRL 博客文章。

< > 在 GitHub 上更新

←潜在一致性蒸馏入门→