Diffusers 文档

价值导向规划

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始

价值引导规划

🧪 这是一个用于强化学习的实验管道!

该管道基于 Michael Janner、Yilun Du、Joshua B. Tenenbaum 和 Sergey Levine 撰写的 使用扩散进行灵活行为合成的规划 论文。

该论文的摘要如下

基于模型的强化学习方法通常只将学习用于估计近似动力学模型,并将其余的决策工作卸载到经典的轨迹优化器。虽然从概念上讲很简单,但这种组合在经验上存在一些缺陷,这表明学习到的模型可能不适合标准的轨迹优化。在本文中,我们将考虑将尽可能多的轨迹优化流程融入建模问题中,使得从模型中采样和规划几乎相同。我们技术方法的核心在于一个扩散概率模型,它通过迭代去噪轨迹进行规划。我们展示了如何将分类器引导采样和图像修复重新解释为一致的规划策略,探索了基于扩散的规划方法的非凡且有用的特性,并在强调长周期决策和测试时灵活性的控制设置中展示了我们框架的有效性。

您可以在 项目页面原始代码库 上找到有关模型的更多信息,或在演示 笔记本 中试用它。

运行模型的脚本可在 此处 获取。

一定要查看调度器 指南 以了解如何探索调度器速度和质量之间的权衡,并查看 在管道之间重用组件 部分,了解如何有效地将相同的组件加载到多个管道中。

ValueGuidedRLPipeline

class diffusers.experimental.ValueGuidedRLPipeline

< >

( value_function: UNet1DModel unet: UNet1DModel scheduler: DDPMScheduler env )

参数

  • value_function (UNet1DModel) — 一个专门的 UNet,用于根据奖励微调轨迹。
  • unet (UNet1DModel) — UNet 架构,用于对编码后的轨迹进行去噪。
  • scheduler (SchedulerMixin) — 用于与 unet 结合以对编码后的轨迹进行去噪的调度器。此应用程序的默认值为 DDPMScheduler
  • env () — 遵循 OpenAI gym API 的环境,用于执行操作。目前,只有 Hopper 拥有预训练模型。

用于从训练以预测状态序列的扩散模型中进行值引导采样的管道。

此模型继承自 DiffusionPipeline。查看超类文档以了解为所有管道实现的通用方法(下载、保存、在特定设备上运行等)。

< > 在 GitHub 上更新