Diffusers 文档

价值引导的规划

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始

价值引导的规划

🧪 这是一个用于强化学习的实验性 pipeline!

此 pipeline 基于 Michael Janner、Yilun Du、Joshua B. Tenenbaum 和 Sergey Levine 的论文《Planning with Diffusion for Flexible Behavior Synthesis》。

该论文的摘要是

基于模型的强化学习方法通常仅将学习用于估计近似动力学模型,并将剩余的决策工作转移到经典轨迹优化器。虽然概念上很简单,但这种组合存在一些经验上的缺陷,表明学习到的模型可能不太适合标准轨迹优化。在本文中,我们考虑如何将尽可能多的轨迹优化 pipeline 折叠到建模问题中,使得从模型中采样和使用模型进行规划变得几乎相同。我们技术方法的核心在于一个扩散概率模型,该模型通过迭代去噪轨迹进行规划。我们展示了如何将分类器引导的采样和图像修复重新解释为连贯的规划策略,探索了基于扩散的规划方法的不寻常且有用的特性,并证明了我们的框架在强调长时域决策和测试时灵活性的控制设置中的有效性。

您可以在项目页面原始代码库中找到有关该模型的更多信息,或者在演示 notebook 中试用。

运行该模型的脚本可在此处 找到

请务必查看 Schedulers 指南,了解如何探索 scheduler 速度和质量之间的权衡,并查看跨 pipelines 重用组件部分,了解如何有效地将相同组件加载到多个 pipelines 中。

ValueGuidedRLPipeline

class diffusers.experimental.ValueGuidedRLPipeline

< >

( value_function: UNet1DModel unet: UNet1DModel scheduler: DDPMScheduler env )

参数

  • value_function (UNet1DModel) — 一种专门的 UNet,用于根据奖励微调轨迹。
  • unet (UNet1DModel) — 用于去噪编码轨迹的 UNet 架构。
  • scheduler (SchedulerMixin) — 一种调度器,与 unet 结合使用以去噪编码轨迹。此应用的默认调度器是 DDPMScheduler
  • env () — 一个遵循 OpenAI gym API 的环境,用于在其中执行动作。目前只有 Hopper 有预训练模型。

用于从扩散模型进行价值引导采样的 Pipeline,该模型经过训练以预测状态序列。

此模型继承自 DiffusionPipeline。查看超类文档以了解为所有 pipelines 实现的通用方法(下载、保存、在特定设备上运行等)。

< > GitHub 上更新