价值引导规划
🧪 这是一个用于强化学习的实验管道!
该管道基于 Michael Janner、Yilun Du、Joshua B. Tenenbaum 和 Sergey Levine 撰写的 使用扩散进行灵活行为合成的规划 论文。
该论文的摘要如下
基于模型的强化学习方法通常只将学习用于估计近似动力学模型,并将其余的决策工作卸载到经典的轨迹优化器。虽然从概念上讲很简单,但这种组合在经验上存在一些缺陷,这表明学习到的模型可能不适合标准的轨迹优化。在本文中,我们将考虑将尽可能多的轨迹优化流程融入建模问题中,使得从模型中采样和规划几乎相同。我们技术方法的核心在于一个扩散概率模型,它通过迭代去噪轨迹进行规划。我们展示了如何将分类器引导采样和图像修复重新解释为一致的规划策略,探索了基于扩散的规划方法的非凡且有用的特性,并在强调长周期决策和测试时灵活性的控制设置中展示了我们框架的有效性。
您可以在 项目页面、原始代码库 上找到有关模型的更多信息,或在演示 笔记本 中试用它。
运行模型的脚本可在 此处 获取。
ValueGuidedRLPipeline
class diffusers.experimental.ValueGuidedRLPipeline
< 源代码 >( value_function: UNet1DModel unet: UNet1DModel scheduler: DDPMScheduler env )
参数
- value_function (UNet1DModel) — 一个专门的 UNet,用于根据奖励微调轨迹。
- unet (UNet1DModel) — UNet 架构,用于对编码后的轨迹进行去噪。
- scheduler (SchedulerMixin) — 用于与
unet
结合以对编码后的轨迹进行去噪的调度器。此应用程序的默认值为 DDPMScheduler。 - env () — 遵循 OpenAI gym API 的环境,用于执行操作。目前,只有 Hopper 拥有预训练模型。
用于从训练以预测状态序列的扩散模型中进行值引导采样的管道。
此模型继承自 DiffusionPipeline。查看超类文档以了解为所有管道实现的通用方法(下载、保存、在特定设备上运行等)。