Deep RL 课程文档

离线强化学习 vs. 在线强化学习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

离线强化学习 vs. 在线强化学习

深度强化学习 (RL) 是一个构建决策智能体的框架。这些智能体旨在通过与环境交互,通过试错并接收奖励作为独特的反馈来学习最优行为(策略)。

智能体的目标是最大化其累积奖励,称为回报。因为强化学习是基于奖励假设的:所有目标都可以描述为最大化预期累积奖励

深度强化学习智能体通过经验批次进行学习。问题是,他们如何收集这些经验?

Unit bonus 3 thumbnail
在线和离线环境中的强化学习比较,图表取自这篇文章
  • 在线强化学习中,即我们在本课程中学到的内容,智能体直接收集数据:它通过与环境交互来收集一批经验。然后,它立即使用这些经验(或通过一些回放缓冲区)从中学习(更新其策略)。

但这暗示了你要么直接在现实世界中训练你的智能体,要么拥有一个模拟器。如果你没有模拟器,你需要构建它,这可能非常复杂(如何在环境中反映现实世界的复杂性?)、昂贵且不安全(如果模拟器存在可能提供竞争优势的缺陷,智能体将利用它们)。

  • 另一方面,在离线强化学习中,智能体仅使用从其他智能体或人类演示中收集的数据。它不与环境交互

流程如下

  • 使用一个或多个策略和/或人类交互创建数据集
  • 在此数据集上运行离线强化学习以学习策略

这种方法有一个缺点:反事实查询问题。如果我们的智能体决定做一些我们没有数据的事情,我们该怎么办? 例如,在十字路口右转,但我们没有这条轨迹。

关于这个主题存在一些解决方案,但如果您想了解更多关于离线强化学习的信息,您可以观看此视频

进一步阅读

如需更多信息,我们建议您查看以下资源

作者

本节由 Thomas Simonini 编写

< > 在 GitHub 上更新