深度强化学习课程文档

离线强化学习与在线强化学习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

离线强化学习与在线强化学习

深度强化学习(RL)是构建决策代理的框架。这些代理旨在通过试错和接收作为独特反馈的奖励来与环境交互,从而学习最佳行为(策略)。

代理的目标是最大化其累积奖励,称为回报。因为强化学习基于奖励假设:所有目标都可以描述为预期累积奖励的最大化

深度强化学习代理通过批量经验学习。问题是,它们如何收集这些经验?

Unit bonus 3 thumbnail
在线和离线强化学习的比较,图片来自这篇文章
  • 在线强化学习中,也就是我们在本课程中学习到的,代理直接收集数据:它通过与环境交互来收集一批经验。然后,它立即(或通过一些回放缓冲区)使用这些经验进行学习(更新其策略)。

但这意味着你要么直接在现实世界中训练你的代理,要么拥有一个模拟器。如果你没有模拟器,你需要构建它,这可能非常复杂(如何反映现实世界的复杂性?)、昂贵且不安全(如果模拟器存在可能提供竞争优势的缺陷,代理将利用它们)。

  • 另一方面,在离线强化学习中,代理只使用从其他代理或人类演示中收集的数据。它不与环境交互

过程如下:

  • 使用一个或多个策略和/或人类交互创建数据集
  • 在此数据集上运行离线强化学习以学习策略。

这种方法有一个缺点:反事实查询问题。如果我们的代理决定做一些我们没有数据的事情怎么办?例如,在十字路口右转,但我们没有这个轨迹数据。

关于这个问题有一些解决方案,但如果你想了解更多关于离线强化学习的信息,你可以观看这个视频

延伸阅读

欲了解更多信息,我们建议您查看以下资源:

作者

本节由Thomas Simonini撰写。

< > 在 GitHub 上更新