Deep RL 课程文档
离线强化学习 vs. 在线强化学习
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
离线强化学习 vs. 在线强化学习
深度强化学习 (RL) 是一个构建决策智能体的框架。这些智能体旨在通过与环境交互,通过试错并接收奖励作为独特的反馈来学习最优行为(策略)。
智能体的目标是最大化其累积奖励,称为回报。因为强化学习是基于奖励假设的:所有目标都可以描述为最大化预期累积奖励。
深度强化学习智能体通过经验批次进行学习。问题是,他们如何收集这些经验?

- 在在线强化学习中,即我们在本课程中学到的内容,智能体直接收集数据:它通过与环境交互来收集一批经验。然后,它立即使用这些经验(或通过一些回放缓冲区)从中学习(更新其策略)。
但这暗示了你要么直接在现实世界中训练你的智能体,要么拥有一个模拟器。如果你没有模拟器,你需要构建它,这可能非常复杂(如何在环境中反映现实世界的复杂性?)、昂贵且不安全(如果模拟器存在可能提供竞争优势的缺陷,智能体将利用它们)。
- 另一方面,在离线强化学习中,智能体仅使用从其他智能体或人类演示中收集的数据。它不与环境交互。
流程如下
- 使用一个或多个策略和/或人类交互创建数据集。
- 在此数据集上运行离线强化学习以学习策略
这种方法有一个缺点:反事实查询问题。如果我们的智能体决定做一些我们没有数据的事情,我们该怎么办? 例如,在十字路口右转,但我们没有这条轨迹。
关于这个主题存在一些解决方案,但如果您想了解更多关于离线强化学习的信息,您可以观看此视频
进一步阅读
如需更多信息,我们建议您查看以下资源
作者
本节由 Thomas Simonini 编写
< > 在 GitHub 上更新