离线强化学习与在线强化学习

深度强化学习（RL）是构建决策代理的框架。这些代理旨在通过试错和接收作为独特反馈的奖励来与环境交互，从而学习最佳行为（策略）。

代理的目标是最大化其累积奖励，称为回报。因为强化学习基于奖励假设：所有目标都可以描述为预期累积奖励的最大化。

深度强化学习代理通过批量经验学习。问题是，它们如何收集这些经验？

在在线强化学习中，也就是我们在本课程中学习到的，代理直接收集数据：它通过与环境交互来收集一批经验。然后，它立即（或通过一些回放缓冲区）使用这些经验进行学习（更新其策略）。

但这意味着你要么直接在现实世界中训练你的代理，要么拥有一个模拟器。如果你没有模拟器，你需要构建它，这可能非常复杂（如何反映现实世界的复杂性？）、昂贵且不安全（如果模拟器存在可能提供竞争优势的缺陷，代理将利用它们）。

过程如下：

这种方法有一个缺点：反事实查询问题。如果我们的代理决定做一些我们没有数据的事情怎么办？例如，在十字路口右转，但我们没有这个轨迹数据。

关于这个问题有一些解决方案，但如果你想了解更多关于离线强化学习的信息，你可以观看这个视频

延伸阅读

欲了解更多信息，我们建议您查看以下资源：

本节由Thomas Simonini撰写。