深度强化学习课程文档
探索/利用权衡
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
探索/利用权衡
最后,在了解解决强化学习问题的不同方法之前,我们必须再讨论一个非常重要的主题:探索/利用权衡。
- 探索 是指通过尝试随机行动来探索环境,以 获取更多关于环境的信息。
- 利用 是指 利用已知信息来最大化奖励。
请记住,我们的强化学习代理的目标是最大化预期累积奖励。然而,我们可能会陷入一个常见的陷阱。
举个例子

在这个游戏中,我们的老鼠可以有 无限量的小奶酪 (每个+1)。但在迷宫的顶部,有一大笔奶酪(+1000)。
然而,如果我们只专注于利用,我们的代理将永远无法到达那一大笔奶酪。相反,它只会利用 最近的奖励来源, 即使这个来源很小(利用)。
但是,如果我们的代理进行一些探索,它就可以 发现大奖励 (那堆大奶酪)。
这就是我们所说的 探索/利用权衡。我们需要平衡我们 探索环境 的程度和我们 利用我们对环境的已知信息 的程度。
因此,我们必须 定义一个有助于处理这种权衡的规则。我们将在未来的单元中看到处理它的不同方法。
如果仍然感到困惑,可以思考一个真实世界的问题:选择一家餐馆:

- 利用:你每天都去你已知的好餐馆,冒着错过另一家更好餐馆的风险。
- 探索:尝试你以前从未去过的餐馆,冒着体验不佳的风险,但同时也有可能获得绝佳体验。
总结一下
