深度强化学习课程文档

探索/利用权衡

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

探索/利用权衡

最后,在了解解决强化学习问题的不同方法之前,我们必须再讨论一个非常重要的主题:探索/利用权衡。

  • 探索 是指通过尝试随机行动来探索环境,以 获取更多关于环境的信息。
  • 利用 是指 利用已知信息来最大化奖励。

请记住,我们的强化学习代理的目标是最大化预期累积奖励。然而,我们可能会陷入一个常见的陷阱。

举个例子

Exploration

在这个游戏中,我们的老鼠可以有 无限量的小奶酪 (每个+1)。但在迷宫的顶部,有一大笔奶酪(+1000)。

然而,如果我们只专注于利用,我们的代理将永远无法到达那一大笔奶酪。相反,它只会利用 最近的奖励来源, 即使这个来源很小(利用)。

但是,如果我们的代理进行一些探索,它就可以 发现大奖励 (那堆大奶酪)。

这就是我们所说的 探索/利用权衡。我们需要平衡我们 探索环境 的程度和我们 利用我们对环境的已知信息 的程度。

因此,我们必须 定义一个有助于处理这种权衡的规则。我们将在未来的单元中看到处理它的不同方法。

如果仍然感到困惑,可以思考一个真实世界的问题:选择一家餐馆:

Exploration
来源: 伯克利人工智能课程
  • 利用:你每天都去你已知的好餐馆,冒着错过另一家更好餐馆的风险。
  • 探索:尝试你以前从未去过的餐馆,冒着体验不佳的风险,但同时也有可能获得绝佳体验。

总结一下

探索利用权衡 < > 在 GitHub 上更新