深度强化学习课程文档

探索/利用的权衡

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

探索/利用的权衡

最后,在研究解决强化学习问题的不同方法之前,我们必须涵盖另一个非常重要的主题:探索/利用的权衡。

  • 探索 是指通过尝试随机动作来探索环境,以便找到更多关于环境的信息。
  • 利用 是指利用已知信息来最大化奖励。

请记住,我们的强化学习智能体的目标是最大化预期累积奖励。然而,我们可能会陷入一个常见的陷阱

让我们来看一个例子

Exploration

在这个游戏中,我们的老鼠可以获得无限量的小奶酪(每个 +1)。但在迷宫的顶端,有一大块奶酪(+1000)。

但是,如果我们只关注利用,我们的智能体将永远无法获得那一大块奶酪。相反,它只会利用最近的奖励来源,即使这个来源很小(利用)。

但是,如果我们的智能体进行少量探索,它就可以发现大的奖励(那堆大奶酪)。

这就是我们所说的探索/利用的权衡。我们需要平衡我们在探索环境方面投入多少,以及在利用我们对环境的已知信息方面投入多少。

因此,我们必须定义一个有助于处理这种权衡的规则。我们将在未来的单元中看到处理它的不同方法。

如果仍然感到困惑,想想一个实际问题:选择餐厅:

Exploration
来源:伯克利人工智能课程
  • 利用:你每天都去同一家你知道不错的餐厅,冒着错过另一家更好餐厅的风险。
  • 探索:尝试你从未去过的餐厅,有可能会有糟糕的体验,但也可能有机会获得美妙的体验。

总结一下

探索利用权衡 < > 在 GitHub 上更新