深度强化学习课程文档
探索/利用的权衡
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
探索/利用的权衡
最后,在研究解决强化学习问题的不同方法之前,我们必须涵盖另一个非常重要的主题:探索/利用的权衡。
- 探索 是指通过尝试随机动作来探索环境,以便找到更多关于环境的信息。
- 利用 是指利用已知信息来最大化奖励。
请记住,我们的强化学习智能体的目标是最大化预期累积奖励。然而,我们可能会陷入一个常见的陷阱。
让我们来看一个例子

在这个游戏中,我们的老鼠可以获得无限量的小奶酪(每个 +1)。但在迷宫的顶端,有一大块奶酪(+1000)。
但是,如果我们只关注利用,我们的智能体将永远无法获得那一大块奶酪。相反,它只会利用最近的奖励来源,即使这个来源很小(利用)。
但是,如果我们的智能体进行少量探索,它就可以发现大的奖励(那堆大奶酪)。
这就是我们所说的探索/利用的权衡。我们需要平衡我们在探索环境方面投入多少,以及在利用我们对环境的已知信息方面投入多少。
因此,我们必须定义一个有助于处理这种权衡的规则。我们将在未来的单元中看到处理它的不同方法。
如果仍然感到困惑,想想一个实际问题:选择餐厅:

- 利用:你每天都去同一家你知道不错的餐厅,冒着错过另一家更好餐厅的风险。
- 探索:尝试你从未去过的餐厅,有可能会有糟糕的体验,但也可能有机会获得美妙的体验。
总结一下
