探索/利用权衡
最后,在查看解决强化学习问题的不同方法之前,我们必须涵盖另一个非常重要的主题:探索/利用权衡。
- 探索是通过尝试随机动作来探索环境,以**获取有关环境的更多信息**。
- 利用是**利用已知信息来最大化奖励**。
请记住,我们强化学习智能体的目标是最大化预期累积奖励。但是,**我们可能会陷入一个常见的陷阱**。
让我们举个例子
在这个游戏中,我们的老鼠可以获得**无限量的少量奶酪**(每个+1)。但在迷宫的顶部,有一大块奶酪(+1000)。
但是,如果我们只专注于利用,我们的智能体将永远无法获得一大块奶酪。相反,它只会利用**最近的奖励来源**,即使这个来源很小(利用)。
但如果我们的智能体进行一些探索,它可以**发现更大的奖励**(一大块奶酪)。
这就是我们所说的探索/利用权衡。我们需要平衡我们**探索环境**的程度和我们**利用我们对环境的了解**的程度。
因此,我们必须**定义一个规则来帮助处理这种权衡**。我们将在未来的单元中看到处理它的不同方法。
如果仍然不清楚,**想想一个实际问题:选择一家餐厅:**
- 利用:你每天都去同一家你认为不错的餐厅,并**冒着错过其他更好餐厅的风险**。
- 探索:尝试你从未去过的餐厅,冒着体验不好的风险,**但也有可能获得很棒的体验**。
回顾
< > 在 GitHub 上更新