深度强化学习课程文档

探索/利用权衡

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

探索/利用权衡

最后,在查看解决强化学习问题的不同方法之前,我们必须涵盖另一个非常重要的主题:探索/利用权衡

  • 探索是通过尝试随机动作来探索环境,以**获取有关环境的更多信息**。
  • 利用是**利用已知信息来最大化奖励**。

请记住,我们强化学习智能体的目标是最大化预期累积奖励。但是,**我们可能会陷入一个常见的陷阱**。

让我们举个例子

Exploration

在这个游戏中,我们的老鼠可以获得**无限量的少量奶酪**(每个+1)。但在迷宫的顶部,有一大块奶酪(+1000)。

但是,如果我们只专注于利用,我们的智能体将永远无法获得一大块奶酪。相反,它只会利用**最近的奖励来源**,即使这个来源很小(利用)。

但如果我们的智能体进行一些探索,它可以**发现更大的奖励**(一大块奶酪)。

这就是我们所说的探索/利用权衡。我们需要平衡我们**探索环境**的程度和我们**利用我们对环境的了解**的程度。

因此,我们必须**定义一个规则来帮助处理这种权衡**。我们将在未来的单元中看到处理它的不同方法。

如果仍然不清楚,**想想一个实际问题:选择一家餐厅:**

Exploration
来源:伯克利人工智能课程
  • 利用:你每天都去同一家你认为不错的餐厅,并**冒着错过其他更好餐厅的风险**。
  • 探索:尝试你从未去过的餐厅,冒着体验不好的风险,**但也有可能获得很棒的体验**。

回顾

探索利用权衡 < > 在 GitHub 上更新