深度强化学习课程文档

探索/利用的权衡

深度强化学习课程

单元 0. 欢迎来到课程

单元 1. 深度强化学习导论

导论什么是强化学习？强化学习框架任务类型探索/利用的权衡解决强化学习问题的两种主要方法深度强化学习中的“深度” 总结术语表动手实践测验结论拓展阅读

奖励单元 1. Huggy 深度强化学习导论

直播 1. 课程运作方式、问答环节以及与 Huggy 一起玩耍

单元 2. Q-学习导论

单元 3. 基于 Atari 游戏的深度 Q-学习

奖励单元 2. 使用 Optuna 进行自动超参数调优

单元 4. 基于 PyTorch 的策略梯度

单元 5. Unity ML-Agents 导论

单元 6. 基于机器人环境的 Actor-Critic 方法

单元 7. 多智能体和 AI 对 AI 导论

单元 8. 第 1 部分近端策略优化 (PPO)

单元 8. 第 2 部分基于 Doom 的近端策略优化 (PPO)

奖励单元 3. 强化学习中的高级主题

奖励单元 5. 基于 Godot RL Agents 的模仿学习

认证与祝贺

加入 Hugging Face 社区

并获取增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

在文档主题之间切换

开始使用

探索/利用的权衡

最后，在研究解决强化学习问题的不同方法之前，我们必须涵盖另一个非常重要的主题：探索/利用的权衡。

探索是指通过尝试随机动作来探索环境，以便找到更多关于环境的信息。
利用是指利用已知信息来最大化奖励。

请记住，我们的强化学习智能体的目标是最大化预期累积奖励。然而，我们可能会陷入一个常见的陷阱。

让我们来看一个例子

Exploration

在这个游戏中，我们的老鼠可以获得无限量的小奶酪（每个 +1）。但在迷宫的顶端，有一大块奶酪（+1000）。

但是，如果我们只关注利用，我们的智能体将永远无法获得那一大块奶酪。相反，它只会利用最近的奖励来源，即使这个来源很小（利用）。

但是，如果我们的智能体进行少量探索，它就可以发现大的奖励（那堆大奶酪）。

这就是我们所说的探索/利用的权衡。我们需要平衡我们在探索环境方面投入多少，以及在利用我们对环境的已知信息方面投入多少。

因此，我们必须定义一个有助于处理这种权衡的规则。我们将在未来的单元中看到处理它的不同方法。

如果仍然感到困惑，想想一个实际问题：选择餐厅：

Exploration — 来源：伯克利人工智能课程

利用：你每天都去同一家你知道不错的餐厅，冒着错过另一家更好餐厅的风险。
探索：尝试你从未去过的餐厅，有可能会有糟糕的体验，但也可能有机会获得美妙的体验。

总结一下

探索利用权衡

< > 在 GitHub 上更新

←任务类型解决强化学习问题的两种主要方法→