深度强化学习课程文档

Q-Learning 回顾

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Q-Learning 回顾

Q-Learning 是一种强化学习算法,它通过训练

  • 一个 Q-函数,一个动作价值函数,该函数在内部内存中通过一个 Q-表 编码,包含所有状态-动作对的值。

  • 给定一个状态和动作,我们的 Q-函数将会在其 Q-表中搜索相应的值。

Q function
  • 当训练完成后,我们拥有一个最优的 Q-函数,或者等价地说,一个最优的 Q-表。

  • 如果我们拥有一个最优的 Q-函数,我们就拥有一个最优策略,因为我们知道每个状态下要采取的最佳动作。

Link value policy

但是,在开始时,我们的 Q-表是无用的,因为它为每个状态-动作对提供了任意值(大多数情况下,我们将 Q-表初始化为 0)。但是,随着我们探索环境并更新 Q-表,它将提供越来越好的近似。

q-learning.jpeg

这是 Q-Learning 的伪代码:

Q-Learning < > 在 GitHub 上更新