深度强化学习课程文档

Q-学习回顾

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Q-学习回顾

Q-学习 是 RL 算法,它

  • 训练一个 Q 函数,一个 动作-价值函数,它被编码在内部存储器中,通过一个 Q 表 包含所有状态-动作对值。

  • 给定一个状态和动作,我们的 Q 函数 将在其 Q 表中搜索对应的值。

Q function
  • 当训练完成时,我们有一个最优的 Q 函数,或者等价地,一个最优的 Q 表。

  • 而且如果我们 有一个最优的 Q 函数,我们就有一个最优策略,因为我们 知道,对于每个状态,要采取的最佳动作。

Link value policy

但是,在开始时,我们的 Q 表是无用的,因为它为每个状态-动作对提供任意值(大多数时候我们将 Q 表初始化为 0 值)。但是,当我们探索环境并更新我们的 Q 表时,它将为我们提供越来越好的近似。

q-learning.jpeg

这是 Q-学习伪代码

Q-学习 < > 在 GitHub 上更新