深度强化学习课程文档

Q 学习回顾

Hugging Face's logo
加入 Hugging Face 社区

并获取增强文档体验

开始使用

Q 学习回顾

Q 学习 是 RL 算法,它

  • 训练一个 Q 函数,一个动作价值函数,在内部内存中由一个 Q 表编码,其中包含所有状态-动作对的值。

  • 给定一个状态和动作,我们的 Q 函数将在它的 Q 表中搜索对应值。

Q function
  • 当训练完成时,我们得到了一个最优的 Q 函数,或者等效地,一个最优的 Q 表。

  • 如果我们有一个最优的 Q 函数,我们就有了一个最优的策略,因为我们知道对于每个状态,要采取的最佳动作。

Link value policy

但是,在开始时,我们的Q 表是无用的,因为它为每个状态-动作对提供了任意值(大多数情况下,我们将 Q 表初始化为 0 值)。但是,随着我们探索环境并更新我们的 Q 表,它将为我们提供越来越好的近似值。

q-learning.jpeg

这是 Q 学习伪代码

Q 学习 < > 在 GitHub 上更新