Q 学习回顾
Q 学习 是 RL 算法,它
训练一个 Q 函数,一个动作价值函数,在内部内存中由一个 Q 表编码,其中包含所有状态-动作对的值。
给定一个状态和动作,我们的 Q 函数将在它的 Q 表中搜索对应值。
当训练完成时,我们得到了一个最优的 Q 函数,或者等效地,一个最优的 Q 表。
如果我们有一个最优的 Q 函数,我们就有了一个最优的策略,因为我们知道对于每个状态,要采取的最佳动作。
但是,在开始时,我们的Q 表是无用的,因为它为每个状态-动作对提供了任意值(大多数情况下,我们将 Q 表初始化为 0 值)。但是,随着我们探索环境并更新我们的 Q 表,它将为我们提供越来越好的近似值。
这是 Q 学习伪代码
< > 在 GitHub 上更新