深度强化学习课程文档
Q-学习回顾
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Q-学习回顾
Q-学习 是 RL 算法,它
训练一个 Q 函数,一个 动作-价值函数,它被编码在内部存储器中,通过一个 Q 表 包含所有状态-动作对值。
给定一个状态和动作,我们的 Q 函数 将在其 Q 表中搜索对应的值。

当训练完成时,我们有一个最优的 Q 函数,或者等价地,一个最优的 Q 表。
而且如果我们 有一个最优的 Q 函数,我们就有一个最优策略,因为我们 知道,对于每个状态,要采取的最佳动作。

但是,在开始时,我们的 Q 表是无用的,因为它为每个状态-动作对提供任意值(大多数时候我们将 Q 表初始化为 0 值)。但是,当我们探索环境并更新我们的 Q 表时,它将为我们提供越来越好的近似。

这是 Q-学习伪代码
