深度强化学习课程文档
Q-Learning 回顾
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Q-Learning 回顾
Q-Learning 是一种强化学习算法,它通过训练
一个 Q-函数,一个动作价值函数,该函数在内部内存中通过一个 Q-表 编码,包含所有状态-动作对的值。
给定一个状态和动作,我们的 Q-函数将会在其 Q-表中搜索相应的值。

当训练完成后,我们拥有一个最优的 Q-函数,或者等价地说,一个最优的 Q-表。
如果我们拥有一个最优的 Q-函数,我们就拥有一个最优策略,因为我们知道每个状态下要采取的最佳动作。

但是,在开始时,我们的 Q-表是无用的,因为它为每个状态-动作对提供了任意值(大多数情况下,我们将 Q-表初始化为 0)。但是,随着我们探索环境并更新 Q-表,它将提供越来越好的近似。

这是 Q-Learning 的伪代码:
