深度强化学习课程文档

中期回顾

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

中期回顾

在深入学习 Q-Learning 之前,让我们先总结一下刚刚学到的知识。

我们有两种基于价值的函数:

  • 状态价值函数:输出如果智能体从给定状态开始,并在此后永远按照策略行动所期望的回报。
  • 动作价值函数:输出如果智能体从给定状态开始,在该状态下采取给定动作,然后在此后永远按照策略行动所期望的回报。
  • 在基于价值的方法中,我们不是学习策略,而是手动定义策略,并学习一个价值函数。如果我们有一个最优价值函数,我们就会有一个最优策略。

有两种方法可以更新价值函数:

  • 对于蒙特卡罗方法,我们从一个完整的episode(回合)更新价值函数,因此我们使用该episode的实际折扣回报。
  • 对于时序差分学习方法,我们从一个步骤更新价值函数,替换未知量GtG_t替换为一个被称为 TD 目标的估计回报。
总结 < > 在 GitHub 上更新