深度强化学习课程文档

中期回顾

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

中期回顾

在深入 Q-Learning 之前,让我们总结一下我们刚刚学到的内容。

我们有两种类型的基于价值的函数

  • 状态价值函数:输出**智能体从给定状态开始并永远根据策略行动**的预期回报。
  • 动作价值函数:输出**智能体从给定状态开始,在该状态采取给定动作**,然后永远根据策略行动的预期回报。
  • 在基于价值的方法中,我们不是学习策略,而是**手动定义策略**,并学习价值函数。如果我们有一个最优价值函数,我们**将拥有一个最优策略。**

有两种方法可以更新价值函数

  • 使用蒙特卡洛方法,我们从完整的回合更新价值函数,因此我们**使用此回合的实际折扣回报。**
  • 使用 时序差分学习方法, 我们从一个步骤更新价值函数,替换未知项GtG_t称为 TD 目标的估计回报
摘要 < > 在 GitHub 上更新