深度强化学习课程文档

课程中期回顾

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

课程中期回顾

在深入 Q 学习之前,让我们总结一下我们学到的内容。

我们有两种基于价值的函数类型

  • 状态值函数:输出 **如果智能体从给定状态开始,并始终按照策略行动,则预期回报**。
  • 动作值函数:输出 **如果智能体从给定状态开始,在该状态下采取给定行动,然后始终按照策略行动,则预期回报**。
  • 在基于价值的方法中,我们 **手动定义策略**,而不是学习策略,并学习价值函数。如果我们有一个最优价值函数,那么我们 **将有一个最优策略**。

有两种方法来更新价值函数

  • 使用 *蒙特卡洛方法*,我们从完整的一集更新价值函数,因此我们 **使用该集的实际折扣回报**。
  • 使用 *临近差异学习方法*,我们从一步更新价值函数,用未知值替换GtG_t使用 **称为 TD 目标的估计回报**。
摘要 < > 在 GitHub 上更新