课程中期回顾
在深入 Q 学习之前,让我们总结一下我们学到的内容。
我们有两种基于价值的函数类型
- 状态值函数:输出 **如果智能体从给定状态开始,并始终按照策略行动,则预期回报**。
- 动作值函数:输出 **如果智能体从给定状态开始,在该状态下采取给定行动,然后始终按照策略行动,则预期回报**。
- 在基于价值的方法中,我们 **手动定义策略**,而不是学习策略,并学习价值函数。如果我们有一个最优价值函数,那么我们 **将有一个最优策略**。
有两种方法来更新价值函数
- 使用 *蒙特卡洛方法*,我们从完整的一集更新价值函数,因此我们 **使用该集的实际折扣回报**。
- 使用 *临近差异学习方法*,我们从一步更新价值函数,用未知值替换使用 **称为 TD 目标的估计回报**。