深度强化学习课程文档
中期回顾
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
中期回顾
在深入 Q-Learning 之前,让我们总结一下我们刚刚学到的内容。
我们有两种类型的基于价值的函数
- 状态价值函数:输出**智能体从给定状态开始并永远根据策略行动**的预期回报。
- 动作价值函数:输出**智能体从给定状态开始,在该状态采取给定动作**,然后永远根据策略行动的预期回报。
- 在基于价值的方法中,我们不是学习策略,而是**手动定义策略**,并学习价值函数。如果我们有一个最优价值函数,我们**将拥有一个最优策略。**
有两种方法可以更新价值函数
- 使用蒙特卡洛方法,我们从完整的回合更新价值函数,因此我们**使用此回合的实际折扣回报。**
- 使用 时序差分学习方法, 我们从一个步骤更新价值函数,替换未知项用 称为 TD 目标的估计回报。
