深度强化学习课程文档
中期回顾
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
中期回顾
在深入学习 Q-Learning 之前,让我们先总结一下刚刚学到的知识。
我们有两种基于价值的函数:
- 状态价值函数:输出如果智能体从给定状态开始,并在此后永远按照策略行动所期望的回报。
- 动作价值函数:输出如果智能体从给定状态开始,在该状态下采取给定动作,然后在此后永远按照策略行动所期望的回报。
- 在基于价值的方法中,我们不是学习策略,而是手动定义策略,并学习一个价值函数。如果我们有一个最优价值函数,我们就会有一个最优策略。
有两种方法可以更新价值函数:
- 对于蒙特卡罗方法,我们从一个完整的episode(回合)更新价值函数,因此我们使用该episode的实际折扣回报。
- 对于时序差分学习方法,我们从一个步骤更新价值函数,替换未知量替换为一个被称为 TD 目标的估计回报。
