术语表
这是一个社区创建的术语表。欢迎贡献!
深度 Q 学习: 一种基于价值的深度强化学习算法,它使用深度神经网络来近似给定状态下动作的 Q 值。深度 Q 学习的目标是通过学习动作值找到最大化预期累积奖励的最佳策略。
基于价值的方法: 强化学习方法,它们将估计价值函数作为找到最佳策略的中间步骤。
基于策略的方法: 强化学习方法,它们直接学习近似最佳策略,而无需学习价值函数。在实践中,它们输出对动作的概率分布。
与基于价值的方法相比,使用策略梯度方法的优点包括
- 集成简单性:无需存储动作值;
- 能够学习随机策略:代理在状态空间中探索,而无需始终采取相同的轨迹,从而避免了感知混淆问题;
- 在高维和连续动作空间中的有效性;以及
- 改进的收敛特性。
策略梯度: 一种基于策略的方法的子集,其目标是使用梯度上升来最大化参数化策略的性能。策略梯度的目标是通过调整策略来控制动作的概率分布,以便将来更频繁地采样好的动作(最大化回报)。
蒙特卡洛增强: 一种策略梯度算法,它使用来自整个情节的估计回报来更新策略参数。
如果你想改进课程,可以 打开一个 Pull Request。
这个术语表得以实现,感谢
< > 在 GitHub 上更新