深度强化学习课程文档

术语表

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

术语表

这是一个社区创建的术语表。欢迎贡献!

  • 深度 Q 学习: 一种基于价值的深度强化学习算法,它使用深度神经网络来近似给定状态下动作的 Q 值。深度 Q 学习的目标是通过学习动作值找到最大化预期累积奖励的最佳策略。

  • 基于价值的方法: 强化学习方法,它们将估计价值函数作为找到最佳策略的中间步骤。

  • 基于策略的方法: 强化学习方法,它们直接学习近似最佳策略,而无需学习价值函数。在实践中,它们输出对动作的概率分布。

    与基于价值的方法相比,使用策略梯度方法的优点包括

    • 集成简单性:无需存储动作值;
    • 能够学习随机策略:代理在状态空间中探索,而无需始终采取相同的轨迹,从而避免了感知混淆问题;
    • 在高维和连续动作空间中的有效性;以及
    • 改进的收敛特性。
  • 策略梯度: 一种基于策略的方法的子集,其目标是使用梯度上升来最大化参数化策略的性能。策略梯度的目标是通过调整策略来控制动作的概率分布,以便将来更频繁地采样好的动作(最大化回报)。

  • 蒙特卡洛增强: 一种策略梯度算法,它使用来自整个情节的估计回报来更新策略参数。

如果你想改进课程,可以 打开一个 Pull Request。

这个术语表得以实现,感谢

< > 在 GitHub 上更新