深度强化学习课程文档

词汇表

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

词汇表

这是一个社区创建的词汇表。欢迎贡献!

  • 深度 Q-学习: 一种基于价值的深度强化学习算法,它使用深度神经网络来近似给定状态下动作的 Q 值。深度 Q 学习的目标是通过学习动作值来找到最大化预期累积奖励的最优策略。

  • 基于价值的方法: 强化学习方法,它估计价值函数作为寻找最优策略的中间步骤。

  • 基于策略的方法: 强化学习方法,它直接学习近似最优策略,而无需学习价值函数。在实践中,它们输出动作的概率分布。

    与基于价值的方法相比,使用策略梯度方法的好处包括

    • 易于集成:无需存储动作值;
    • 学习随机策略的能力:智能体探索状态空间,而无需始终采用相同的轨迹,并避免了感知混淆问题;
    • 在高维和连续动作空间中的有效性;以及
    • 改进的收敛特性。
  • 策略梯度: 基于策略的方法的一个子集,其目标是使用梯度上升来最大化参数化策略的性能。策略梯度的目标是通过调整策略来控制动作的概率分布,从而使好的动作(最大化回报的动作)在未来更频繁地被采样。

  • 蒙特卡洛 REINFORCE: 一种策略梯度算法,它使用来自整个 episode 的估计回报来更新策略参数。

如果您想改进课程,您可以打开一个 Pull Request。

本词汇表得以实现,感谢

< > 在 GitHub 上更新