深度强化学习课程文档

词汇表

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

词汇表

这是一个社区创建的词汇表。欢迎贡献!

  • 表格方法:一种问题类型,其中状态和动作空间足够小,可以近似将值函数表示为数组和表格。Q 学习是表格方法的一个例子,因为它使用表格来表示不同状态-动作对的值。

  • 深度 Q 学习:一种训练神经网络的方法,该神经网络可以根据给定的状态,近似表示该状态下每个可能动作的不同Q 值。当观察空间过大而无法应用表格 Q 学习方法时,它被用来解决问题。

  • 时间限制是当环境状态由帧表示时出现的一个难题。单独的帧不提供时间信息。为了获得时间信息,我们需要将多个帧堆叠在一起。

  • 深度 Q 学习的阶段

    • 采样:执行动作,并将观察到的经验元组存储在回放内存中。
    • 训练:随机选择元组批次,并使用梯度下降更新神经网络的权重。
  • 稳定深度 Q 学习的解决方案

    • 经验回放:创建一个回放内存来保存训练期间可重复使用的经验样本。这使得智能体能够从相同的经验中多次学习。此外,它还有助于智能体在获得新经验时避免遗忘以前的经验。

    • 从回放缓冲区进行随机采样可以消除观察序列中的相关性,并防止动作值发生振荡或灾难性发散。

    • 固定 Q 目标:为了计算Q 目标,我们需要使用贝尔曼方程估计下一个状态的折扣最优Q 值。问题在于,使用相同的网络权重来计算Q 目标Q 值。这意味着每次修改Q 值时,Q 目标也会随之移动。为了避免此问题,使用一个具有固定参数的单独网络来估计时间差分目标。在经过特定的C 步后,目标网络通过复制来自深度 Q 网络的参数来更新。

    • 双重 DQN:一种处理Q 值过高估计的方法。此解决方案使用两个网络来将动作选择与目标值生成分离。

      • DQN 网络选择下一个状态要采取的最佳动作(具有最高Q 值的动作)。
      • 目标网络计算在下一个状态采取该动作的目标Q 值。这种方法减少了Q 值的过高估计,有助于更快地训练并获得更稳定的学习。

如果您想改进课程,可以打开一个 Pull Request。

此词汇表得以实现,感谢

< > 更新 在 GitHub 上