词汇表
这是一个社区创建的词汇表。欢迎贡献!
表格方法:一种问题类型,其中状态和动作空间足够小,可以近似将值函数表示为数组和表格。Q 学习是表格方法的一个例子,因为它使用表格来表示不同状态-动作对的值。
深度 Q 学习:一种训练神经网络的方法,该神经网络可以根据给定的状态,近似表示该状态下每个可能动作的不同Q 值。当观察空间过大而无法应用表格 Q 学习方法时,它被用来解决问题。
时间限制是当环境状态由帧表示时出现的一个难题。单独的帧不提供时间信息。为了获得时间信息,我们需要将多个帧堆叠在一起。
深度 Q 学习的阶段
- 采样:执行动作,并将观察到的经验元组存储在回放内存中。
- 训练:随机选择元组批次,并使用梯度下降更新神经网络的权重。
稳定深度 Q 学习的解决方案
经验回放:创建一个回放内存来保存训练期间可重复使用的经验样本。这使得智能体能够从相同的经验中多次学习。此外,它还有助于智能体在获得新经验时避免遗忘以前的经验。
从回放缓冲区进行随机采样可以消除观察序列中的相关性,并防止动作值发生振荡或灾难性发散。
固定 Q 目标:为了计算Q 目标,我们需要使用贝尔曼方程估计下一个状态的折扣最优Q 值。问题在于,使用相同的网络权重来计算Q 目标和Q 值。这意味着每次修改Q 值时,Q 目标也会随之移动。为了避免此问题,使用一个具有固定参数的单独网络来估计时间差分目标。在经过特定的C 步后,目标网络通过复制来自深度 Q 网络的参数来更新。
双重 DQN:一种处理Q 值过高估计的方法。此解决方案使用两个网络来将动作选择与目标值生成分离。
- DQN 网络选择下一个状态要采取的最佳动作(具有最高Q 值的动作)。
- 目标网络计算在下一个状态采取该动作的目标Q 值。这种方法减少了Q 值的过高估计,有助于更快地训练并获得更稳定的学习。
如果您想改进课程,可以打开一个 Pull Request。
此词汇表得以实现,感谢
< > 更新 在 GitHub 上