深度强化学习课程文档
词汇表
并获得增强的文档体验
开始使用
词汇表
这是一个社区创建的词汇表。欢迎贡献!
表格方法(Tabular Method): 一种问题类型,其中状态和动作空间足够小,可以将价值函数近似地表示为数组和表格。Q-learning 是表格方法的一个例子,因为它使用一个表格来表示不同状态-动作对的价值。
深度 Q-Learning(Deep Q-Learning): 一种方法,通过训练一个神经网络来近似给定状态下每个可能动作的Q 值。当观测空间太大而无法应用表格 Q-Learning 方法时,可用于解决此类问题。
时间限制(Temporal Limitation) 是当环境状态由帧表示时出现的一个难题。单个帧本身不提供时间信息。为了获得时间信息,我们需要将多个帧堆叠在一起。
深度 Q-Learning 的阶段
- 采样(Sampling): 执行动作,并将观察到的经验元组存储在回放记忆中。
- 训练(Training): 随机选择一批元组,神经网络使用梯度下降更新其权重。
稳定深度 Q-Learning 的解决方案
经验回放(Experience Replay): 创建一个回放记忆来保存经验样本,这些样本可以在训练期间重复使用。这使得智能体能够从相同的经验中多次学习。此外,它有助于智能体避免在获得新经验时遗忘之前的经验。
从回放缓冲区进行随机采样(Random sampling) 可以消除观测序列中的相关性,并防止动作值发生震荡或灾难性发散。
固定 Q-目标(Fixed Q-Target): 为了计算Q-目标,我们需要使用贝尔曼方程估算下一个状态的折现最优Q 值。问题在于,计算Q-目标和Q 值使用的是相同的网络权重。这意味着每次我们修改Q 值时,Q-目标也会随之移动。为了避免这个问题,可以使用一个具有固定参数的独立网络来估算时序差分目标。目标网络通过在经过一定数量的 C 步后从我们的深度 Q 网络复制参数来更新。
双 DQN(Double DQN): 处理 Q 值 过高估计的方法。该解决方案使用两个网络来解耦动作选择与目标值生成。
- DQN 网络(DQN Network) 用于选择下一个状态的最佳动作(具有最高Q 值的动作)。
- 目标网络(Target Network) 用于计算在下一个状态采取该动作的目标Q 值。这种方法减少了Q 值的过高估计,有助于更快地训练并使学习更稳定。
如果您想改进本课程,可以提交拉取请求。
本词汇表的制作得益于
< > 在 GitHub 上更新