词汇表

这是一个社区创建的词汇表。欢迎贡献！

表格方法（Tabular Method）： 一种问题类型，其中状态和动作空间足够小，可以将价值函数近似地表示为数组和表格。Q-learning 是表格方法的一个例子，因为它使用一个表格来表示不同状态-动作对的价值。
深度 Q-Learning（Deep Q-Learning）： 一种方法，通过训练一个神经网络来近似给定状态下每个可能动作的Q 值。当观测空间太大而无法应用表格 Q-Learning 方法时，可用于解决此类问题。
时间限制（Temporal Limitation） 是当环境状态由帧表示时出现的一个难题。单个帧本身不提供时间信息。为了获得时间信息，我们需要将多个帧堆叠在一起。
深度 Q-Learning 的阶段
- 采样（Sampling）： 执行动作，并将观察到的经验元组存储在回放记忆中。
- 训练（Training）： 随机选择一批元组，神经网络使用梯度下降更新其权重。
稳定深度 Q-Learning 的解决方案
- 经验回放（Experience Replay）： 创建一个回放记忆来保存经验样本，这些样本可以在训练期间重复使用。这使得智能体能够从相同的经验中多次学习。此外，它有助于智能体避免在获得新经验时遗忘之前的经验。
- 从回放缓冲区进行随机采样（Random sampling） 可以消除观测序列中的相关性，并防止动作值发生震荡或灾难性发散。
- 固定 Q-目标（Fixed Q-Target）： 为了计算Q-目标，我们需要使用贝尔曼方程估算下一个状态的折现最优Q 值。问题在于，计算Q-目标和Q 值使用的是相同的网络权重。这意味着每次我们修改Q 值时，Q-目标也会随之移动。为了避免这个问题，可以使用一个具有固定参数的独立网络来估算时序差分目标。目标网络通过在经过一定数量的 C 步后从我们的深度 Q 网络复制参数来更新。
- 双 DQN（Double DQN）： 处理 Q 值 过高估计的方法。该解决方案使用两个网络来解耦动作选择与目标值生成。
  - DQN 网络（DQN Network） 用于选择下一个状态的最佳动作（具有最高Q 值的动作）。
  - 目标网络（Target Network） 用于计算在下一个状态采取该动作的目标Q 值。这种方法减少了Q 值的过高估计，有助于更快地训练并使学习更稳定。

如果您想改进本课程，可以提交拉取请求。

本词汇表的制作得益于

Dario Paez

< > 在 GitHub 上更新

深度强化学习课程

词汇表