Deep RL Course 文档
策略梯度方法的优势和劣势
并获得增强的文档体验
开始使用
策略梯度方法的优势和劣势
此时,你可能会问,“但是深度 Q-Learning 非常出色!为什么要使用策略梯度方法呢?”。为了回答这个问题,让我们研究一下策略梯度方法的优势和劣势。
优势
与基于价值的方法相比,策略梯度方法有多个优势。让我们看看其中的一些
集成的简易性
我们可以直接估计策略,而无需存储额外的数据(动作值)。
策略梯度方法可以学习随机策略
策略梯度方法可以学习随机策略,而价值函数则不能。
这有两个结果
我们不需要手动实现探索/利用的权衡。由于我们输出动作的概率分布,因此智能体在状态空间中探索,而不会总是采取相同的轨迹。
我们还摆脱了感知混叠的问题。当两个状态看起来(或确实)相同但需要不同的动作时,就会发生感知混叠。
让我们举一个例子:我们有一个智能吸尘器,其目标是吸走灰尘并避免杀死仓鼠。

我们的吸尘器只能感知墙壁在哪里。
问题在于两个红色(彩色)状态是混叠状态,因为智能体感知到每个状态的上方和下方都有墙壁。

在确定性策略下,策略要么在红色状态下始终向右移动,要么始终向左移动。无论哪种情况都会导致我们的智能体卡住,永远无法吸走灰尘。
在基于价值的强化学习算法下,我们学习一种准确定性策略(“贪婪 epsilon 策略”)。因此,我们的智能体可能需要花费大量时间才能找到灰尘。
另一方面,最优随机策略将在红色(彩色)状态下随机向左或向右移动。因此,它不会卡住,并且很可能达到目标状态。

策略梯度方法在高维动作空间和连续动作空间中更有效
深度 Q-learning 的问题在于,它们的预测为每个可能的动作分配一个分数(最大预期未来奖励),在每个时间步,给定当前状态。
但是,如果我们有无限可能的动作怎么办?
例如,对于自动驾驶汽车,在每个状态下,您可以有(接近)无限多的动作选择(将方向盘转动 15°、17.2°、19.4°、鸣喇叭等)。我们需要为每个可能的动作输出一个 Q 值!并且取连续输出的最大动作本身就是一个优化问题!
相反,使用策略梯度方法,我们输出动作的概率分布。
策略梯度方法具有更好的收敛特性
在基于价值的方法中,我们使用激进的运算符来更改价值函数:我们取 Q 估计值的最大值。因此,如果这种改变导致不同的动作具有最大值,那么即使估计的动作值发生任意小的变化,动作概率也可能发生剧烈变化。
例如,如果在训练期间,最佳动作是向左(Q 值为 0.22),并且训练步骤之后是向右(因为右 Q 值变为 0.23),我们就会剧烈地改变策略,因为现在策略大部分时间会向右而不是向左。
另一方面,在策略梯度方法中,随机策略动作偏好(采取动作的概率)随时间平稳变化。
劣势
当然,策略梯度方法也有一些劣势
- 策略梯度方法通常收敛到局部最大值而不是全局最优值。
- 策略梯度方法速度较慢,步步为营:训练可能需要更长的时间(效率低下)。
- 策略梯度方法可能具有高方差。我们将在 actor-critic 单元中看到原因以及如何解决这个问题。
👉 如果你想更深入地了解策略梯度方法的优势和劣势,你可以查看此视频。
< > 在 GitHub 上更新