深度强化学习课程文档
策略梯度法的优缺点
并获得增强的文档体验
开始使用
策略梯度法的优缺点
此时,你可能会问:“但是深度Q学习很棒啊!为什么要使用策略梯度法?”为了回答这个问题,我们来研究一下**策略梯度法的优缺点**。
优点
相对于基于价值的方法,它有多个优点。我们来看看其中一些。
整合的简易性
我们可以直接估计策略,而无需存储额外的数据(动作值)。
策略梯度法可以学习随机策略
策略梯度法可以**学习随机策略,而价值函数不能**。
这有两个结果:
我们**不需要手动实现探索/利用的权衡**。由于我们输出的是动作的概率分布,智能体在状态空间中进行探索,**而不会总是采取相同的轨迹**。
我们还摆脱了**感知混叠**问题。感知混叠是指两个状态看起来(或实际上)相同但需要不同动作的情况。
举个例子:我们有一台智能吸尘器,它的目标是吸尘并避免杀死仓鼠。

我们的吸尘器只能感知墙壁的位置。
问题在于,**两个红色(彩色)状态是混叠状态,因为智能体对每个状态都感知到上方和下方的墙壁**。

在确定性策略下,策略在处于红色状态时要么总是向右移动,要么总是向左移动。**这两种情况都会导致我们的智能体陷入困境,永远无法吸到灰尘**。
在基于价值的强化学习算法下,我们学习一种**准确定性策略**(“贪婪 ε 策略”)。因此,我们的智能体在**找到灰尘之前可能会花费大量时间**。
另一方面,最优的随机策略在红色(彩色)状态下**会随机向左或向右移动**。因此,它**不会卡住,并且会以很高的概率达到目标状态**。

策略梯度法在高维动作空间和连续动作空间中更有效
深度Q学习的问题在于,它们的**预测在每个时间步,给定当前状态下,为每个可能的动作分配一个分数(最大预期未来奖励)**。
但是,如果我们的动作可能性是无限的呢?
例如,对于自动驾驶汽车,在每个状态下,您可能有(近乎)无限的动作选择(将方向盘转动 15°、17.2°、19.4°、鸣笛等)。**我们需要为每个可能的动作输出一个 Q 值**!而**从连续输出中选择最大动作本身就是一个优化问题**!
相反,使用策略梯度法,我们输出一个**动作的概率分布**。
策略梯度法具有更好的收敛性
在基于价值的方法中,我们使用激进的操作符来**改变价值函数:我们取 Q 估计值的最大值**。因此,如果估计的动作值发生任意小的变化,导致不同的动作具有最大值,则动作概率可能会发生剧烈变化。
例如,如果在训练过程中,最佳动作是左(Q 值为 0.22),而在训练步骤后,最佳动作变为右(因为右侧的 Q 值变为 0.23),那么我们极大地改变了策略,因为现在策略大部分时间会选择右而不是左。
另一方面,在策略梯度法中,随机策略的动作偏好(采取动作的概率)**随时间平稳变化**。
缺点
当然,策略梯度法也有一些缺点:
- 通常,策略梯度法会收敛到局部最大值而不是全局最优值。
- 策略梯度法进展缓慢,**一步一步地进行:训练时间可能更长(效率低下)**。
- 策略梯度法可能具有较高的方差。我们将在 actor-critic 单元中探讨原因以及如何解决这个问题。
👉 如果你想深入了解策略梯度法的优缺点,你可以查看这个视频。
< > 在 GitHub 上更新