策略梯度法的优缺点

此时，你可能会问：“但是深度Q学习很棒啊！为什么要使用策略梯度法？”为了回答这个问题，我们来研究一下**策略梯度法的优缺点**。

优点

相对于基于价值的方法，它有多个优点。我们来看看其中一些。

我们可以直接估计策略，而无需存储额外的数据（动作值）。

策略梯度法可以**学习随机策略，而价值函数不能**。

这有两个结果：

举个例子：我们有一台智能吸尘器，它的目标是吸尘并避免杀死仓鼠。

我们的吸尘器只能感知墙壁的位置。

问题在于，**两个红色（彩色）状态是混叠状态，因为智能体对每个状态都感知到上方和下方的墙壁**。

在确定性策略下，策略在处于红色状态时要么总是向右移动，要么总是向左移动。**这两种情况都会导致我们的智能体陷入困境，永远无法吸到灰尘**。

在基于价值的强化学习算法下，我们学习一种**准确定性策略**（“贪婪 ε 策略”）。因此，我们的智能体在**找到灰尘之前可能会花费大量时间**。

另一方面，最优的随机策略在红色（彩色）状态下**会随机向左或向右移动**。因此，它**不会卡住，并且会以很高的概率达到目标状态**。

深度Q学习的问题在于，它们的**预测在每个时间步，给定当前状态下，为每个可能的动作分配一个分数（最大预期未来奖励）**。

但是，如果我们的动作可能性是无限的呢？

例如，对于自动驾驶汽车，在每个状态下，您可能有（近乎）无限的动作选择（将方向盘转动 15°、17.2°、19.4°、鸣笛等）。**我们需要为每个可能的动作输出一个 Q 值**！而**从连续输出中选择最大动作本身就是一个优化问题**！

相反，使用策略梯度法，我们输出一个**动作的概率分布**。

在基于价值的方法中，我们使用激进的操作符来**改变价值函数：我们取 Q 估计值的最大值**。因此，如果估计的动作值发生任意小的变化，导致不同的动作具有最大值，则动作概率可能会发生剧烈变化。

例如，如果在训练过程中，最佳动作是左（Q 值为 0.22），而在训练步骤后，最佳动作变为右（因为右侧的 Q 值变为 0.23），那么我们极大地改变了策略，因为现在策略大部分时间会选择右而不是左。

另一方面，在策略梯度法中，随机策略的动作偏好（采取动作的概率）**随时间平稳变化**。

当然，策略梯度法也有一些缺点：

👉 如果你想深入了解策略梯度法的优缺点，你可以查看这个视频。