什么是基于策略的方法？

强化学习的主要目标是找到最优策略 $\pi^{*}$ ，这将最大化预期累积奖励。因为强化学习是基于奖励假设：所有目标都可以被描述为最大化预期累积奖励。

例如，在一场足球比赛中（您将在两个单元中训练智能体），目标是赢得比赛。我们可以将此目标在强化学习中描述为最大化进球数（当球越过球门线时）进入对手的球门。并最小化自己球门的进球数。

基于价值、基于策略和 Actor-critic 方法

在第一个单元中，我们看到了两种找到（或者，大多数时候，近似）最优策略的方法 $\pi^{*}$ .

在基于价值的方法中，我们学习一个价值函数。
- 其思想是，最优价值函数会产生最优策略 $\pi^{*}$ .
- 我们的目标是最小化预测值和目标值之间的损失，以近似真实的动作-价值函数。
- 我们有一个策略，但它是隐式的，因为它直接从价值函数生成。例如，在 Q-Learning 中，我们使用了 (epsilon-)贪婪策略。
另一方面，在基于策略的方法中，我们直接学习近似 $\pi^{*}$ 而无需学习价值函数。
- 其思想是参数化策略。例如，使用神经网络 $\pi_\theta$ ，此策略将输出动作上的概率分布（随机策略）。
- 然后，我们的目标是使用梯度上升最大化参数化策略的性能。
- 为此，我们控制参数 $\theta$ 这将影响状态上的动作分布。

因此，由于基于策略的方法，我们可以直接优化我们的策略 $\pi_\theta$ 以输出动作上的概率分布 $\pi_\theta(a|s)$ 从而获得最佳累积回报。为此，我们定义一个目标函数 $J(\theta)$ ，即预期累积奖励，我们想要找到最大化此目标函数的 $\theta$ 值。

策略梯度方法，我们将在本单元中研究的内容，是基于策略的方法的一个子类。在基于策略的方法中，优化大多数时候是在线策略，因为对于每次更新，我们只使用我们最新版本的策略收集的数据（轨迹）。 $\pi_\theta$ .

这两种方法之间的区别在于我们如何优化参数 $\theta$ :

在基于策略的方法中，我们直接搜索最优策略。我们可以间接优化参数，通过使用诸如爬山算法、模拟退火或进化策略等技术最大化目标函数的局部近似值。 $\theta$ 间接优化参数，通过使用诸如爬山算法、模拟退火或进化策略等技术最大化目标函数的局部近似值。
在策略梯度方法中，因为它基于策略的方法的子类，我们直接搜索最优策略。但是我们直接优化参数，通过对目标函数的性能执行梯度上升。 $\theta$ 直接优化参数，通过对目标函数的性能执行梯度上升。 $J(\theta)$ .

在更深入地研究策略梯度方法的工作原理（目标函数、策略梯度定理、梯度上升等）之前，让我们研究一下基于策略的方法的优点和缺点。