深度强化学习课程文档
什么是基于策略的方法?
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
什么是基于策略的方法?
强化学习的主要目标是找到最优策略,这将最大化预期累积奖励。因为强化学习是基于奖励假设:所有目标都可以被描述为最大化预期累积奖励。
例如,在一场足球比赛中(您将在两个单元中训练智能体),目标是赢得比赛。我们可以将此目标在强化学习中描述为最大化进球数(当球越过球门线时)进入对手的球门。并最小化自己球门的进球数。

基于价值、基于策略和 Actor-critic 方法
在第一个单元中,我们看到了两种找到(或者,大多数时候,近似)最优策略的方法.
在基于价值的方法中,我们学习一个价值函数。
- 其思想是,最优价值函数会产生最优策略.
- 我们的目标是最小化预测值和目标值之间的损失,以近似真实的动作-价值函数。
- 我们有一个策略,但它是隐式的,因为它直接从价值函数生成。例如,在 Q-Learning 中,我们使用了 (epsilon-)贪婪策略。
另一方面,在基于策略的方法中,我们直接学习近似而无需学习价值函数。
- 其思想是参数化策略。例如,使用神经网络,此策略将输出动作上的概率分布(随机策略)。
- 然后,我们的目标是使用梯度上升最大化参数化策略的性能。
- 为此,我们控制参数这将影响状态上的动作分布。

- 下次,我们将研究 actor-critic 方法,它是基于价值和基于策略的方法的组合。
因此,由于基于策略的方法,我们可以直接优化我们的策略以输出动作上的概率分布从而获得最佳累积回报。为此,我们定义一个目标函数,即预期累积奖励,我们想要找到最大化此目标函数的值。
基于策略的方法和策略梯度方法之间的区别
策略梯度方法,我们将在本单元中研究的内容,是基于策略的方法的一个子类。在基于策略的方法中,优化大多数时候是在线策略,因为对于每次更新,我们只使用我们最新版本的策略收集的数据(轨迹)。.
这两种方法之间的区别在于我们如何优化参数:
- 在基于策略的方法中,我们直接搜索最优策略。我们可以间接优化参数,通过使用诸如爬山算法、模拟退火或进化策略等技术最大化目标函数的局部近似值。 间接优化参数,通过使用诸如爬山算法、模拟退火或进化策略等技术最大化目标函数的局部近似值。
- 在策略梯度方法中,因为它基于策略的方法的子类,我们直接搜索最优策略。但是我们直接优化参数,通过对目标函数的性能执行梯度上升。 直接优化参数,通过对目标函数的性能执行梯度上升。.
在更深入地研究策略梯度方法的工作原理(目标函数、策略梯度定理、梯度上升等)之前,让我们研究一下基于策略的方法的优点和缺点。
< > 在 GitHub 上更新