什么是基于策略的方法?
强化学习的主要目标是**找到最优策略 ,该策略将最大化预期累积奖励**。因为强化学习基于奖励假设:所有目标都可以描述为最大化预期累积奖励。
例如,在一场足球比赛中(你将在两个单元中训练代理),目标是赢得比赛。我们可以将强化学习中的这个目标描述为**最大化进球数**(当球越过球门线时)进入对手的球门。以及**最小化自家球门中的进球数**。
基于价值、基于策略和 Actor-Critic 方法
在第一个单元中,我们看到了两种方法来找到(或者大多数时候,近似)这个最优策略.
在基于价值的方法中,我们学习一个价值函数。
- 这个想法是,一个最优的价值函数会导致一个最优的策略.
- 我们的目标是**最小化预测价值和目标价值之间的损失**,以近似真正的行动价值函数。
- 我们有一个策略,但它是隐式的,因为它**直接由价值函数生成**。例如,在 Q 学习中,我们使用了一个(epsilon-)贪婪策略。
另一方面,在基于策略的方法中,我们直接学习近似无需学习价值函数。
- 这个想法是对策略进行参数化。例如,使用神经网络,这个策略将输出一个关于行动的概率分布(随机策略)。
- 然后我们的目标是**使用梯度上升最大化参数化策略的性能**。
- 为此,我们控制参数,这将影响状态上行动的分布。
- 下次,我们将研究Actor-Critic 方法,它结合了基于价值和基于策略的方法。
因此,由于基于策略的方法,我们可以直接优化我们的策略输出关于行动的概率分布,这将带来最佳的累积回报。为此,我们定义了一个目标函数,即预期累积奖励,我们**想要找到最大化这个目标函数的 值**。
基于策略方法和策略梯度方法的区别
策略梯度方法(我们将在这个单元中学习)是基于策略方法的一个子类。在基于策略的方法中,优化通常是在线的,因为对于每次更新,我们只使用收集到的数据(轨迹)由我们最新的版本.
这两种方法之间的区别在于我们如何优化参数:
- 在基于策略的方法中,我们直接搜索最佳策略。我们可以通过像爬山法、模拟退火或进化策略等技术来优化参数 间接地,通过最大化目标函数的局部近似。
- 在策略梯度方法中,因为它属于基于策略方法的一个子类,我们直接搜索最佳策略。但是我们优化参数 直接地,通过对目标函数的性能进行梯度上升。.
在更深入地了解策略梯度方法的工作原理(目标函数、策略梯度定理、梯度上升等)之前,让我们先研究基于策略方法的优缺点。
< > 在 GitHub 上更新