深度强化学习课程文档

什么是基于策略的方法?

Hugging Face's logo
加入 Hugging Face 社区

并获取增强文档体验的访问权限

开始使用

什么是基于策略的方法?

强化学习的主要目标是**找到最优策略 π\pi^{*},该策略将最大化预期累积奖励**。因为强化学习基于奖励假设所有目标都可以描述为最大化预期累积奖励。

例如,在一场足球比赛中(你将在两个单元中训练代理),目标是赢得比赛。我们可以将强化学习中的这个目标描述为**最大化进球数**(当球越过球门线时)进入对手的球门。以及**最小化自家球门中的进球数**。

Soccer

基于价值、基于策略和 Actor-Critic 方法

在第一个单元中,我们看到了两种方法来找到(或者大多数时候,近似)这个最优策略π\pi^{*}.

  • 基于价值的方法中,我们学习一个价值函数。

    • 这个想法是,一个最优的价值函数会导致一个最优的策略π\pi^{*}.
    • 我们的目标是**最小化预测价值和目标价值之间的损失**,以近似真正的行动价值函数。
    • 我们有一个策略,但它是隐式的,因为它**直接由价值函数生成**。例如,在 Q 学习中,我们使用了一个(epsilon-)贪婪策略。
  • 另一方面,在基于策略的方法中,我们直接学习近似π\pi^{*}无需学习价值函数。

    • 这个想法是对策略进行参数化。例如,使用神经网络πθ\pi_\theta,这个策略将输出一个关于行动的概率分布(随机策略)。
    • stochastic policy
    • 然后我们的目标是**使用梯度上升最大化参数化策略的性能**。
    • 为此,我们控制参数θ\theta,这将影响状态上行动的分布。
Policy based
  • 下次,我们将研究Actor-Critic 方法,它结合了基于价值和基于策略的方法。

因此,由于基于策略的方法,我们可以直接优化我们的策略πθ\pi_\theta输出关于行动的概率分布πθ(as)\pi_\theta(a|s),这将带来最佳的累积回报。为此,我们定义了一个目标函数J(θ)J(\theta),即预期累积奖励,我们**想要找到最大化这个目标函数的 θ\theta 值**。

基于策略方法和策略梯度方法的区别

策略梯度方法(我们将在这个单元中学习)是基于策略方法的一个子类。在基于策略的方法中,优化通常是在线的,因为对于每次更新,我们只使用收集到的数据(轨迹)由我们最新的版本πθ\pi_\theta.

这两种方法之间的区别在于我们如何优化参数θ\theta:

  • 基于策略的方法中,我们直接搜索最佳策略。我们可以通过像爬山法、模拟退火或进化策略等技术来优化参数θ\theta 间接地,通过最大化目标函数的局部近似。
  • 策略梯度方法中,因为它属于基于策略方法的一个子类,我们直接搜索最佳策略。但是我们优化参数θ\theta 直接地,通过对目标函数的性能进行梯度上升。J(θ)J(\theta).

在更深入地了解策略梯度方法的工作原理(目标函数、策略梯度定理、梯度上升等)之前,让我们先研究基于策略方法的优缺点。

< > 在 GitHub 上更新