深度强化学习课程文档

解决强化学习问题的两种主要方法

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

解决强化学习问题的两种主要方法

现在我们已经了解了强化学习框架,那么如何解决强化学习问题呢?

换句话说,如何构建一个能够选择最大化其预期累积奖励的动作的强化学习智能体?

策略 π: 智能体的“大脑”

策略π智能体的“大脑”,它是告诉我们在处于特定状态时应该采取什么动作的函数。因此它定义了智能体在给定时间点的行为

Policy
将策略视为智能体的“大脑”,是告诉我们在给定状态下应该采取什么动作的函数。

这个策略是我们想要学习的函数,我们的目标是找到最优策略π*,即在智能体根据它采取行动时最大化预期回报的策略。我们通过训练来找到这个π*

有两种方法可以训练我们的智能体来找到这个最优策略 π*

  • 直接方法,通过教智能体学习在给定当前状态下应该采取什么动作基于策略的方法
  • 间接方法教智能体学习哪个状态更有价值,然后采取导致更有价值状态的动作基于价值的方法

基于策略的方法

在基于策略的方法中,我们直接学习策略函数

这个函数将定义从每个状态到最佳对应动作的映射。或者,它可以定义在该状态下的一组可能动作上的概率分布

Policy
正如我们在这里看到的那样,策略(确定性的)直接指示了在每个步骤中应该采取的动作

我们有两种类型的策略

  • 确定性的:给定状态下的策略将始终返回相同的动作
Policy
action = policy(state)
Policy
  • 随机的:输出在动作上的概率分布
Policy
policy(actions | state) = 给定当前状态的一组动作上的概率分布
Policy Based
给定一个初始状态,我们的随机策略将输出在该状态下可能动作上的概率分布。

如果我们回顾一下

Pbm recap Pbm recap

基于价值的方法

在基于价值的方法中,我们学习价值函数而不是策略函数,该函数将状态映射到处于该状态的预期价值

状态的价值是指智能体从该状态开始并根据我们的策略采取行动所能获得的预期折扣回报

“根据我们的策略采取行动”只是意味着我们的策略是“进入价值最高的那个状态”

Value based RL

在这里我们看到我们的价值函数为每个可能的状态定义了价值

Value based RL
由于我们的价值函数,在每一步,我们的策略都将选择由价值函数定义的价值最大的状态:-7,然后 -6,然后 -5(等等)以达到目标。

由于我们的价值函数,在每一步,我们的策略都将选择由价值函数定义的价值最大的状态:-7,然后 -6,然后 -5(等等)以达到目标。

如果我们回顾一下

Vbm 概述 Vbm 概述 < > 在 GitHub 上更新