深度强化学习课程文档

解决强化学习问题的两种主要方法

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

解决强化学习问题的两种主要方法

现在我们了解了强化学习框架,那么如何解决强化学习问题呢?

换句话说,我们如何构建一个强化学习智能体,使其能够**选择能够最大化预期累积奖励的动作?**

策略 π:智能体的大脑

策略 π 是我们智能体的大脑,它是一个函数,告诉我们在给定状态下应该采取什么行动。因此,它定义了智能体在给定时间点的行为。

Policy
将策略视为我们智能体的大脑,它是一个函数,将告诉我们在给定状态下应该采取的行动。

这个策略**是我们想要学习的函数**,我们的目标是找到最优策略 π*,即当智能体按照该策略行动时,**能使预期回报最大化**的策略。我们通过**训练**来找到这个 π*。

有两种方法可以训练我们的智能体来找到这个最优策略 π*

  • **直接地**,通过教导智能体学习在当前状态下应该**采取什么行动**:**基于策略的方法。**
  • **间接地**,**教导智能体学习哪个状态更有价值**,然后采取**能够导向更有价值状态**的行动:基于价值的方法。

基于策略的方法

在基于策略的方法中,我们**直接学习一个策略函数。**

此函数将定义从每个状态到最佳对应动作的映射。或者,它可以定义**在该状态下可能动作集合的概率分布。**

Policy
正如我们在这里看到的,策略(确定性)**直接指示每一步要采取的动作。**

我们有两种类型的策略

  • 确定性:在给定状态下,策略**总是返回相同的动作。**
Policy
动作 = 策略(状态)
Policy
  • 随机性:输出**动作的概率分布。**
Policy
策略(动作 | 状态)= 在给定当前状态下,动作集合的概率分布
Policy Based
给定初始状态,我们的随机策略将输出在该状态下可能动作的概率分布。

总结一下

Pbm recap Pbm recap

基于价值的方法

在基于价值的方法中,我们**学习一个价值函数**,而不是学习一个策略函数,该函数将状态映射到**处于该状态**的预期价值。

状态的价值是智能体**从该状态开始,然后按照我们的策略行动**所能获得的**预期折扣回报。**

“按照我们的策略行动”仅仅意味着我们的策略是**“走向价值最高的状态”**。

Value based RL

这里我们看到,我们的价值函数**为每个可能的状态定义了价值。**

Value based RL
感谢我们的价值函数,在每一步中,我们的策略都将选择价值函数定义的具有最大值的状态:-7,然后是-6,然后是-5(依此类推),以达到目标。

感谢我们的价值函数,在每一步中,我们的策略都将选择价值函数定义的具有最大值的状态:-7,然后是-6,然后是-5(依此类推),以达到目标。

总结一下

Vbm recap Vbm recap < > 在 GitHub 上更新