解决强化学习问题的两种主要方法
现在我们已经了解了强化学习框架,那么如何解决强化学习问题呢?
换句话说,如何构建一个能够选择最大化其预期累积奖励的动作的强化学习智能体?
策略 π: 智能体的“大脑”
策略π是智能体的“大脑”,它是告诉我们在处于特定状态时应该采取什么动作的函数。因此它定义了智能体在给定时间点的行为。

这个策略是我们想要学习的函数,我们的目标是找到最优策略π*,即在智能体根据它采取行动时最大化预期回报的策略。我们通过训练来找到这个π*。
有两种方法可以训练我们的智能体来找到这个最优策略 π*
- 直接方法,通过教智能体学习在给定当前状态下应该采取什么动作:基于策略的方法。
- 间接方法,教智能体学习哪个状态更有价值,然后采取导致更有价值状态的动作:基于价值的方法。
基于策略的方法
在基于策略的方法中,我们直接学习策略函数。
这个函数将定义从每个状态到最佳对应动作的映射。或者,它可以定义在该状态下的一组可能动作上的概率分布。

我们有两种类型的策略
- 确定性的:给定状态下的策略将始终返回相同的动作。


- 随机的:输出在动作上的概率分布。


如果我们回顾一下


基于价值的方法
在基于价值的方法中,我们学习价值函数而不是策略函数,该函数将状态映射到处于该状态的预期价值。
状态的价值是指智能体从该状态开始并根据我们的策略采取行动所能获得的预期折扣回报。
“根据我们的策略采取行动”只是意味着我们的策略是“进入价值最高的那个状态”。

在这里我们看到我们的价值函数为每个可能的状态定义了价值。

由于我们的价值函数,在每一步,我们的策略都将选择由价值函数定义的价值最大的状态:-7,然后 -6,然后 -5(等等)以达到目标。
如果我们回顾一下

