深度强化学习课程文档
解决强化学习问题的两种主要方法
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
解决强化学习问题的两种主要方法
现在我们了解了强化学习框架,那么如何解决强化学习问题呢?
换句话说,我们如何构建一个强化学习智能体,使其能够**选择能够最大化预期累积奖励的动作?**
策略 π:智能体的大脑
策略 π 是我们智能体的大脑,它是一个函数,告诉我们在给定状态下应该采取什么行动。因此,它定义了智能体在给定时间点的行为。

这个策略**是我们想要学习的函数**,我们的目标是找到最优策略 π*,即当智能体按照该策略行动时,**能使预期回报最大化**的策略。我们通过**训练**来找到这个 π*。
有两种方法可以训练我们的智能体来找到这个最优策略 π*
- **直接地**,通过教导智能体学习在当前状态下应该**采取什么行动**:**基于策略的方法。**
- **间接地**,**教导智能体学习哪个状态更有价值**,然后采取**能够导向更有价值状态**的行动:基于价值的方法。
基于策略的方法
在基于策略的方法中,我们**直接学习一个策略函数。**
此函数将定义从每个状态到最佳对应动作的映射。或者,它可以定义**在该状态下可能动作集合的概率分布。**

我们有两种类型的策略
- 确定性:在给定状态下,策略**总是返回相同的动作。**


- 随机性:输出**动作的概率分布。**


总结一下


基于价值的方法
在基于价值的方法中,我们**学习一个价值函数**,而不是学习一个策略函数,该函数将状态映射到**处于该状态**的预期价值。
状态的价值是智能体**从该状态开始,然后按照我们的策略行动**所能获得的**预期折扣回报。**
“按照我们的策略行动”仅仅意味着我们的策略是**“走向价值最高的状态”**。

这里我们看到,我们的价值函数**为每个可能的状态定义了价值。**

感谢我们的价值函数,在每一步中,我们的策略都将选择价值函数定义的具有最大值的状态:-7,然后是-6,然后是-5(依此类推),以达到目标。
总结一下

