深度强化学习课程文档

什么是强化学习?简要回顾

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始吧

什么是强化学习?简要回顾

在强化学习中,我们构建一个能够**做出明智决策**的智能体。例如,一个**学习玩电子游戏**的智能体。或者一个**学习最大化其收益**的交易智能体,它通过决定**购买哪些股票以及何时出售**来实现收益最大化。

RL process

为了做出明智的决策,我们的智能体将通过**与环境互动,并通过反复试验**,以及接收**作为独特反馈的奖励(正向或负向)**来从环境中学习。

它的目标是**最大化其预期累计奖励**(由于奖励假设)。

**智能体的决策过程被称为策略 π:**给定一个状态,策略将输出一个动作或一个动作上的概率分布。也就是说,给定对环境的观察,策略将提供一个智能体应该采取的动作(或每个动作的多个概率)。

Policy

**我们的目标是找到一个最优策略 π* **,也称为能够产生最佳预期累计奖励的策略。

为了找到这个最优策略(从而解决强化学习问题),**有两种主要的强化学习方法**

  • 基于策略的方法:**直接训练策略**以学习在给定状态下采取哪些动作。
  • 基于价值的方法:**训练一个价值函数**以学习**哪个状态更有价值**,并使用这个价值函数来**采取导致该状态的动作**。
Two RL approaches

在本单元中,**我们将深入探讨基于价值的方法**。

< > 更新 在 GitHub 上