深度强化学习课程文档

什么是强化学习(RL)?简要回顾

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

什么是强化学习(RL)?简要回顾

在强化学习中,我们构建一个能够做出明智决策的智能体。例如,一个学习玩视频游戏的智能体,或者一个通过决定购买哪些股票以及何时出售最大化其收益的交易智能体。

RL process

为了做出智能决策,我们的智能体将通过试错与环境互动并接收奖励(正向或负向)作为独特的反馈来学习。

其目标是最大化其预期累积奖励(由于奖励假说)。

智能体的决策过程称为策略 π:给定一个状态,策略将输出一个动作或一个动作的概率分布。也就是说,给定对环境的观察,策略将提供智能体应该采取的动作(或每个动作的多个概率)。

Policy

我们的目标是找到一个最优策略 π*,即能带来最佳预期累积奖励的策略。

为了找到这个最优策略(从而解决强化学习问题),主要有两种强化学习方法:

  • 基于策略的方法直接训练策略以学习给定状态下应采取的动作。
  • 基于价值的方法训练一个价值函数来学习哪个状态更有价值,并使用这个价值函数来采取导致该状态的动作。
Two RL approaches

在本单元中,我们将深入探讨基于价值的方法。

< > 在 GitHub 上更新