深度强化学习课程文档

什么是强化学习?简短回顾

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

什么是强化学习?简短回顾

在强化学习中,我们构建一个可以 做出明智决策 的智能体。例如,一个 学习玩电子游戏 的智能体。或者一个交易智能体,它通过决定 买入哪些股票和何时卖出 来 学习最大化其利益 。

RL process

为了做出智能决策,我们的智能体将通过 试错法与环境互动 ,并接收奖励(正面或负面) 作为独特的反馈 ,从而从环境中学习。

它的目标 是最大化其期望的累积奖励 (因为奖励假设)。

智能体的决策过程称为策略 π: 给定一个状态,策略将输出一个动作或动作的概率分布。也就是说,给定环境的观察,策略将提供智能体应该采取的动作(或每个动作的多个概率)。

Policy

我们的目标是找到一个最优策略 π* ,也就是,一个能够带来最佳期望累积奖励的策略。

为了找到这个最优策略(从而解决强化学习问题),主要有两种强化学习方法

  • 基于策略的方法: 直接训练策略 ,以学习在给定状态下采取哪个动作。
  • 基于价值的方法: 训练一个价值函数 ,以学习 哪个状态更有价值 ,并使用这个价值函数 来采取导致该状态的动作 。
Two RL approaches

在本单元中, 我们将更深入地探讨基于价值的方法。

< > 在 GitHub 上更新