深度强化学习课程文档
什么是强化学习?简短回顾
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
什么是强化学习?简短回顾
在强化学习中,我们构建一个可以 做出明智决策 的智能体。例如,一个 学习玩电子游戏 的智能体。或者一个交易智能体,它通过决定 买入哪些股票和何时卖出 来 学习最大化其利益 。

为了做出智能决策,我们的智能体将通过 试错法与环境互动 ,并接收奖励(正面或负面) 作为独特的反馈 ,从而从环境中学习。
它的目标 是最大化其期望的累积奖励 (因为奖励假设)。
智能体的决策过程称为策略 π: 给定一个状态,策略将输出一个动作或动作的概率分布。也就是说,给定环境的观察,策略将提供智能体应该采取的动作(或每个动作的多个概率)。

我们的目标是找到一个最优策略 π* ,也就是,一个能够带来最佳期望累积奖励的策略。
为了找到这个最优策略(从而解决强化学习问题),主要有两种强化学习方法
- 基于策略的方法: 直接训练策略 ,以学习在给定状态下采取哪个动作。
- 基于价值的方法: 训练一个价值函数 ,以学习 哪个状态更有价值 ,并使用这个价值函数 来采取导致该状态的动作 。

在本单元中, 我们将更深入地探讨基于价值的方法。
< > 在 GitHub 上更新