深度强化学习课程文档

什么是强化学习（RL）？简要回顾

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

引言什么是强化学习？简要回顾两种基于价值的方法贝尔曼方程，简化我们的价值估计蒙特卡罗 vs 时序差分学习中期回顾中期测验 Q-学习介绍 Q-学习示例 Q-学习回顾词汇表实操 Q-学习测验总结延伸阅读

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

什么是强化学习（RL）？简要回顾

在强化学习中，我们构建一个能够做出明智决策的智能体。例如，一个学习玩视频游戏的智能体，或者一个通过决定购买哪些股票以及何时出售来最大化其收益的交易智能体。

RL process

为了做出智能决策，我们的智能体将通过试错与环境互动并接收奖励（正向或负向）作为独特的反馈来学习。

其目标是最大化其预期累积奖励（由于奖励假说）。

智能体的决策过程称为策略 π：给定一个状态，策略将输出一个动作或一个动作的概率分布。也就是说，给定对环境的观察，策略将提供智能体应该采取的动作（或每个动作的多个概率）。

Policy

我们的目标是找到一个最优策略 π*，即能带来最佳预期累积奖励的策略。

为了找到这个最优策略（从而解决强化学习问题），主要有两种强化学习方法：

基于策略的方法：直接训练策略以学习给定状态下应采取的动作。
基于价值的方法：训练一个价值函数来学习哪个状态更有价值，并使用这个价值函数来采取导致该状态的动作。

Two RL approaches

在本单元中，我们将深入探讨基于价值的方法。

< > 在 GitHub 上更新

←引言两种基于价值的方法→

© . This site is unofficial and not affiliated with Hugging Face, Inc.