深度强化学习课程文档

强化学习中的“深度”

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

导论什么是强化学习？强化学习框架任务类型探索/利用权衡解决强化学习问题的两种主要方法深度强化学习中的“深度”总结词汇表实操测验结论延伸阅读

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

强化学习中的“深度”

到目前为止我们谈论的是强化学习。但“深度”又体现在哪里呢？

深度强化学习引入了深度神经网络来解决强化学习问题——因此得名“深度”。

例如，在下一个单元中，我们将学习两种基于价值的算法：Q-学习（经典强化学习）和深度Q-学习。

你会发现不同之处在于，第一种方法中，我们使用传统算法来创建一个Q表格，帮助我们找到每个状态下应采取的行动。

在第二种方法中，我们将使用神经网络（来近似Q值）。

Value based RL — 图示灵感来源于Udacity的Q学习笔记本

如果你不熟悉深度学习，你绝对应该观看FastAI面向程序员的实用深度学习课程（免费）。

< > 在 GitHub 上更新

←解决强化学习问题的两种主要方法总结→

© . This site is unofficial and not affiliated with Hugging Face, Inc.