深度强化学习课程文档

任务类型

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

引言什么是强化学习？强化学习框架任务类型探索/利用权衡解决强化学习问题的两种主要方法深度强化学习中的“深度” 总结词汇表实操测验结论延伸阅读

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

任务类型

任务是强化学习问题的**一个实例**。我们可以有两种类型的任务：**情景式**和**持续式**。

情景式任务

在这种情况下，我们有一个起始点和一个终止点**（一个终止状态）。这构成了一个情节**：一个由状态、动作、奖励和新状态组成的列表。

例如，想想《超级马里奥兄弟》：一个情节从一个新的马里奥关卡开始，当**你被杀死或到达关卡末尾时结束**。

Mario — 新情节的开始。

持续式任务

这些任务**永远持续**（**没有终止状态**）。在这种情况下，代理必须**学习如何选择最佳动作并同时与环境交互**。

例如，一个进行自动化股票交易的代理。对于这个任务，没有起始点和终止状态。**代理会一直运行，直到我们决定停止它。**

Stock Market

总结一下

Tasks recap

< > 在 GitHub 上更新

←强化学习框架探索/利用权衡→

© . This site is unofficial and not affiliated with Hugging Face, Inc.