深度强化学习课程文档

延伸阅读

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

简介什么是基于策略的方法？策略梯度方法的优缺点深入探索策略梯度（可选）策略梯度定理词汇表实践测验总结延伸阅读

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

延伸阅读

如果您想深入学习，这些是可选阅读材料。

策略优化简介

第三部分：策略优化简介 - Spinning Up 文档

策略梯度

实现

< > 在 GitHub 上更新

←总结简介→

© . This site is unofficial and not affiliated with Hugging Face, Inc.