深度强化学习课程文档

使用 Sample-Factory 介绍 PPO

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

介绍 Sample Factory 和 Doom 上的 PPO 结论

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

使用 Sample-Factory 介绍 PPO

在单元 8 的第二部分中，我们将深入研究 PPO 优化，使用 Sample-Factory（一个 PPO 算法的异步实现）来训练我们的智能体玩 vizdoom（Doom 的开源版本）。

在 Notebook 中，你将训练你的智能体玩 Health Gathering 关卡，智能体必须收集医疗包以避免死亡。之后，你可以训练你的智能体玩更复杂的关卡，例如 Deathmatch。

Environment

听起来很激动人心？让我们开始吧！🚀

本次实践由 Hugging Face 的机器学习研究科学家 Edward Beeching 制作。他曾参与 Godot 强化学习智能体项目，这是一个用于在 Godot 游戏引擎中开发环境和智能体的开源接口。

< > 在 GitHub 上更新

←补充阅读使用 Sample Factory 和 Doom 的 PPO→

© . This site is unofficial and not affiliated with Hugging Face, Inc.