Deep RL 课程文档
Sample-Factory 强化学习课程 PPO 算法简介
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
Sample-Factory 强化学习课程 PPO 算法简介

在本单元 8 的第二部分,我们将通过使用 Sample-Factory(PPO 算法的异步实现)来更深入地研究 PPO 优化,以训练我们的智能体玩 vizdoom(Doom 的开源版本)。
在 notebook 中,您将训练您的智能体玩 Health Gathering 关卡,在该关卡中,智能体必须收集血包以避免死亡。之后,您可以训练您的智能体玩更复杂的关卡,例如 Deathmatch。

听起来很激动人心?让我们开始吧!🚀
本实践教程由 Hugging Face 的机器学习研究科学家 Edward Beeching 制作。他致力于 Godot 强化学习智能体,这是一个用于在 Godot 游戏引擎中开发环境和智能体的开源接口。
< > 在 GitHub 上更新