深度强化学习课程文档

使用 Sample-Factory 介绍 PPO

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

使用 Sample-Factory 介绍 PPO

thumbnail

在单元 8 的第二部分中,我们将深入研究 PPO 优化,使用 Sample-Factory(一个 PPO 算法的异步实现)来训练我们的智能体玩 vizdoom(Doom 的开源版本)。

在 Notebook 中,你将训练你的智能体玩 Health Gathering 关卡,智能体必须收集医疗包以避免死亡。之后,你可以训练你的智能体玩更复杂的关卡,例如 Deathmatch

Environment

听起来很激动人心?让我们开始吧!🚀

本次实践由 Hugging Face 的机器学习研究科学家 Edward Beeching 制作。他曾参与 Godot 强化学习智能体项目,这是一个用于在 Godot 游戏引擎中开发环境和智能体的开源接口。

< > 在 GitHub 上更新