使用 Sample-Factory 介绍 PPO
在本单元 8 的第二部分中,我们将深入探讨 PPO 优化,方法是使用 Sample-Factory(PPO 算法的异步实现)来训练我们的智能体玩 vizdoom(Doom 的开源版本)。
在笔记本中,您将训练您的智能体玩“收集生命值”关卡,其中智能体必须收集生命值包以避免死亡。之后,您可以训练您的智能体玩更复杂的关卡,例如“死亡竞赛”。
听起来很激动人心?让我们开始吧!🚀
本动手实践由 Hugging Face 的机器学习研究科学家 Edward Beeching 创建。他致力于 Godot 强化学习智能体,这是一个用于在 Godot 游戏引擎中开发环境和智能体的开源接口。
< > 更新 在 GitHub 上