深度强化学习课程文档
金字塔环境
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
金字塔环境
此环境中的目标是训练我们的智能体获取金字塔顶部的金色砖块。为此,它需要按下一个按钮来生成金字塔,导航到金字塔,将其撞倒,然后移动到顶部的金色砖块。

奖励函数
奖励函数是

在代码方面,它看起来像这样

为了训练这个新的智能体,使其寻找按钮,然后寻找金字塔进行破坏,我们将结合使用两种类型的奖励
- 环境给出的外在奖励(如上图所示)。
- 还有一种称为好奇心的内在奖励。第二个奖励将推动我们的智能体变得好奇,或者换句话说,更好地探索其环境。
如果您想了解更多关于好奇心的信息,下一节(可选)将解释基本知识。
观察空间
在观察方面,我们使用 148 条射线投射,每条射线都可以检测物体(开关、砖块、金色砖块和墙壁)。

我们还使用一个布尔变量来指示开关状态(我们是否打开或关闭开关以生成金字塔)和一个包含智能体速度的向量。

动作空间
动作空间是离散的,有四种可能的动作
