深度强化学习课程文档
金字塔环境
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
金字塔环境
此环境的目标是训练我们的代理,使其拿到金字塔顶部的金砖。为此,它需要按下按钮生成金字塔,导航到金字塔,将其推倒,然后移动到顶部的金砖。

奖励函数
奖励函数是

用代码表示如下:

为了训练这个新的代理来寻找按钮然后摧毁金字塔,我们将结合使用两种类型的奖励:
- 环境提供的外部奖励(如上图所示)。
- 以及一种称为好奇心的内部奖励。这第二个奖励将促使我们的代理产生好奇心,或者换句话说,更好地探索其环境。
如果您想了解更多关于好奇心的信息,下一节(可选)将解释其基本原理。
观察空间
在观察方面,我们使用了148个射线投射,每个都可以检测物体(开关、砖块、金砖和墙壁)。

我们还使用了一个布尔变量来指示开关状态(我们是否打开或关闭了开关以生成金字塔),以及一个包含代理速度的向量。

动作空间
动作空间是离散的,有四种可能的动作:
