金字塔环境
此环境中的目标是训练我们的智能体以**获得金字塔顶部的金色积木。为此,它需要按下按钮生成金字塔,导航到金字塔,将其推倒,然后移动到顶部的金色积木**。

奖励函数
奖励函数为

在代码中,它看起来像这样

为了训练这个寻找按钮然后摧毁金字塔的新智能体,我们将使用两种类型的奖励的组合
- 环境提供的外部奖励(上图所示)。
- 但也包括一个称为**好奇心**的内部奖励。第二个奖励将**推动我们的智能体变得好奇,或者换句话说,更好地探索其环境**。
如果您想了解更多关于好奇心的信息,下一部分(可选)将解释基础知识。
观察空间
在观察方面,我们**使用 148 个射线投射,每个射线投射都可以检测物体**(开关、积木、金色积木和墙壁)。

我们还使用一个**指示开关状态的布尔变量**(我们是否打开或关闭了生成金字塔的开关)和一个包含**智能体速度**的向量。

动作空间
动作空间是**离散的**,有四种可能的动作
