深度强化学习课程文档

金字塔环境

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

金字塔环境

此环境的目标是训练我们的代理,使其拿到金字塔顶部的金砖。为此,它需要按下按钮生成金字塔,导航到金字塔,将其推倒,然后移动到顶部的金砖

Pyramids Environment

奖励函数

奖励函数是

Pyramids Environment

用代码表示如下:

Pyramids Reward

为了训练这个新的代理来寻找按钮然后摧毁金字塔,我们将结合使用两种类型的奖励:

  • 环境提供的外部奖励(如上图所示)。
  • 以及一种称为好奇心内部奖励。这第二个奖励将促使我们的代理产生好奇心,或者换句话说,更好地探索其环境

如果您想了解更多关于好奇心的信息,下一节(可选)将解释其基本原理。

观察空间

在观察方面,我们使用了148个射线投射,每个都可以检测物体(开关、砖块、金砖和墙壁)。

我们还使用了一个布尔变量来指示开关状态(我们是否打开或关闭了开关以生成金字塔),以及一个包含代理速度的向量

Pyramids obs code

动作空间

动作空间是离散的,有四种可能的动作:

金字塔环境 < > 在 GitHub 上更新