深度强化学习课程文档

金字塔环境

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

金字塔环境

此环境中的目标是训练我们的智能体以**获得金字塔顶部的金色积木。为此,它需要按下按钮生成金字塔,导航到金字塔,将其推倒,然后移动到顶部的金色积木**。

Pyramids Environment

奖励函数

奖励函数为

Pyramids Environment

在代码中,它看起来像这样

Pyramids Reward

为了训练这个寻找按钮然后摧毁金字塔的新智能体,我们将使用两种类型的奖励的组合

  • 环境提供的外部奖励(上图所示)。
  • 但也包括一个称为**好奇心**的内部奖励。第二个奖励将**推动我们的智能体变得好奇,或者换句话说,更好地探索其环境**。

如果您想了解更多关于好奇心的信息,下一部分(可选)将解释基础知识。

观察空间

在观察方面,我们**使用 148 个射线投射,每个射线投射都可以检测物体**(开关、积木、金色积木和墙壁)。

我们还使用一个**指示开关状态的布尔变量**(我们是否打开或关闭了生成金字塔的开关)和一个包含**智能体速度**的向量。

Pyramids obs code

动作空间

动作空间是**离散的**,有四种可能的动作

金字塔环境 < > 更新 在 GitHub 上