深度强化学习课程文档

金字塔环境

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

金字塔环境

此环境中的目标是训练我们的智能体获取金字塔顶部的金色砖块。为此,它需要按下一个按钮来生成金字塔,导航到金字塔,将其撞倒,然后移动到顶部的金色砖块

Pyramids Environment

奖励函数

奖励函数是

Pyramids Environment

在代码方面,它看起来像这样

Pyramids Reward

为了训练这个新的智能体,使其寻找按钮,然后寻找金字塔进行破坏,我们将结合使用两种类型的奖励

  • 环境给出的外在奖励(如上图所示)。
  • 还有一种称为好奇心内在奖励。第二个奖励将推动我们的智能体变得好奇,或者换句话说,更好地探索其环境

如果您想了解更多关于好奇心的信息,下一节(可选)将解释基本知识。

观察空间

在观察方面,我们使用 148 条射线投射,每条射线都可以检测物体(开关、砖块、金色砖块和墙壁)。

我们还使用一个布尔变量来指示开关状态(我们是否打开或关闭开关以生成金字塔)和一个包含智能体速度的向量。

Pyramids obs code

动作空间

动作空间是离散的,有四种可能的动作

金字塔环境 < > 在 GitHub 上更新