深度强化学习课程文档

金字塔环境

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

介绍 ML-Agents 如何工作？雪球目标环境金字塔环境（可选）深度强化学习中的好奇心是什么？动手实践额外内容：学习使用 Unity 和 MLAgents 创建自己的环境测验总结

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

金字塔环境

此环境的目标是训练我们的代理，使其拿到金字塔顶部的金砖。为此，它需要按下按钮生成金字塔，导航到金字塔，将其推倒，然后移动到顶部的金砖。

Pyramids Environment

奖励函数

奖励函数是

Pyramids Environment

用代码表示如下：

Pyramids Reward

为了训练这个新的代理来寻找按钮然后摧毁金字塔，我们将结合使用两种类型的奖励：

环境提供的外部奖励（如上图所示）。
以及一种称为好奇心的内部奖励。这第二个奖励将促使我们的代理产生好奇心，或者换句话说，更好地探索其环境。

如果您想了解更多关于好奇心的信息，下一节（可选）将解释其基本原理。

观察空间

在观察方面，我们使用了148个射线投射，每个都可以检测物体（开关、砖块、金砖和墙壁）。

我们还使用了一个布尔变量来指示开关状态（我们是否打开或关闭了开关以生成金字塔），以及一个包含代理速度的向量。

Pyramids obs code

动作空间

动作空间是离散的，有四种可能的动作：

金字塔环境

< > 在 GitHub 上更新

←雪球目标环境（可选）深度强化学习中的好奇心是什么？→

© . This site is unofficial and not affiliated with Hugging Face, Inc.