深度强化学习课程文档

(可选) 深度强化学习中的好奇心是什么?

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

(可选) 深度强化学习中的好奇心是什么?

这是一个关于好奇心的 (可选) 简介。如果你想了解更多,你可以阅读两篇额外的文章,我们将在其中深入探讨数学细节

现代 RL 的两个主要问题

为了理解好奇心是什么,我们首先需要理解 RL 的两个主要问题

首先是稀疏奖励问题:即,大多数奖励不包含信息,因此设置为零

请记住,RL 基于奖励假设,即每个目标都可以描述为奖励最大化。因此,奖励充当 RL 智能体的反馈;如果它们没有收到任何奖励,它们对哪个动作是合适的(或不合适的)的了解将无法改变

Curiosity
来源:感谢奖励,我们的智能体知道该状态下的此动作是好的

例如,在Vizdoom 中,这是一组基于游戏 Doom 的环境“DoomMyWayHome”,你的智能体只有在找到背心时才会获得奖励。然而,背心距离你的起点很远,所以你获得的大多数奖励都将为零。因此,如果我们的智能体没有收到有用的反馈(密集奖励),它将需要更长的时间来学习最佳策略,并且它可能会花费时间转圈,而找不到目标

Curiosity

第二个大问题是外部奖励函数是人工制作的;在每个环境中,人类都必须实现一个奖励函数。但是如何在大型复杂环境中扩展它呢?

那么好奇心是什么?

解决这些问题的办法是开发一个对智能体本身固有的奖励函数,即由智能体本身生成的。智能体将充当自我学习者,因为它将是学生和它自己反馈的主宰者。

这种内在奖励机制被称为好奇心,因为这种奖励推动智能体探索新奇/不熟悉的状态。为了实现这一点,我们的智能体在探索新轨迹时将获得高奖励。

这种奖励的灵感来自人类的行为。我们天生就有一种探索环境和发现新事物的内在渴望

计算这种内在奖励的方法有很多。经典方法(通过下一个状态预测实现的好奇心)是计算好奇心作为我们的智能体在预测下一个状态时的误差,给定当前状态和采取的动作

Curiosity

因为好奇心的理念是鼓励我们的智能体执行能够减少智能体预测其行动结果能力的不确定性的行动(不确定性在智能体花费时间较少的地方或动态复杂的区域会更高)。

如果智能体在这些状态上花费了大量时间,它将擅长预测下一个状态(低好奇心)。另一方面,如果它处于一个新的、未探索的状态,它将难以预测下一个状态(高好奇心)。

Curiosity

使用好奇心将推动我们的智能体偏好具有高预测误差的转换(这在智能体花费时间较少的地方或动态复杂的区域会更高),并因此更好地探索我们的环境

还有其他好奇心计算方法。ML-Agents 使用了一种更高级的方法,称为通过随机网络蒸馏实现的好奇心。这超出了本教程的范围,但如果你有兴趣,我写了一篇文章详细解释了它

< > 更新 在 GitHub 上