深度强化学习课程文档
(可选)深度强化学习中的好奇心是什么?
并获得增强的文档体验
开始使用
(可选)深度强化学习中的好奇心是什么?
这是关于好奇心的(可选)介绍。如果你想了解更多,可以阅读另外两篇文章,其中我们深入探讨了数学细节。
现代强化学习的两个主要问题
要理解好奇心是什么,我们首先需要理解强化学习的两个主要问题。
首先是**稀疏奖励问题:**即**大多数奖励不包含信息,因此被设为零**。
请记住,强化学习基于**奖励假设**,即每个目标都可以被描述为最大化奖励。因此,奖励充当强化学习智能体的反馈;**如果它们没有收到任何奖励,它们对哪个动作是适当的(或不适当的)知识就无法改变**。

例如,在基于游戏 Doom 的环境集“DoomMyWayHome”中,你的智能体只有在**找到背心时**才会获得奖励。然而,背心离你的起点很远,所以你的大多数奖励都将是零。因此,如果我们的智能体没有收到有用的反馈(密集奖励),它将需要更长的时间来学习最优策略,并且**它可能会在没有找到目标的情况下原地打转**。

第二个大问题是**外部奖励函数是手工制作的;在每个环境中,人类都必须实现一个奖励函数**。但是我们如何在大而复杂的环境中实现规模化呢?
那么什么是好奇心?
解决这些问题的一个方法是**开发一种智能体内部的奖励函数,即由智能体自身生成**。智能体将充当一个自学者,因为它将是学生和它自己的反馈大师。
**这种内在奖励机制被称为好奇心**,因为这种奖励会促使智能体探索新颖/不熟悉的状态。为了实现这一点,我们的智能体在探索新轨迹时会获得高奖励。
这种奖励的灵感来源于人类的行为。**我们天生就有一种探索环境和发现新事物的内在欲望**。
有不同的方法可以计算这种内在奖励。经典的方法(通过下一状态预测的好奇心)是**将好奇心计算为智能体在给定当前状态和所采取行动的情况下预测下一状态的误差**。

因为好奇心的理念是**鼓励我们的智能体执行能够减少智能体预测其行动后果能力的不确定性的行动**(不确定性在智能体花费时间较少或动态复杂区域会更高)。
如果智能体在这些状态上花费大量时间,它将善于预测下一个状态(低好奇心)。另一方面,如果它处于一个新的、未探索的状态,将很难预测下一个状态(高好奇心)。

使用好奇心将促使我们的智能体偏向具有高预测误差的转换(在智能体花费时间较少或动态复杂的区域中,预测误差会更高),从而**更好地探索我们的环境**。
还有**其他好奇心计算方法**。ML-Agents 使用一种更高级的方法,称为通过随机网络蒸馏的好奇心。这超出了本教程的范围,但如果你感兴趣,我写了一篇文章详细解释它。
< > 在 GitHub 上更新