深度强化学习课程文档
什么是强化学习?
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
什么是强化学习?
为了理解强化学习,让我们从全局入手。
全局视角
强化学习背后的思想是,智能体(AI)将通过与环境互动(通过试错)并接收奖励(负面或正面)作为执行动作的反馈,从而从环境中学习。
从与环境的互动中学习源于我们的自然经验。
例如,想象一下把你弟弟放在他从未玩过的视频游戏前,给他一个控制器,然后让他独自一人。

你的弟弟将通过按下正确的按钮(动作)与环境(视频游戏)互动。他得到了一枚金币,这是一个 +1 奖励。这是积极的,他刚刚明白在这个游戏中他必须获得金币。

但是,他再次按下正确的按钮,然后碰到了敌人。他死了,这是一个 -1 奖励。

通过试错与环境互动,你的弟弟明白他需要在这个游戏中获得金币,但要避开敌人。
在没有任何监督的情况下,孩子会越来越擅长玩游戏。
这就是人类和动物学习的方式,通过互动。 强化学习只是一种从行动中学习的计算方法。
正式定义
现在我们可以给出一个正式的定义
强化学习是一个框架,用于通过构建智能体来解决控制任务(也称为决策问题),这些智能体通过与环境互动(通过试错)并接收奖励(正面或负面)作为独特的反馈,从而从环境中学习。
但是强化学习是如何工作的呢?
< > 在 GitHub 上更新