深度强化学习课程文档

什么是强化学习?

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

什么是强化学习?

为了理解强化学习,让我们从全局入手。

全局视角

强化学习背后的思想是,智能体(AI)将通过与环境互动(通过试错)并接收奖励(负面或正面)作为执行动作的反馈,从而从环境中学习。

从与环境的互动中学习源于我们的自然经验。

例如,想象一下把你弟弟放在他从未玩过的视频游戏前,给他一个控制器,然后让他独自一人。

Illustration_1

你的弟弟将通过按下正确的按钮(动作)与环境(视频游戏)互动。他得到了一枚金币,这是一个 +1 奖励。这是积极的,他刚刚明白在这个游戏中他必须获得金币。

Illustration_2

但是,他再次按下正确的按钮,然后碰到了敌人。他死了,这是一个 -1 奖励。

Illustration_3

通过试错与环境互动,你的弟弟明白他需要在这个游戏中获得金币,但要避开敌人。

在没有任何监督的情况下,孩子会越来越擅长玩游戏。

这就是人类和动物学习的方式,通过互动。 强化学习只是一种从行动中学习的计算方法。

正式定义

现在我们可以给出一个正式的定义

强化学习是一个框架,用于通过构建智能体来解决控制任务(也称为决策问题),这些智能体通过与环境互动(通过试错)并接收奖励(正面或负面)作为独特的反馈,从而从环境中学习。

但是强化学习是如何工作的呢?

< > 在 GitHub 上更新