深度强化学习课程文档

什么是强化学习?

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

什么是强化学习?

为了理解强化学习,让我们从宏观角度开始。

宏观角度

强化学习背后的理念是,一个智能体(AI)将通过与环境互动(通过试错)并接收奖励(负面或正面)作为执行动作的反馈来从环境中学习。

从与环境的互动中学习源于我们的自然经验。

例如,想象一下让你的小弟弟玩一个他从未玩过的电子游戏,给他一个控制器,然后让他一个人玩。

Illustration_1

你的弟弟会通过按下正确的按钮(动作)与环境(电子游戏)互动。他得到了一枚硬币,这是一个 +1 的奖励。这是正面的,他刚明白在这个游戏中他必须得到硬币。

Illustration_2

但是,他再次按下右键,然后他碰到了一个敌人。他刚刚死了,所以这是一个 -1 的奖励。

Illustration_3

通过与环境的试错互动,你的小弟弟明白到他需要在这个环境中获得硬币,但要避开敌人。

在没有任何监督的情况下,这个孩子玩游戏会越来越好。

这就是人类和动物学习的方式,通过互动。强化学习只是从行动中学习的一种计算方法。

正式定义

我们现在可以给出一个正式定义

强化学习是一种解决控制任务(也称为决策问题)的框架,通过构建智能体,这些智能体通过与环境互动、试错并接收奖励(正面或负面)作为独特的反馈来从环境中学习。

但是强化学习是如何工作的呢?

< > 在 GitHub 上更新