深度强化学习课程文档

什么是强化学习?

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

什么是强化学习?

要了解强化学习,让我们从整体开始。

整体

强化学习背后的理念是,一个代理(AI)将通过**与环境互动**(通过试错)并**获得奖励**(负面或正面)作为执行动作的反馈来从环境中学习。

从与环境的互动中学习**来自我们的自然体验**。

例如,想象一下,把你的小弟弟放在他从未玩过的电子游戏面前,给他一个控制器,然后把他一个人留在那儿。

Illustration_1

你的弟弟会通过按右键(动作)来与环境(电子游戏)互动。他得到了一枚硬币,这是一个 +1 奖励。它是正面的,他刚刚了解到,在这个游戏中**他必须获得硬币**。

Illustration_2

但随后,**他再次按了右键**,结果他碰到了一个敌人。他死了,所以这是一个 -1 奖励。

Illustration_3

通过试错与环境互动,你的小弟弟了解到**他需要在这个环境中获得硬币,但要避开敌人**。

**无需任何监督**,孩子将在玩游戏方面越来越好。

这就是人类和动物学习的方式,**通过互动**。强化学习只是一个**从动作中学习的计算方法**。

正式定义

现在我们可以做一个正式的定义

强化学习是一个解决控制任务(也称为决策问题)的框架,通过构建从环境中学习的代理,通过试错与环境交互,并接收奖励(正面或负面)作为独特的反馈。

但强化学习是如何工作的?

< > 更新 在 GitHub 上