深度强化学习课程文档
什么是强化学习?
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
什么是强化学习?
为了理解强化学习,让我们从宏观角度开始。
宏观角度
强化学习背后的理念是,一个智能体(AI)将通过与环境互动(通过试错)并接收奖励(负面或正面)作为执行动作的反馈来从环境中学习。
从与环境的互动中学习源于我们的自然经验。
例如,想象一下让你的小弟弟玩一个他从未玩过的电子游戏,给他一个控制器,然后让他一个人玩。

你的弟弟会通过按下正确的按钮(动作)与环境(电子游戏)互动。他得到了一枚硬币,这是一个 +1 的奖励。这是正面的,他刚明白在这个游戏中他必须得到硬币。

但是,他再次按下右键,然后他碰到了一个敌人。他刚刚死了,所以这是一个 -1 的奖励。

通过与环境的试错互动,你的小弟弟明白到他需要在这个环境中获得硬币,但要避开敌人。
在没有任何监督的情况下,这个孩子玩游戏会越来越好。
这就是人类和动物学习的方式,通过互动。强化学习只是从行动中学习的一种计算方法。
正式定义
我们现在可以给出一个正式定义
强化学习是一种解决控制任务(也称为决策问题)的框架,通过构建智能体,这些智能体通过与环境互动、试错并接收奖励(正面或负面)作为独特的反馈来从环境中学习。
但是强化学习是如何工作的呢?
< > 在 GitHub 上更新