什么是强化学习？

为了理解强化学习，让我们从全局入手。

全局视角

强化学习背后的思想是，智能体（AI）将通过与环境互动（通过试错）并接收奖励（负面或正面）作为执行动作的反馈，从而从环境中学习。

从与环境的互动中学习源于我们的自然经验。

例如，想象一下把你弟弟放在他从未玩过的视频游戏前，给他一个控制器，然后让他独自一人。

你的弟弟将通过按下正确的按钮（动作）与环境（视频游戏）互动。他得到了一枚金币，这是一个 +1 奖励。这是积极的，他刚刚明白在这个游戏中他必须获得金币。

但是，他再次按下正确的按钮，然后碰到了敌人。他死了，这是一个 -1 奖励。

通过试错与环境互动，你的弟弟明白他需要在这个游戏中获得金币，但要避开敌人。

在没有任何监督的情况下，孩子会越来越擅长玩游戏。

这就是人类和动物学习的方式，通过互动。 强化学习只是一种从行动中学习的计算方法。

现在我们可以给出一个正式的定义

强化学习是一个框架，用于通过构建智能体来解决控制任务（也称为决策问题），这些智能体通过与环境互动（通过试错）并接收奖励（正面或负面）作为独特的反馈，从而从环境中学习。

但是强化学习是如何工作的呢？