什么是强化学习?
要了解强化学习,让我们从整体开始。
整体
强化学习背后的理念是,一个代理(AI)将通过**与环境互动**(通过试错)并**获得奖励**(负面或正面)作为执行动作的反馈来从环境中学习。
从与环境的互动中学习**来自我们的自然体验**。
例如,想象一下,把你的小弟弟放在他从未玩过的电子游戏面前,给他一个控制器,然后把他一个人留在那儿。
你的弟弟会通过按右键(动作)来与环境(电子游戏)互动。他得到了一枚硬币,这是一个 +1 奖励。它是正面的,他刚刚了解到,在这个游戏中**他必须获得硬币**。
但随后,**他再次按了右键**,结果他碰到了一个敌人。他死了,所以这是一个 -1 奖励。
通过试错与环境互动,你的小弟弟了解到**他需要在这个环境中获得硬币,但要避开敌人**。
**无需任何监督**,孩子将在玩游戏方面越来越好。
这就是人类和动物学习的方式,**通过互动**。强化学习只是一个**从动作中学习的计算方法**。
正式定义
现在我们可以做一个正式的定义
强化学习是一个解决控制任务(也称为决策问题)的框架,通过构建从环境中学习的代理,通过试错与环境交互,并接收奖励(正面或负面)作为独特的反馈。
但强化学习是如何工作的?
< > 更新 在 GitHub 上