深度强化学习课程文档

总结

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

总结

信息量很大!让我们总结一下

  • 强化学习是一种从动作中学习的计算方法。我们构建一个智能体,通过试错法与环境互动并接收奖励(负面或正面)作为反馈,从而从环境中学习。

  • 任何强化学习智能体的目标是最大化其预期累积奖励(也称为预期回报),因为强化学习基于奖励假设,即所有目标都可以描述为最大化预期累积奖励。

  • 强化学习过程是一个循环,输出状态、动作、奖励和下一个状态的序列。

  • 为了计算预期累积奖励(预期回报),我们对奖励进行折扣:较早到来的奖励(在游戏开始时)更有可能发生,因为它们比长期未来的奖励更可预测。

  • 要解决强化学习问题,你需要找到最优策略。策略是你智能体的“大脑”,它会告诉我们在给定状态下采取什么动作。 最优策略是为你提供最大化预期回报的动作的策略。

  • 有两种方法可以找到你的最优策略

    1. 直接训练你的策略:基于策略的方法。
    2. 通过训练一个价值函数,该函数告诉我们智能体在每个状态下将获得的预期回报,并使用该函数来定义我们的策略:基于价值的方法。
  • 最后,我们谈论深度强化学习是因为我们引入了深度神经网络来估计要采取的动作(基于策略)或估计状态的价值(基于价值),因此得名“深度”。

< > 在 GitHub 上更新