深度强化学习课程文档

总结

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

总结

信息太多了!让我们总结一下。

  • 强化学习是一种从行动中学习的计算方法。我们构建一个从环境中学习的智能体,**通过反复试验与环境互动**并接收奖励(负面或正面)作为反馈。

  • 任何 RL 智能体的目标都是最大化其预期累积奖励(也称为预期回报),因为 RL 基于**奖励假设**,即**所有目标都可以描述为预期累积奖励的最大化。**

  • RL 过程是一个循环,它输出一系列**状态、动作、奖励和下一个状态。**

  • 为了计算预期累积奖励(预期回报),我们对奖励进行折现:较早获得的奖励(在游戏开始时)**更有可能发生,因为它们比长期未来的奖励更可预测。**

  • 为了解决 RL 问题,你需要**找到一个最佳策略**。策略是你的智能体的“大脑”,它会告诉我们**在给定状态下采取什么行动。**最佳策略是**为你提供最大化预期回报的行动的策略。**

  • 有两种方法可以找到你的最佳策略。

    1. 通过直接训练你的策略:**基于策略的方法。**
    2. 通过训练一个价值函数,该函数告诉我们智能体在每个状态下将获得的预期回报,并使用此函数来定义我们的策略:**基于价值的方法。**
  • 最后,我们谈论深度 RL,因为我们将**深度神经网络引入以估计要采取的行动(基于策略)或估计状态的价值(基于价值)**,因此得名“深度”。

< > 更新 在 GitHub 上