深度强化学习课程文档

词汇表

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

词汇表

这是一个社区创建的词汇表。欢迎贡献!

智能体

智能体通过**尝试和错误、以及来自周围环境的奖励和惩罚来学习做出决策**。

环境

环境是一个模拟世界,**智能体可以通过与之交互来学习**。

马尔可夫性质

这意味着智能体采取的行动**仅取决于当前状态,并且独立于过去的状态和行动**。

观测/状态

  • **状态**:对世界状态的完整描述。
  • **观测**:对环境/世界状态的部分描述。

动作

  • **离散动作**:有限数量的动作,例如左、右、上和下。
  • **连续动作**:无限可能的动作;例如,在自动驾驶汽车的情况下,驾驶场景有无限可能的动作发生。

奖励和折扣

  • **奖励**:强化学习中的基本因素。告诉智能体采取的动作是好是坏。
  • 强化学习算法专注于最大化**累积奖励**。
  • **奖励假设**:强化学习问题可以表述为(累积)回报的最大化。
  • 进行**折扣**是因为获得的早期奖励更有可能发生,因为它们比长期奖励更可预测。

任务

  • 分幕式:具有起始点和结束点。
  • 连续式:具有起始点但没有结束点。

探索与利用的权衡

  • 探索:通过尝试随机动作并从环境中接收反馈/回报/奖励来探索环境。
  • 利用:利用我们对环境的了解来获得最大奖励。
  • 探索与利用的权衡:平衡我们想要探索环境的程度和我们想要利用我们对环境的了解的程度。

策略

  • 策略:被称为智能体的“大脑”。它告诉我们在给定状态下应该采取什么行动。
  • 最优策略:当智能体根据该策略行动时,能够最大化预期回报的策略。它是通过训练学习得到的。

基于策略的方法:

  • 解决强化学习问题的一种方法。
  • 在这种方法中,策略是直接学习的。
  • 将每个状态映射到该状态下对应的最佳动作。或者在该状态下所有可能动作的概率分布。

基于价值的方法:

  • 解决强化学习问题的另一种方法。
  • 在这里,我们不是训练策略,而是训练一个价值函数,该函数将每个状态映射到处于该状态的预期值。

欢迎贡献 🤗

如果您想改进课程,您可以发起一个Pull Request。

此词汇表由以下人员共同完成

< > 更新 在GitHub上