深度强化学习课程文档

术语表

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

术语表

这是一个社区创建的术语表。欢迎贡献!

智能体 (Agent)

智能体通过试错,并根据来自环境的奖励和惩罚来学习做出决策。

环境 (Environment)

环境是一个模拟世界,智能体可以通过与它互动来学习

马尔可夫性质 (Markov Property)

它意味着我们的智能体采取的行动仅以当前状态为条件,并且独立于过去的状态和行动

观测/状态 (Observations/State)

  • 状态 (State):对世界状态的完整描述。
  • 观测 (Observation):对环境/世界状态的部分描述。

动作 (Actions)

  • 离散动作 (Discrete Actions):有限数量的动作,例如左、右、上和下。
  • 连续动作 (Continuous Actions):无限可能的动作;例如,在自动驾驶汽车的情况下,驾驶场景有无限可能发生的动作。

奖励与折扣 (Rewards and Discounting)

  • 奖励 (Rewards):强化学习中的基本要素。告知智能体所采取的行动是好/坏。
  • 强化学习算法专注于最大化累积奖励
  • 奖励假设 (Reward Hypothesis):强化学习问题可以表述为最大化(累积)回报。
  • 执行折扣 (Discounting)是因为开始时获得的奖励比长期奖励更可能发生,因为它们更可预测。

任务 (Tasks)

  • episodic :有起点和终点。
  • continuous :有起点但没有终点。

探索与利用的权衡 (Exploration v/s Exploitation Trade-Off)

  • 探索 (Exploration):完全是通过尝试随机动作并从环境中接收反馈/回报/奖励来探索环境。
  • 利用 (Exploitation):它是关于利用我们对环境的了解来获得最大奖励。
  • 探索-利用权衡 (Exploration-Exploitation Trade-Off):它平衡了我们想要探索环境的程度和我们想要利用我们对环境了解的程度。

策略 (Policy)

  • 策略 (Policy):它被称为智能体的大脑。它告诉我们在给定状态下要采取什么行动。
  • 最优策略 (Optimal Policy):当智能体根据其行动时,最大化期望回报的策略。它是通过训练学习的。

基于策略的方法 (Policy-based Methods):

  • 一种解决强化学习问题的方法。
  • 在这种方法中,策略是直接学习的。
  • 将每个状态映射到该状态下最佳的相应动作。或在该状态下可能动作集合上的概率分布。

基于价值的方法 (Value-based Methods):

  • 另一种解决强化学习问题的方法。
  • 在这里,我们不训练策略,而是训练一个价值函数,该函数将每个状态映射到处于该状态的期望价值。

欢迎贡献 🤗

如果您想改进课程,可以打开 Pull Request。

本术语表得以完成,感谢以下人员:

< > 在 GitHub 上更新