深度强化学习课程文档

词汇表

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

词汇表

这是一个由社区创建的词汇表。欢迎贡献!

智能体(Agent)

智能体通过与环境的**试错学习,并从环境中获得奖励和惩罚**来做出决策。

环境

环境是一个模拟世界,**智能体可以通过与它互动来学习**。

马尔可夫性质

它意味着我们智能体采取的行动**仅取决于当前状态,而与过去的状态和行动无关**。

观察/状态

  • 状态:对世界状态的完整描述。
  • 观察:对环境/世界状态的部分描述。

行动

  • 离散行动:有限数量的行动,例如左、右、上、下。
  • 连续行动:无限可能的行动;例如,在自动驾驶汽车的情况下,驾驶场景有无限可能的行动发生。

奖励和折扣

  • 奖励:强化学习中的基本因素。告诉智能体所采取的行动是好还是坏。
  • 强化学习算法侧重于最大化**累积奖励**。
  • 奖励假设:强化学习问题可以表述为(累积)回报的最大化。
  • 折扣:之所以进行折扣,是因为在开始时获得的奖励更有可能发生,因为它们比长期奖励更可预测。

任务

  • 回合制:有起始点和结束点。
  • 连续:有起始点但没有结束点。

探索与利用权衡

  • 探索:通过尝试随机行动并从环境中接收反馈/回报/奖励来探索环境。
  • 利用:利用我们对环境的了解以获得最大奖励。
  • 探索与利用权衡:它平衡了我们想要**探索**环境的程度以及想要**利用**我们对环境了解的程度。

策略(Policy)

  • 策略:被称为智能体的大脑。它告诉我们给定状态下应该采取什么行动。
  • 最优策略:当智能体根据它行动时,**最大化预期回报**的策略。它通过训练学习得到。

基于策略的方法:

  • 解决强化学习问题的一种方法。
  • 在这种方法中,策略直接被学习。
  • 它将每个状态映射到该状态下最佳的相应行动。或者映射到该状态下可能行动的概率分布。

基于价值的方法:

  • 解决强化学习问题的另一种方法。
  • 这里,我们不训练策略,而是训练一个**价值函数**,它将每个状态映射到在该状态下的预期价值。

欢迎贡献 🤗

如果您想改进本课程,可以提交拉取请求。

本词汇表的制作得益于

< > 在 GitHub 上更新