深度强化学习课程文档

测验

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

测验

学习和避免能力错觉的最好方法是进行自我测试。 这将帮助您找到您需要加强知识的地方

问题 1:什么是强化学习?

答案

强化学习是一个用于解决控制任务(也称为决策问题)的框架,通过构建智能体,使其通过与环境交互进行试错并接收奖励(正或负)作为唯一反馈,从而从环境中学习。

问题 2:定义强化学习循环

Exercise RL Loop

在每一步

  • 我们的智能体从环境中接收到 __
  • 基于 __,智能体采取 __
  • 我们的智能体将向右移动
  • 环境进入 __
  • 环境给智能体 __

问题 3:状态和观察之间有什么区别?

问题 4:任务是强化学习问题的一个实例。任务的两种类型是什么?

问题 5:什么是探索/利用权衡?

答案

在强化学习中,我们需要平衡探索环境的程度和利用我们对环境了解的程度

  • 探索是通过尝试随机动作来探索环境,以便找到关于环境的更多信息

  • 利用利用已知信息来最大化奖励

Exploration Exploitation Tradeoff

问题 6:什么是策略?

答案
  • 策略 π 是我们智能体的大脑。它是告诉我们在给定状态下应该采取什么动作的函数。因此,它定义了智能体在给定时间的行为。
Policy

问题 7:什么是基于价值的方法?

答案
  • 基于价值的方法是解决强化学习问题的主要方法之一。
  • 在基于价值的方法中,我们不训练策略函数,而是训练一个价值函数,该函数将状态映射到处于该状态的期望价值

问题 8:什么是基于策略的方法?

答案
  • 基于策略的方法中,我们直接学习策略函数
  • 此策略函数将从每个状态映射到该状态下最佳的对应动作。或者在该状态下可能动作集合上的概率分布

恭喜你完成本次测验🥳,如果你错过了一些内容,请花时间再次阅读本章以加强(😏)你的知识,但不要担心:在课程中我们将再次复习这些概念,你将通过实践加强你的理论知识

< > 在 GitHub 上更新