深度强化学习课程文档

测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

测验

学习和避免能力错觉的最佳方法是**进行自我测试**。这将帮助你找到**需要强化知识的地方**。

Q1:什么是强化学习?

解答

强化学习是**一个解决控制任务(也称为决策问题)的框架**,通过构建代理来学习环境,通过反复试验与环境交互,并**接收奖励(正向或负向)作为唯一的反馈**。

Q2:定义强化学习循环

Exercise RL Loop

在每个步骤

  • 我们的代理从环境中接收**__**
  • 基于该**__**,代理采取**__**
  • 我们的代理将向右移动
  • 环境进入**__**
  • 环境向代理提供**__**

Q3:状态和观察之间有什么区别?

Q4:任务是强化学习问题的实例。任务的两种类型是什么?

Q5:什么是探索/利用权衡?

解答

在强化学习中,我们需要**平衡我们探索环境的程度和我们利用我们对环境的了解的程度**。

  • 探索是指通过**尝试随机动作来探索环境,以获取更多关于环境的信息**。

  • 利用是指**利用已知信息来最大化奖励**。

Exploration Exploitation Tradeoff

Q6:什么是策略?

解答
  • 策略 π **是强化学习智能体的核心**。它是一个函数,根据智能体所处的状态告诉我们应该采取什么行动。因此,它定义了智能体在特定时间的行为。
Policy

Q7:什么是基于价值的方法?

解答
  • 基于价值的方法是解决强化学习问题的主要方法之一。
  • 在基于价值的方法中,我们**不是训练策略函数,而是训练一个价值函数,该函数将状态映射到处于该状态的期望值**。

Q8:什么是基于策略的方法?

解答
  • 基于策略的方法中,我们**直接学习策略函数**。
  • 这个策略函数将**将每个状态映射到该状态下对应的最佳动作**。或者**该状态下所有可能动作的概率分布**。

恭喜你完成了这个测验 🥳,如果你错过了一些内容,请花时间重新阅读本章以加强(😏)你的知识,但**不要担心**:在课程中,我们将再次回顾这些概念,并且你将**通过实践来巩固你的理论知识**。

< > 在 GitHub 上更新