测验
学习和避免能力错觉的最佳方法是**进行自我测试**。这将帮助你找到**需要强化知识的地方**。
Q1:什么是强化学习?
解答
强化学习是**一个解决控制任务(也称为决策问题)的框架**,通过构建代理来学习环境,通过反复试验与环境交互,并**接收奖励(正向或负向)作为唯一的反馈**。
Q2:定义强化学习循环
在每个步骤
- 我们的代理从环境中接收**__**
- 基于该**__**,代理采取**__**
- 我们的代理将向右移动
- 环境进入**__**
- 环境向代理提供**__**
Q3:状态和观察之间有什么区别?
Q4:任务是强化学习问题的实例。任务的两种类型是什么?
Q5:什么是探索/利用权衡?
解答
在强化学习中,我们需要**平衡我们探索环境的程度和我们利用我们对环境的了解的程度**。
探索是指通过**尝试随机动作来探索环境,以获取更多关于环境的信息**。
利用是指**利用已知信息来最大化奖励**。
Q6:什么是策略?
解答
- 策略 π **是强化学习智能体的核心**。它是一个函数,根据智能体所处的状态告诉我们应该采取什么行动。因此,它定义了智能体在特定时间的行为。
Q7:什么是基于价值的方法?
解答
- 基于价值的方法是解决强化学习问题的主要方法之一。
- 在基于价值的方法中,我们**不是训练策略函数,而是训练一个价值函数,该函数将状态映射到处于该状态的期望值**。
Q8:什么是基于策略的方法?
解答
- 在基于策略的方法中,我们**直接学习策略函数**。
- 这个策略函数将**将每个状态映射到该状态下对应的最佳动作**。或者**该状态下所有可能动作的概率分布**。
恭喜你完成了这个测验 🥳,如果你错过了一些内容,请花时间重新阅读本章以加强(😏)你的知识,但**不要担心**:在课程中,我们将再次回顾这些概念,并且你将**通过实践来巩固你的理论知识**。
< > 在 GitHub 上更新