深度强化学习课程文档
测验
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
测验
学习和避免能力错觉的最好方法是进行自我测试。 这将帮助您找到您需要加强知识的地方。
问题 1:什么是强化学习?
答案
强化学习是一个用于解决控制任务(也称为决策问题)的框架,通过构建智能体,使其通过与环境交互进行试错并接收奖励(正或负)作为唯一反馈,从而从环境中学习。
问题 2:定义强化学习循环

在每一步
- 我们的智能体从环境中接收到 __
- 基于 __,智能体采取 __
- 我们的智能体将向右移动
- 环境进入 __
- 环境给智能体 __
问题 3:状态和观察之间有什么区别?
问题 4:任务是强化学习问题的一个实例。任务的两种类型是什么?
问题 5:什么是探索/利用权衡?
答案
在强化学习中,我们需要平衡探索环境的程度和利用我们对环境了解的程度。
探索是通过尝试随机动作来探索环境,以便找到关于环境的更多信息。
利用是利用已知信息来最大化奖励。

问题 6:什么是策略?
答案
- 策略 π 是我们智能体的大脑。它是告诉我们在给定状态下应该采取什么动作的函数。因此,它定义了智能体在给定时间的行为。

问题 7:什么是基于价值的方法?
答案
- 基于价值的方法是解决强化学习问题的主要方法之一。
- 在基于价值的方法中,我们不训练策略函数,而是训练一个价值函数,该函数将状态映射到处于该状态的期望价值。
问题 8:什么是基于策略的方法?
答案
- 在基于策略的方法中,我们直接学习策略函数。
- 此策略函数将从每个状态映射到该状态下最佳的对应动作。或者在该状态下可能动作集合上的概率分布。
恭喜你完成本次测验🥳,如果你错过了一些内容,请花时间再次阅读本章以加强(😏)你的知识,但不要担心:在课程中我们将再次复习这些概念,你将通过实践加强你的理论知识。
< > 在 GitHub 上更新