深度强化学习课程文档
测验
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
测验
学习和避免能力错觉的最佳方法是自我测试。这将帮助你找到需要巩固知识的地方。
Q1: 什么是强化学习?
解决方案
强化学习是一个解决控制任务(也称为决策问题)的框架,通过构建智能体,使其通过试错与环境交互,并接收奖励(正或负)作为独特反馈来学习。
Q2: 定义强化学习循环

每一步
- 我们的智能体从环境中接收__
- 基于那个__,智能体采取一个__
- 我们的智能体将向右移动
- 环境进入一个__
- 环境给智能体一个__
Q3: 状态和观察有什么区别?
Q4: 任务是强化学习问题的一个实例。任务的两种类型是什么?
Q5: 什么是探索/利用权衡?
解决方案
在强化学习中,我们需要平衡探索环境的程度和利用我们所了解的环境信息的程度。
探索是通过尝试随机动作来探索环境,以获取更多关于环境的信息。
利用是利用已知信息来最大化奖励。

Q6: 什么是策略?
解决方案
- 策略π是我们的智能体的大脑。它是一个函数,告诉我们根据所处状态采取什么行动。因此,它定义了智能体在给定时间的行为。

Q7: 什么是基于价值的方法?
解决方案
- 基于价值的方法是解决强化学习问题的主要方法之一。
- 在基于价值的方法中,我们不训练策略函数,而是训练一个价值函数,将状态映射到处于该状态的预期价值。
Q8: 什么是基于策略的方法?
解决方案
- 在基于策略的方法中,我们直接学习一个策略函数。
- 这个策略函数将从每个状态映射到该状态下的最佳相应动作。或者在该状态下所有可能动作的概率分布。
恭喜你完成了这个测验🥳,如果你漏掉了一些内容,花些时间再次阅读本章以巩固(😏)你的知识,但不用担心:在课程中我们会再次回顾这些概念,你将通过实操来巩固你的理论知识。
< > 在 GitHub 上更新