深度强化学习课程文档

测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

测验

学习和避免能力错觉的最佳方法是自我测试。这将帮助你找到需要巩固知识的地方

Q1: 什么是强化学习?

解决方案

强化学习是一个解决控制任务(也称为决策问题)的框架,通过构建智能体,使其通过试错与环境交互,并接收奖励(正或负)作为独特反馈来学习。

Q2: 定义强化学习循环

Exercise RL Loop

每一步

  • 我们的智能体从环境中接收__
  • 基于那个__,智能体采取一个__
  • 我们的智能体将向右移动
  • 环境进入一个__
  • 环境给智能体一个__

Q3: 状态和观察有什么区别?

Q4: 任务是强化学习问题的一个实例。任务的两种类型是什么?

Q5: 什么是探索/利用权衡?

解决方案

在强化学习中,我们需要平衡探索环境的程度和利用我们所了解的环境信息的程度

  • 探索是通过尝试随机动作来探索环境,以获取更多关于环境的信息

  • 利用利用已知信息来最大化奖励

Exploration Exploitation Tradeoff

Q6: 什么是策略?

解决方案
  • 策略π是我们的智能体的大脑。它是一个函数,告诉我们根据所处状态采取什么行动。因此,它定义了智能体在给定时间的行为。
Policy

Q7: 什么是基于价值的方法?

解决方案
  • 基于价值的方法是解决强化学习问题的主要方法之一。
  • 在基于价值的方法中,我们不训练策略函数,而是训练一个价值函数,将状态映射到处于该状态的预期价值

Q8: 什么是基于策略的方法?

解决方案
  • 基于策略的方法中,我们直接学习一个策略函数
  • 这个策略函数将从每个状态映射到该状态下的最佳相应动作。或者在该状态下所有可能动作的概率分布

恭喜你完成了这个测验🥳,如果你漏掉了一些内容,花些时间再次阅读本章以巩固(😏)你的知识,但不用担心:在课程中我们会再次回顾这些概念,你将通过实操来巩固你的理论知识

< > 在 GitHub 上更新