深度强化学习课程文档

测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

测验

学习和避免能力错觉的最佳方法是**自我测试。**这将帮助你找到**需要巩固知识的地方**。

Q1: 比较不同类型的多智能体环境时,选择更合适的选项

  • 你的智能体旨在在____环境中最大化共同利益
  • 你的智能体旨在在____环境中最大化共同利益,同时最小化对手的利益

Q2: 以下关于去中心化学习的陈述中哪些是正确的?

Q3: 以下关于中心化学习的陈述中哪些是正确的?

Q4: 用你自己的话解释什么是自我对弈方法

解决方案

自我对弈是一种实例化与你的策略相同的智能体作为对手的方法,这样你的智能体就可以从具有相同训练水平的智能体那里学习。

Q5: 配置自我对弈时,有几个重要参数。你能根据它们的定义,指出我们正在谈论哪个参数吗?

  • 与当前自我对弈与池中对手对弈的概率
  • 可能面对的对手的训练水平的多样性(离散度)
  • 生成新对手之前的训练步数
  • 对手更换率

Q6: 使用 Elo 等级分的主要动机是什么?

恭喜你完成了这个测验🥳,如果你漏掉了一些内容,请花时间再读一遍本章,以巩固(😏)你的知识。

< > 在 GitHub 上更新