深度强化学习课程文档

测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

入门

测验

学习的最佳方式,以及避免能力错觉就是测试自己。 这将有助于你找到需要加强知识的地方

Q1: 选择更适合比较不同类型多智能体环境的选项

  • 你的智能体在____ 环境中旨在最大化共同利益
  • 你的智能体在____ 环境中旨在最大化共同利益,同时最小化对手的利益

Q2: 关于分散式学习,以下哪些说法是正确的?

Q3: 关于集中式学习,以下哪些说法是正确的?

Q4: 用你自己的话解释什么是自我博弈方法

解决方案

自我博弈是一种方法,它可以实例化与你策略相同的智能体的副本作为对手,以便你的智能体从与相同训练水平的智能体学习。

Q5: 在配置自我博弈时,几个参数很重要。你能根据它们的定义来识别我们在谈论哪个参数吗?

  • 对抗当前自我还是来自池中的对手的概率
  • 你可以面对的对手的训练水平的多样性(分散度)
  • 生成新的对手之前的训练步数
  • 对手变化率

Q6: 使用 ELO 评分的主要动机是什么?

恭喜你完成了这份测试 🥳,如果你错了一些元素,请花点时间再读一遍本章,以巩固(😏)你的知识。

< > 更新 在 GitHub 上