深度强化学习课程文档

测验

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

测验

学习和避免能力错觉的最佳方法是进行自我测试。这将帮助你找到需要加强知识的地方。

Q1:在比较不同类型的多智能体环境时,选择更合适的选项

  • 你的智能体旨在在 ____ 环境中最大化共同利益
  • 你的智能体旨在在 ____ 环境中最大化共同利益,同时最小化对手的利益

Q2:以下关于去中心化学习的陈述哪些是正确的?

Q3:以下关于中心化学习的陈述哪些是正确的?

Q4:用你自己的话解释什么是自博弈方法

解答

自博弈 是一种实例化与你的智能体具有相同策略的对手副本的方法,以便你的智能体可以从具有相同训练水平的智能体那里学习。

Q5:当配置自博弈时,有几个参数很重要。你能根据它们的定义,指出我们正在讨论哪个参数吗?

  • 与当前自我对战与从池中选择的对手对战的概率
  • 你可以面对的对手的训练水平的多样性(离散程度)
  • 在生成新对手之前的训练步数
  • 对手更换率

Q6:使用 ELO 评分的主要动机是什么?

恭喜你完成本次测验 🥳,如果你遗漏了一些内容,请花时间再次阅读本章以巩固 (😏) 你的知识。

< > 在 GitHub 上更新