深度强化学习课程文档
测验
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
测验
学习和避免能力错觉的最佳方法是进行自我测试。这将帮助你找到需要加强知识的地方。
Q1:在比较不同类型的多智能体环境时,选择更合适的选项
- 你的智能体旨在在 ____ 环境中最大化共同利益
- 你的智能体旨在在 ____ 环境中最大化共同利益,同时最小化对手的利益
Q2:以下关于去中心化学习的陈述哪些是正确的?
Q3:以下关于中心化学习的陈述哪些是正确的?
Q4:用你自己的话解释什么是自博弈方法
解答
自博弈
是一种实例化与你的智能体具有相同策略的对手副本的方法,以便你的智能体可以从具有相同训练水平的智能体那里学习。
Q5:当配置自博弈时,有几个参数很重要。你能根据它们的定义,指出我们正在讨论哪个参数吗?
- 与当前自我对战与从池中选择的对手对战的概率
- 你可以面对的对手的训练水平的多样性(离散程度)
- 在生成新对手之前的训练步数
- 对手更换率
Q6:使用 ELO 评分的主要动机是什么?
恭喜你完成本次测验 🥳,如果你遗漏了一些内容,请花时间再次阅读本章以巩固 (😏) 你的知识。
< > 在 GitHub 上更新