深度强化学习课程文档
测验
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
测验
学习和避免能力错觉的最佳方法是**自我测试。**这将帮助你找到**需要巩固知识的地方**。
Q1: 比较不同类型的多智能体环境时,选择更合适的选项
- 你的智能体旨在在____环境中最大化共同利益
- 你的智能体旨在在____环境中最大化共同利益,同时最小化对手的利益
Q2: 以下关于去中心化学习的陈述中哪些是正确的?
Q3: 以下关于中心化学习的陈述中哪些是正确的?
Q4: 用你自己的话解释什么是自我对弈方法
解决方案
自我对弈
是一种实例化与你的策略相同的智能体作为对手的方法,这样你的智能体就可以从具有相同训练水平的智能体那里学习。
Q5: 配置自我对弈时,有几个重要参数。你能根据它们的定义,指出我们正在谈论哪个参数吗?
- 与当前自我对弈与池中对手对弈的概率
- 可能面对的对手的训练水平的多样性(离散度)
- 生成新对手之前的训练步数
- 对手更换率
Q6: 使用 Elo 等级分的主要动机是什么?
恭喜你完成了这个测验🥳,如果你漏掉了一些内容,请花时间再读一遍本章,以巩固(😏)你的知识。
< > 在 GitHub 上更新