测验
学习的最佳方式,以及避免能力错觉就是测试自己。 这将有助于你找到需要加强知识的地方。
Q1: 选择更适合比较不同类型多智能体环境的选项
- 你的智能体在____ 环境中旨在最大化共同利益
- 你的智能体在____ 环境中旨在最大化共同利益,同时最小化对手的利益
Q2: 关于分散式学习,以下哪些说法是正确的?
Q3: 关于集中式学习,以下哪些说法是正确的?
Q4: 用你自己的话解释什么是自我博弈方法
解决方案
自我博弈
是一种方法,它可以实例化与你策略相同的智能体的副本作为对手,以便你的智能体从与相同训练水平的智能体学习。
Q5: 在配置自我博弈时,几个参数很重要。你能根据它们的定义来识别我们在谈论哪个参数吗?
- 对抗当前自我还是来自池中的对手的概率
- 你可以面对的对手的训练水平的多样性(分散度)
- 生成新的对手之前的训练步数
- 对手变化率
Q6: 使用 ELO 评分的主要动机是什么?
恭喜你完成了这份测试 🥳,如果你错了一些元素,请花点时间再读一遍本章,以巩固(😏)你的知识。
< > 更新 在 GitHub 上