深度强化学习课程文档
术语表
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
术语表
这是一个社区创建的术语表。欢迎贡献!
寻找最优策略的策略
- 基于策略的方法。 策略通常使用神经网络进行训练,以选择在给定状态下采取的操作。在这种情况下,神经网络输出智能体应该采取的动作,而不是使用价值函数。根据环境接收到的经验,神经网络将被重新调整,并将提供更好的动作。
- 基于价值的方法。 在这种情况下,训练一个价值函数来输出状态或状态-动作对的价值,这将代表我们的策略。然而,这个价值并没有定义智能体应该采取什么动作。相反,我们需要指定智能体在给定价值函数输出情况下的行为。例如,我们可以决定采用一种策略,即始终采取能够带来最大奖励的动作(贪婪策略)。总之,策略是一种贪婪策略(或用户采取的任何决策),它使用价值函数的价值来决定要采取的行动。
在基于价值的方法中,我们可以找到两种主要策略
- 状态-价值函数。 对于每个状态,状态-价值函数是如果智能体从该状态开始并遵循策略直到结束的预期回报。
- 动作-价值函数。 与状态-价值函数相反,动作-价值函数计算对于每个状态和动作对,如果智能体从该状态开始,采取该动作,然后永远遵循策略的预期回报。
Epsilon-贪婪策略:
- 强化学习中常用的策略,涉及平衡探索和利用。
- 以 1-epsilon 的概率选择具有最高预期奖励的动作。
- 以 epsilon 的概率选择随机动作。
- Epsilon 通常会随着时间的推移而减少,以将重点转移到利用上。
贪婪策略:
- 涉及始终选择预期会带来最高奖励的动作,基于对环境的当前了解。(仅利用)
- 始终选择具有最高预期奖励的动作。
- 不包含任何探索。
- 在具有不确定性或未知最优动作的环境中可能处于劣势。
离线策略与在线策略算法
- 离线策略算法: 训练时和推理时使用不同的策略
- 在线策略算法: 训练和推理期间使用相同的策略
蒙特卡洛和时序差分学习策略
蒙特卡洛 (MC): 在 эпизода 结束后学习。使用蒙特卡洛方法,我们等到 эпизода 结束后,然后从完整的 эпизода 更新价值函数(或策略函数)。
时序差分 (TD): 在每一步学习。使用时序差分学习,我们在每一步更新价值函数(或策略函数),而无需完整的 эпизода。
如果您想改进课程,可以打开一个 Pull Request。
本术语表由以下人员的贡献成为可能:
< > 在 GitHub 上更新