深度强化学习课程文档

词汇表

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

词汇表

这是一个由社区创建的词汇表。欢迎贡献!

寻找最优策略的策略

  • 基于策略的方法。策略通常使用神经网络进行训练,以根据给定状态选择要执行的动作。在这种情况下,神经网络输出代理应采取的动作,而不是使用价值函数。根据从环境中收到的经验,神经网络将被重新调整并提供更好的动作。
  • 基于价值的方法。在这种情况下,训练价值函数以输出状态或状态-动作对的价值,这将代表我们的策略。然而,此价值不定义代理应采取的动作。相反,我们需要根据价值函数的输出来指定代理的行为。例如,我们可以决定采用一种策略,即始终采取导致最大奖励的动作(贪婪策略)。总之,该策略是贪婪策略(或用户采取的任何决策),它使用价值函数的值来决定要采取的动作。

在基于价值的方法中,我们可以找到两种主要策略

  • 状态-价值函数。对于每个状态,状态-价值函数是如果代理从该状态开始并遵循策略直到结束的预期回报。
  • 动作-价值函数。与状态-价值函数相反,动作-价值函数计算每个状态和动作对的预期回报,如果代理从该状态开始,执行该动作,然后永远遵循该策略。

ε-贪婪策略:

  • 强化学习中常用的一种策略,用于平衡探索和利用。
  • 以 1-ε 的概率选择预期奖励最高的动作。
  • 以 ε 的概率选择一个随机动作。
  • ε 通常会随时间推移而减小,以将重点转向利用。

贪婪策略:

  • 总是选择根据当前环境知识预期会带来最高奖励的动作。(只利用)
  • 始终选择预期奖励最高的动作。
  • 不包括任何探索。
  • 在存在不确定性或未知最优动作的环境中可能不利。

离策略算法 vs 在策略算法

  • 离策略算法:在训练时和推理时使用不同的策略。
  • 在策略算法:在训练和推理期间使用相同的策略。

蒙特卡洛和时序差分学习策略

  • 蒙特卡洛 (MC):在回合结束时学习。使用蒙特卡洛,我们等到回合结束,然后从完整的回合中更新价值函数(或策略函数)。

  • 时序差分 (TD):在每个步骤学习。使用时序差分学习,我们在每个步骤更新价值函数(或策略函数),而无需完整的回合。

如果您想改进本课程,可以提交拉取请求。

本词汇表的制作得益于

< > 在 GitHub 上更新