深度强化学习课程文档

词汇表

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

引言什么是强化学习？简短回顾两种基于价值的方法贝尔曼方程，简化我们的价值估计蒙特卡洛 vs 时序差分学习中期回顾中期测验 Q-学习介绍 Q-学习示例 Q-学习回顾词汇表实战 Q-学习测验结论附加阅读

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

词汇表

这是一个由社区创建的词汇表。欢迎贡献！

寻找最优策略的策略

基于策略的方法。策略通常使用神经网络进行训练，以根据给定状态选择要执行的动作。在这种情况下，神经网络输出代理应采取的动作，而不是使用价值函数。根据从环境中收到的经验，神经网络将被重新调整并提供更好的动作。
基于价值的方法。在这种情况下，训练价值函数以输出状态或状态-动作对的价值，这将代表我们的策略。然而，此价值不定义代理应采取的动作。相反，我们需要根据价值函数的输出来指定代理的行为。例如，我们可以决定采用一种策略，即始终采取导致最大奖励的动作（贪婪策略）。总之，该策略是贪婪策略（或用户采取的任何决策），它使用价值函数的值来决定要采取的动作。

在基于价值的方法中，我们可以找到两种主要策略

状态-价值函数。对于每个状态，状态-价值函数是如果代理从该状态开始并遵循策略直到结束的预期回报。
动作-价值函数。与状态-价值函数相反，动作-价值函数计算每个状态和动作对的预期回报，如果代理从该状态开始，执行该动作，然后永远遵循该策略。

ε-贪婪策略：

强化学习中常用的一种策略，用于平衡探索和利用。
以 1-ε 的概率选择预期奖励最高的动作。
以 ε 的概率选择一个随机动作。
ε 通常会随时间推移而减小，以将重点转向利用。

贪婪策略：

总是选择根据当前环境知识预期会带来最高奖励的动作。（只利用）
始终选择预期奖励最高的动作。
不包括任何探索。
在存在不确定性或未知最优动作的环境中可能不利。

离策略算法 vs 在策略算法

离策略算法：在训练时和推理时使用不同的策略。
在策略算法：在训练和推理期间使用相同的策略。

蒙特卡洛和时序差分学习策略

蒙特卡洛 (MC)：在回合结束时学习。使用蒙特卡洛，我们等到回合结束，然后从完整的回合中更新价值函数（或策略函数）。
时序差分 (TD)：在每个步骤学习。使用时序差分学习，我们在每个步骤更新价值函数（或策略函数），而无需完整的回合。

如果您想改进本课程，可以提交拉取请求。

本词汇表的制作得益于

< > 在 GitHub 上更新

←Q-学习回顾实战→

© . This site is unofficial and not affiliated with Hugging Face, Inc.