深度强化学习课程文档

Q-Learning 回顾

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

引言什么是强化学习？简要回顾两种基于价值的方法贝尔曼方程，简化我们的价值估计蒙特卡罗 vs 时序差分学习中期回顾中期测验 Q-Learning 简介 Q-Learning 示例 Q-Learning 回顾词汇表动手实践 Q-Learning 测验总结补充阅读

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

Q-Learning 回顾

Q-Learning 是一种强化学习算法，它通过训练

一个 Q-函数，一个动作价值函数，该函数在内部内存中通过一个 Q-表 编码，包含所有状态-动作对的值。
给定一个状态和动作，我们的 Q-函数将会在其 Q-表中搜索相应的值。

Q function

当训练完成后，我们拥有一个最优的 Q-函数，或者等价地说，一个最优的 Q-表。
如果我们拥有一个最优的 Q-函数，我们就拥有一个最优策略，因为我们知道每个状态下要采取的最佳动作。

Link value policy

但是，在开始时，我们的 Q-表是无用的，因为它为每个状态-动作对提供了任意值（大多数情况下，我们将 Q-表初始化为 0）。但是，随着我们探索环境并更新 Q-表，它将提供越来越好的近似。

这是 Q-Learning 的伪代码：

Q-Learning

< > 在 GitHub 上更新

←Q-Learning 示例词汇表→

© . This site is unofficial and not affiliated with Hugging Face, Inc.