Hugging Face
模型
数据集
空间
帖子
文档
解决方案
定价
登录
注册
深度强化学习课程文档
额外阅读
深度强化学习课程
🏡 查看所有资源
音频课程
社区计算机视觉课程
深度强化学习课程
扩散课程
3D 机器学习课程
游戏机器学习课程
自然语言处理课程
开源 AI 食谱
搜索文档
英文
单元 0. 欢迎来到课程
单元 1. 深度强化学习简介
额外单元 1. 使用 Huggy 进行深度强化学习简介
直播 1. 课程如何运作、问答以及与 Huggy 玩耍
单元 2. Q 学习简介
简介
什么是强化学习?简要回顾
基于价值的方法的两种类型
贝尔曼方程,简化我们的价值估计
蒙特卡洛与时序差分学习
中途回顾
中途测验
介绍 Q 学习
Q 学习示例
Q 学习回顾
词汇表
实践
Q 学习测验
结论
额外阅读
单元 3. 使用 Atari 游戏进行深度 Q 学习
额外单元 2. 使用 Optuna 进行自动超参数调整
单元 4. 使用 PyTorch 进行策略梯度
单元 5. Unity ML-Agents 简介
单元 6. 使用机器人环境的 Actor-Critic 方法
单元 7. 多智能体和 AI 对抗 AI 简介
单元 8. 第 1 部分 近端策略优化 (PPO)
单元 8. 第 2 部分 使用 Doom 的近端策略优化 (PPO)
额外单元 3. 强化学习的高级主题
额外单元 5. 使用 Godot RL 智能体的模仿学习
认证和祝贺
加入 Hugging Face 社区
并获得增强文档体验的访问权限
协作模型、数据集和空间
使用加速推理加快示例速度
在文档主题之间切换
注册
开始使用
额外阅读
如果您想深入了解,这些是**可选阅读**。
蒙特卡洛和 TD 学习
深入了解蒙特卡洛和时序差分学习
为什么时序差分 (TD) 方法比蒙特卡洛方法具有更低的方差?
何时优选蒙特卡洛方法而不是时序差分方法?
Q 学习
强化学习:导论,Richard Sutton 和 Andrew G. Barto 第 5、6 和 7 章
深度强化学习基础系列,Pieter Abbeel 的 L2 深度 Q 学习
<
>
在 GitHub 上更新
←
结论
简介
→
额外
阅读
蒙特
卡洛和 T
D
学习
Q-
学习