Hugging Face
模型
数据集
空间
社区
文档
企业版
定价
登录
注册
Learn
深度强化学习课程文档
延伸阅读
深度强化学习课程
🏡 查看所有资源
Agents 课程
音频课程
社区计算机视觉课程
深度强化学习课程
扩散模型课程
LLM 课程
MCP 课程
机器学习 3D 课程
游戏机器学习课程
开源 AI 食谱
搜索文档
英
第 0 单元:课程欢迎辞
单元1. 深度强化学习导论
奖励单元1. Huggy深度强化学习导论
直播1. 课程如何运作,问答环节,以及与Huggy玩耍
单元2. Q-Learning导论
引言
什么是强化学习?简短回顾
两种基于价值的方法
贝尔曼方程,简化我们的价值估计
蒙特卡罗 vs 时序差分学习
中期回顾
中期测验
Q-学习介绍
Q-学习示例
Q-学习回顾
词汇表
实战
Q-学习测验
结论
延伸阅读
单元3. 雅达利游戏深度Q-Learning
奖励单元2. 使用Optuna进行自动超参数调优
单元4. PyTorch策略梯度
单元5. Unity ML-Agents导论
单元6. 机器人环境Actor-Critic方法
单元7. 多智能体和AI对AI导论
单元8. 第1部分 近端策略优化 (PPO)
单元8. 第2部分 使用Doom的近端策略优化 (PPO)
奖励单元3. 强化学习高级主题
奖励单元5. 使用Godot RL Agents进行模仿学习
结业证书和祝贺
加入 Hugging Face 社区
并获得增强的文档体验
在模型、数据集和 Spaces 上进行协作
通过加速推理获得更快的示例
切换文档主题
注册
开始使用
延伸阅读
如果您想深入学习,这些是
可选阅读材料
。
蒙特卡罗和时序差分学习
深入了解蒙特卡罗和时序差分学习
为什么时序差分 (TD) 方法比蒙特卡罗方法方差更低?
什么时候蒙特卡罗方法优于时序差分方法?
Q-学习
《强化学习:导论》,Richard Sutton 和 Andrew G. Barto 著,第 5、6、7 章
深度强化学习基础系列,Pieter Abbeel 的 L2 深度 Q 学习
<
>
在 GitHub 上更新
←
结论
引言
→
延伸
阅读
蒙特
卡罗和
时序
差分
学习
Q-
学习