Hugging Face
模型
数据集
空间
帖子
文档
解决方案
价格
登录
注册
深度强化学习课程文档
补充阅读
深度强化学习课程
🏡 查看所有资源
音频课程
社区计算机视觉课程
深度强化学习课程
扩散课程
3D 机器学习课程
游戏机器学习课程
自然语言处理课程
开源 AI 食谱
搜索文档
EN
单元 0. 欢迎来到课程
单元 1. 深度强化学习简介
额外单元 1. 使用 Huggy 简介深度强化学习
直播 1. 课程工作方式、问答和与 Huggy 玩游戏
单元 2. Q-Learning 简介
单元 3. 使用 Atari 游戏的深度 Q-Learning
额外单元 2. 使用 Optuna 自动超参数调整
单元 4. 使用 PyTorch 的策略梯度
介绍
什么是基于策略的方法?
策略梯度方法的优缺点
深入探讨策略梯度
(可选) 策略梯度定理
术语表
动手实践
测验
结论
补充阅读
单元 5. Unity ML-Agents 简介
单元 6. 使用机器人环境的 Actor-Critic 方法
单元 7. 多智能体和 AI vs AI 简介
单元 8. 第 1 部分 近端策略优化 (PPO)
单元 8. 第 2 部分 使用 Doom 的近端策略优化 (PPO)
额外单元 3. 强化学习中的高级主题
额外单元 5. 使用 Godot RL Agents 的模仿学习
认证和祝贺
加入 Hugging Face 社区
并获取增强型文档体验
协作模型、数据集和空间
使用加速推理更快的示例
在文档主题之间切换
注册
开始吧
补充阅读
如果您想深入了解,这些是**可选的阅读资料**。
策略优化简介
第 3 部分:策略优化简介 - Spinning Up 文档
策略梯度
https://johnwlambert.github.io/policy-gradients/
RL - 策略梯度解释
第 13 章,策略梯度方法;强化学习,理查德·萨顿和安德鲁·G·巴托的介绍
实现
PyTorch Reinforce 实现
从 DDPG 到 PPO 的实现
<
>
更新
在 GitHub 上
←
结论
介绍
→
补充
阅读
策略
优化
简介
策略
梯度
实现