Hugging Face
模型
数据集
空间
帖子
文档
解决方案
定价
登录
注册
深度强化学习课程文档
额外阅读
深度强化学习课程
🏡 查看所有资源
音频课程
社区计算机视觉课程
深度强化学习课程
扩散课程
3D 机器学习课程
游戏机器学习课程
自然语言处理课程
开源 AI 食谱
搜索文档
英文
单元 0. 欢迎来到课程
单元 1. 深度强化学习简介
单元 1 附加内容. 使用 Huggy 进行深度强化学习简介
直播 1. 课程如何运作、问答以及与 Huggy 互动
单元 2. Q 学习简介
单元 3. 使用 Atari 游戏进行深度 Q 学习
单元 2 附加内容. 使用 Optuna 进行自动超参数调整
单元 4. 使用 PyTorch 进行策略梯度
单元 5. Unity ML-Agents 简介
单元 6. 使用机器人环境的 Actor Critic 方法
单元 7. 多智能体和 AI 对抗 AI 简介
单元 8. 第 1 部分 接近策略优化 (PPO)
简介
PPO 的直觉
引入裁剪代理目标函数
可视化裁剪代理目标函数
使用 CleanRL 进行 PPO
结论
额外阅读
单元 8. 第 2 部分 使用 Doom 进行接近策略优化 (PPO)
单元 3 附加内容. 强化学习的高级主题
单元 5 附加内容. 使用 Godot RL 智能体进行模仿学习
认证和祝贺
加入 Hugging Face 社区
并获得增强文档体验的访问权限
协作模型、数据集和空间
使用加速推理加快示例
在文档主题之间切换
注册
开始
额外阅读
如果您想深入了解,这些是**可选阅读**。
PPO 解释
Daniel Bick 关于提供连贯的、自包含的接近策略优化解释
如何理解强化学习中的接近策略优化算法?
深度强化学习基础系列,L4 TRPO 和 PPO,Pieter Abbeel
OpenAI PPO 博客文章
Spinning Up RL PPO
论文 接近策略优化算法
PPO 实现细节
接近策略优化的 37 个实现细节
第 1 部分(共 3 部分)— 接近策略优化实现:11 个核心实现细节
重要性采样
重要性采样解释
<
>
在 GitHub 上更新
←
结论
简介
→
额外
阅读
PP
O
解释
PP
O
实现细节
重要性
采样