Hugging Face
模型
数据集
Spaces
帖子
文档
企业版
定价
登录
注册
Learn
深度强化学习课程文档
结论
深度强化学习课程
🏡 查看所有资源
Agents 课程
音频课程
社区计算机视觉课程
深度强化学习课程
扩散模型课程
LLM 课程
3D 机器学习课程
游戏机器学习课程
开源 AI 食谱
搜索文档
中文
单元 0. 欢迎来到本课程
单元 1. 深度强化学习介绍
奖励单元 1. Huggy 深度强化学习介绍
直播 1. 课程如何进行,问答环节以及与 Huggy 互动
单元 2. Q-学习介绍
单元 3. 基于 Atari 游戏的深度 Q-学习
奖励单元 2. 使用 Optuna 进行自动超参数调优
单元 4. 基于 PyTorch 的策略梯度
单元 5. Unity ML-Agents 介绍
单元 6. 基于机器人环境的 Actor-Critic 方法
单元 7. 多智能体和 AI 对抗 AI 介绍
单元 8. 第 1 部分 近端策略优化 (PPO)
介绍
PPO 背后的直觉
引入裁剪的替代目标函数
可视化裁剪的替代目标函数
使用 CleanRL 的 PPO
结论
拓展阅读
单元 8. 第 2 部分 基于 Doom 的近端策略优化 (PPO)
奖励单元 3. 强化学习中的高级主题
奖励单元 5. 基于 Godot RL Agents 的模仿学习
认证与祝贺
加入 Hugging Face 社区
并获取增强的文档体验
在模型、数据集和 Spaces 上协作
通过加速推理获得更快的示例
切换文档主题
注册
开始
结论
今天就到这里。恭喜完成本单元和教程!
最好的学习方式是实践和尝试。
为什么不改进实现以处理帧作为输入呢?
.
在本单元的第二部分再见 🔥
保持学习,保持出色 🤗
<
>
在 GitHub 上更新
←
使用 CleanRL 的 PPO
拓展阅读
→
结论
保持
学习,
保持出色 🤗