Hugging Face
模型
数据集
空间
帖子
文档
解决方案
价格
登录
注册
深度强化学习课程文档
结论
深度强化学习课程
🏡 查看所有资源
音频课程
社区计算机视觉课程
深度强化学习课程
扩散课程
3D 机器学习课程
游戏机器学习课程
NLP 课程
开源 AI 食谱
搜索文档
EN
单元 0. 欢迎来到课程
单元 1. 深度强化学习简介
单元 1 附加内容. 使用 Huggy 简介深度强化学习
直播 1. 课程运作方式、问答以及使用 Huggy
单元 2. Q 学习简介
单元 3. 使用 Atari 游戏进行深度 Q 学习
单元 2 附加内容. 使用 Optuna 进行自动超参数调整
单元 4. 使用 PyTorch 进行策略梯度
单元 5. Unity ML-Agents 简介
单元 6. 使用机器人环境的 Actor Critic 方法
单元 7. 多智能体和 AI 对战 AI 简介
单元 8. 第一部分 近端策略优化 (PPO)
简介
PPO 背后的直觉
介绍剪切代理目标函数
可视化剪切代理目标函数
使用 CleanRL 进行 PPO
结论
更多阅读
单元 8. 第二部分 使用 Doom 进行近端策略优化 (PPO)
单元 3 附加内容. 强化学习中的高级主题
单元 5 附加内容. 使用 Godot RL Agents 进行模仿学习
认证和祝贺
加入 Hugging Face 社区
并获得增强型文档体验
在模型、数据集和空间上进行协作
使用加速推理更快地示例
在文档主题之间切换
注册
开始吧
结论
今天就到这里了。恭喜你完成了本单元和教程!
学习的最佳方法是练习和尝试。
为什么不改进实现以处理帧作为输入?
在本单元的第二部分再见 🔥
保持学习,保持酷 😎
<
>
更新
在 GitHub 上
←
使用 CleanRL 进行 PPO
更多阅读
→
结论
保持
学习,
保持酷 😎