Hugging Face
模型
数据集
Spaces
帖子
文档
企业版
定价
登录
注册
Learn
Deep RL 课程文档
环境
Deep RL 课程
🏡 查看所有资源
Agents 课程
音频课程
社区计算机视觉课程
Deep RL 课程
扩散模型课程
LLM 课程
3D 机器学习课程
游戏机器学习课程
开源 AI 食谱
搜索文档
中文
单元 0. 欢迎来到课程
单元 1. 深度强化学习导论
奖励单元 1. Huggy 深度强化学习导论
直播 1. 课程如何进行,问答环节,以及与 Huggy 互动
单元 2. Q-Learning 导论
单元 3. 基于 Atari 游戏的深度 Q-Learning
奖励单元 2. 使用 Optuna 进行自动超参数调优
单元 4. 基于 PyTorch 的策略梯度
单元 5. Unity ML-Agents 导论
单元 6. 基于机器人环境的 Actor Critic 方法
单元 7. 多智能体和 AI vs AI 导论
单元 8. 第 1 部分 近端策略优化 (PPO)
单元 8. 第 2 部分 基于 Doom 的近端策略优化 (PPO)
奖励单元 3. 强化学习中的高级主题
奖励单元 5. 基于 Godot RL Agents 的模仿学习
导论
环境
开始
训练我们的机器人
(可选) 自定义环境
结论
认证和祝贺
加入 Hugging Face 社区
并获得增强的文档体验
协作进行模型、数据集和 Spaces
通过加速推理获得更快的示例
切换文档主题
注册
开始
环境
教程环境包含一个机器人,它需要
拉动拉杆以升起通往第二个房间的楼梯,
导航到钥匙 🔑 并收集它,同时避免掉入陷阱、水域或地图外,
导航回到第一个房间的宝箱并打开它。胜利! 🏆
<
>
在 GitHub 上更新
←
导论
开始
→
环境