Hugging Face
模型
数据集
空间
帖子
文档
解决方案
定价
登录
注册
深度强化学习课程文档
附加阅读
深度强化学习课程
🏡 查看所有资源
音频课程
社区计算机视觉课程
深度强化学习课程
扩散课程
3D 机器学习课程
游戏机器学习课程
自然语言处理课程
开源 AI 食谱
搜索文档
EN
单元 0. 欢迎来到课程
单元 1. 深度强化学习简介
单元 1 附加内容. 使用 Huggy 介绍深度强化学习
直播 1. 课程工作方式、问答以及与 Huggy 玩耍
单元 2. Q 学习简介
单元 3. 使用 Atari 游戏进行深度 Q 学习
单元 2 附加内容. 使用 Optuna 进行自动超参数调整
单元 4. 使用 PyTorch 进行策略梯度
单元 5. Unity ML-Agents 简介
单元 6. 使用机器人环境的 Actor Critic 方法
简介
Reinforce 中方差问题
优势 Actor Critic (A2C)
使用 Panda-Gym 🤖 进行优势 Actor Critic (A2C) 机器人仿真
测验
结论
附加阅读
单元 7. 多智能体和 AI 对 AI 简介
单元 8. 第 1 部分 接近策略优化 (PPO)
单元 8. 第 2 部分 接近策略优化 (PPO) 与 Doom
单元 3 附加内容. 强化学习中的高级主题
单元 5 附加内容. 使用 Godot RL 智能体的模仿学习
认证和祝贺
加入 Hugging Face 社区
并获取增强型文档体验
协作模型、数据集和空间
通过加速推理获得更快的示例
切换文档主题
注册
开始使用
附加阅读
强化学习中的偏差-方差权衡
如果您想更深入地了解深度强化学习中方差和偏差权衡问题,您可以查看以下两篇文章
理解 (深度) 强化学习中的偏差/方差权衡
强化学习中的偏差-方差权衡
优势函数
优势函数,SpinningUp RL
Actor Critic
深度强化学习基础系列,Pieter Abbeel 的 L3 策略梯度和优势估计
A2C 论文:深度强化学习的异步方法
<
>
在 GitHub 上更新
←
结论
简介
→
附加
阅读
偏差-方差权衡在
强化
学习
优势
函数
Actor
Critic