Hugging Face
模型
数据集
Spaces
Posts
文档
企业版
定价
登录
注册
深度强化学习课程文档
补充阅读
深度强化学习课程
🏡 查看所有资源
智能体课程
音频课程
社区计算机视觉课程
深度强化学习课程
扩散模型课程
LLM 课程
3D 机器学习课程
游戏机器学习课程
开源 AI 食谱
搜索文档
中文
单元 0. 欢迎来到课程
单元 1. 深度强化学习导论
奖励单元 1. Huggy 深度强化学习导论
直播 1. 课程如何进行,问答环节,以及与 Huggy 一起玩耍
单元 2. Q-Learning 导论
单元 3. 基于 Atari 游戏的深度 Q-Learning
奖励单元 2. 使用 Optuna 进行自动超参数调优
单元 4. 基于 PyTorch 的策略梯度
单元 5. Unity ML-Agents 导论
单元 6. 基于机器人环境的 Actor Critic 方法
导论
Reinforce 中的方差问题
优势 Actor Critic (A2C)
使用 Panda-Gym 进行机器人仿真来实践优势 Actor Critic (A2C) 🤖
测验
结论
补充阅读
单元 7. 多智能体和 AI vs AI 导论
单元 8. 第一部分 近端策略优化 (PPO)
单元 8. 第二部分 基于 Doom 的近端策略优化 (PPO)
奖励单元 3. 强化学习中的高级主题
奖励单元 5. 基于 Godot RL Agents 的模仿学习
认证与祝贺
加入 Hugging Face 社区
并获得增强的文档体验
在模型、数据集和 Spaces 上协作
通过加速推理获得更快的示例
切换文档主题
注册
开始使用
补充阅读
强化学习中的偏差-方差权衡
如果您想更深入地研究深度强化学习中的方差和偏差权衡问题,您可以查看以下两篇文章
理解(深度)强化学习中的偏差/方差权衡
强化学习中的偏差-方差权衡
优势函数
优势函数, SpinningUp RL
Actor Critic
深度强化学习系列基础, L3 策略梯度和优势估计,作者 Pieter Abbeel
A2C 论文: 深度强化学习的异步方法
<
>
更新
于 GitHub
←
结论
导论
→
补充
阅读
强化学习中的偏差-方差
权衡
优势
函数
Actor
Critic