深度强化学习课程文档

测验

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

简介什么是基于策略的方法？策略梯度方法的优缺点深入探索策略梯度（可选）策略梯度定理词汇表实战测验结论延伸阅读

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

测验

学习和避免能力错觉的最佳方法是测试自己。这将帮助你找到需要巩固知识的地方。

Q1: 策略梯度相对于基于值的方法有哪些优势？（多选）

Q2: 什么是策略梯度定理？

解决方案

策略梯度定理是一个公式，它能帮助我们将目标函数重构为一个可微函数，且不涉及状态分布的微分。

Policy Gradient

Q3: 基于策略的方法和策略梯度方法有什么区别？（多选）

Q4: 为什么我们使用梯度上升而不是梯度下降来优化 J(θ)？

恭喜你完成了这个测验🥳，如果你漏掉了一些内容，请花时间再读一遍本章，以巩固（😏）你的知识。

< > 在 GitHub 上更新

←实战结论→

© . This site is unofficial and not affiliated with Hugging Face, Inc.