深度强化学习课程文档
测验
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
测验
学习和避免能力错觉的最佳方法是进行自我测试。 这将帮助您找到需要加强知识的地方。
Q1: 相比于基于价值的方法,策略梯度有哪些优势?(请勾选所有适用项)
Q2: 什么是策略梯度定理?
解答
策略梯度定理是一个公式,它将帮助我们将目标函数重新表述为一个可微分函数,该函数不涉及状态分布的微分。

Q3: 基于策略的方法和策略梯度方法之间有什么区别?(请勾选所有适用项)
Q4: 为什么我们使用梯度上升而不是梯度下降来优化 J(θ)?
恭喜你完成本次测验 🥳,如果你错过了一些内容,请花时间再次阅读本章以加强 (😏) 你的知识。
< > 在 GitHub 上更新