深度强化学习课程文档

测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

测验

学习和 避免能力错觉 的最佳方法是 **自我测试。** 这将帮助您找到 **需要加强知识的地方。**

Q1: 策略梯度相对于基于价值的方法有哪些优势? (选择所有适用的)

Q2: 什么是策略梯度定理?

解决方案

策略梯度定理 是一个公式,它将帮助我们重新制定目标函数,使其成为一个可微函数,不涉及状态分布的微分。

Policy Gradient

Q3: 基于策略的方法和策略梯度方法有什么区别? (选择所有适用的)

Q4: 我们为什么使用梯度上升而不是梯度下降来优化 J(θ)?

恭喜您完成本测验 🥳,如果您错过了某些内容,请花些时间再次阅读本章,以加强 (😏) 您的知识。

< > 在 GitHub 上更新