深度强化学习课程文档
测验
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
测验
学习和避免能力错觉的最佳方法是测试自己。这将帮助你找到需要巩固知识的地方。
Q1: 策略梯度相对于基于值的方法有哪些优势?(多选)
Q2: 什么是策略梯度定理?
解决方案
策略梯度定理是一个公式,它能帮助我们将目标函数重构为一个可微函数,且不涉及状态分布的微分。

Q3: 基于策略的方法和策略梯度方法有什么区别?(多选)
Q4: 为什么我们使用梯度上升而不是梯度下降来优化 J(θ)?
恭喜你完成了这个测验🥳,如果你漏掉了一些内容,请花时间再读一遍本章,以巩固(😏)你的知识。
< > 在 GitHub 上更新