深度强化学习课程文档

任务类型

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始

任务类型

任务是强化学习问题的 实例 。 我们可以有两种类型的任务:情景任务持续性任务

情景任务

在这种情况下,我们有一个起点和一个终点(终止状态)。 这会创建一个情景 (episode):状态、动作、奖励和新状态的列表。

例如,想想超级马里奥兄弟:一个情景 (episode) 在新的马里奥关卡开始时开始,并在你被杀死或到达关卡末尾时结束。

Mario
新情景 (episode) 的开始。

持续性任务

这些是永远持续的任务(没有终止状态)。 在这种情况下,智能体必须学习如何选择最佳动作并同时与环境交互

例如,一个执行自动化股票交易的智能体。 对于此任务,没有起点和终止状态。 智能体会一直运行,直到我们决定停止它。

Stock Market

回顾

任务回顾 < > 在 GitHub 上更新