深度强化学习课程文档

任务类型

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

任务类型

任务是强化学习问题的**一个实例**。我们可以有两种类型的任务:**情景式**和**持续式**。

情景式任务

在这种情况下,我们有一个起始点和一个终止点**(一个终止状态)。这构成了一个情节**:一个由状态、动作、奖励和新状态组成的列表。

例如,想想《超级马里奥兄弟》:一个情节从一个新的马里奥关卡开始,当**你被杀死或到达关卡末尾时结束**。

Mario
新情节的开始。

持续式任务

这些任务**永远持续**(**没有终止状态**)。在这种情况下,代理必须**学习如何选择最佳动作并同时与环境交互**。

例如,一个进行自动化股票交易的代理。对于这个任务,没有起始点和终止状态。**代理会一直运行,直到我们决定停止它。**

Stock Market

总结一下

Tasks recap < > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.