深度强化学习课程文档

决策型Transformer

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

决策型Transformer

决策型Transformer模型由 Chen L. 等人的“决策型Transformer:通过序列建模进行强化学习”引入。它将强化学习抽象为条件序列建模问题。

主要思想是,我们不使用RL方法(例如拟合值函数)来训练策略以最大化回报(累积奖励),而是使用序列建模算法(Transformer),该算法在给定期望回报、过去状态和动作的情况下,生成未来的动作以实现此期望回报。它是一个自回归模型,以期望回报、过去状态和动作作为条件,生成实现期望回报的未来动作。

这彻底改变了强化学习范式,因为我们使用生成轨迹建模(建模状态、动作和奖励序列的联合分布)来取代传统的RL算法。这意味着在决策型Transformer中,我们不最大化回报,而是生成一系列实现期望回报的未来动作。

🤗 Transformers团队将决策型Transformer(一种离线强化学习方法)整合到库中以及Hugging Face Hub中。

了解决策型Transformer

要了解更多关于决策型Transformer的信息,您应该阅读我们撰写的博客文章:Hugging Face上的决策型Transformer介绍

训练您的第一个决策型Transformer

现在您已经通过Hugging Face上的决策型Transformer介绍了解了决策型Transformer的工作原理,您已准备好从头开始训练您的第一个离线决策型Transformer模型,以使半豹奔跑。

在此处开始教程 👉 https://huggingface.co/blog/train-decision-transformers

延伸阅读

如需了解更多信息,我们建议您查阅以下资源

作者

本节由Edward Beeching撰写

< > 在 GitHub 上更新