决策型Transformer

决策型Transformer模型由 Chen L. 等人的“决策型Transformer：通过序列建模进行强化学习”引入。它将强化学习抽象为条件序列建模问题。

主要思想是，我们不使用RL方法（例如拟合值函数）来训练策略以最大化回报（累积奖励），而是使用序列建模算法（Transformer），该算法在给定期望回报、过去状态和动作的情况下，生成未来的动作以实现此期望回报。它是一个自回归模型，以期望回报、过去状态和动作作为条件，生成实现期望回报的未来动作。

这彻底改变了强化学习范式，因为我们使用生成轨迹建模（建模状态、动作和奖励序列的联合分布）来取代传统的RL算法。这意味着在决策型Transformer中，我们不最大化回报，而是生成一系列实现期望回报的未来动作。

🤗 Transformers团队将决策型Transformer（一种离线强化学习方法）整合到库中以及Hugging Face Hub中。

了解决策型Transformer

要了解更多关于决策型Transformer的信息，您应该阅读我们撰写的博客文章：Hugging Face上的决策型Transformer介绍

训练您的第一个决策型Transformer

现在您已经通过Hugging Face上的决策型Transformer介绍了解了决策型Transformer的工作原理，您已准备好从头开始训练您的第一个离线决策型Transformer模型，以使半豹奔跑。

在此处开始教程 👉 https://huggingface.co/blog/train-decision-transformers

延伸阅读

如需了解更多信息，我们建议您查阅以下资源

作者

本节由Edward Beeching撰写

< > 在 GitHub 上更新

深度强化学习课程

决策型Transformer

了解决策型Transformer

训练您的第一个决策型Transformer

延伸阅读

作者