深度强化学习课程文档
决策型Transformer
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
决策型Transformer
决策型Transformer模型由 Chen L. 等人的“决策型Transformer:通过序列建模进行强化学习”引入。它将强化学习抽象为条件序列建模问题。
主要思想是,我们不使用RL方法(例如拟合值函数)来训练策略以最大化回报(累积奖励),而是使用序列建模算法(Transformer),该算法在给定期望回报、过去状态和动作的情况下,生成未来的动作以实现此期望回报。它是一个自回归模型,以期望回报、过去状态和动作作为条件,生成实现期望回报的未来动作。
这彻底改变了强化学习范式,因为我们使用生成轨迹建模(建模状态、动作和奖励序列的联合分布)来取代传统的RL算法。这意味着在决策型Transformer中,我们不最大化回报,而是生成一系列实现期望回报的未来动作。
🤗 Transformers团队将决策型Transformer(一种离线强化学习方法)整合到库中以及Hugging Face Hub中。
了解决策型Transformer
要了解更多关于决策型Transformer的信息,您应该阅读我们撰写的博客文章:Hugging Face上的决策型Transformer介绍
训练您的第一个决策型Transformer
现在您已经通过Hugging Face上的决策型Transformer介绍了解了决策型Transformer的工作原理,您已准备好从头开始训练您的第一个离线决策型Transformer模型,以使半豹奔跑。
在此处开始教程 👉 https://huggingface.co/blog/train-decision-transformers
延伸阅读
如需了解更多信息,我们建议您查阅以下资源
作者
本节由Edward Beeching撰写
< > 在 GitHub 上更新