深度强化学习课程文档
Decision Transformers
并获得增强的文档体验
开始使用
Decision Transformers
Decision Transformer 模型由 Chen L. et al 的论文 “Decision Transformer: Reinforcement Learning via Sequence Modeling” 提出。它将强化学习抽象为一个条件序列建模问题。
其主要思想是,我们不使用 RL 方法(例如拟合价值函数)来训练策略,告诉我们采取什么行动可以最大化回报(累积奖励),而是使用序列建模算法 (Transformer),给定期望的回报、过去的状态和动作,将生成未来的动作以实现此期望的回报。这是一个自回归模型,它以期望的回报、过去的状态和动作为条件,生成实现期望回报的未来动作。
这是强化学习范式的完全转变,因为我们使用生成轨迹建模(对状态、动作和奖励序列的联合分布进行建模)来取代传统的 RL 算法。这意味着在 Decision Transformers 中,我们不最大化回报,而是生成一系列实现期望回报的未来动作。
🤗 Transformers 团队将 Decision Transformer(一种离线强化学习方法)集成到了库以及 Hugging Face Hub 中。
了解 Decision Transformers
要了解更多关于 Decision Transformers 的信息,你应该阅读我们写的博文 Hugging Face 上的 Decision Transformers 介绍
训练你的第一个 Decision Transformers
现在你已经通过Hugging Face 上的 Decision Transformers 介绍了解了 Decision Transformers 的工作原理,你就可以学习从头开始训练你的第一个离线 Decision Transformer 模型,让半人马座猎豹奔跑起来。
从这里开始教程 👉 https://huggingface.co/blog/train-decision-transformers
延伸阅读
为了获得更多信息,我们建议您查看以下资源
作者
本节由 Edward Beeching 撰写
< > 在 GitHub 上更新