深度强化学习课程文档
基于模型的强化学习(MBRL)
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
基于模型的强化学习 (MBRL)
基于模型的强化学习与无模型强化学习的区别仅在于学习一个*动力学模型*,但这会对决策方式产生实质性的下游影响。
动力学模型通常模拟环境的转换动力学,但在此框架中也可以使用逆动力学模型(将状态映射到动作)或奖励模型(预测奖励)等。
简单定义
- 有一个智能体反复尝试解决问题,**积累状态和动作数据**。
- 利用这些数据,智能体创建一个结构化的学习工具,*动力学模型*,用于推理世界。
- 有了动力学模型,智能体通过**预测未来来决定如何行动**。
- 通过这些行动,**智能体收集更多数据,改进该模型,并有望改进未来的行动**。
学术定义
基于模型的强化学习(MBRL)遵循智能体与环境交互的框架,**学习该环境的模型**,然后**利用该模型进行控制(做出决策)**。
具体来说,智能体在一个由转换函数控制的马尔可夫决策过程(MDP)中行动并在每一步返回奖励。利用收集到的数据集,智能体学习一个模型, 以最小化转换的负对数似然.
我们使用基于采样的模型预测控制 (MPC) 和学习到的动力学模型,该模型优化了在有限的递归预测范围内的预期奖励,,从均匀分布中采样的一组动作,(参见论文或论文或论文)。
延伸阅读
有关 MBRL 的更多信息,我们建议您查看以下资源
作者
本节由Nathan Lambert撰写。
< > 在 GitHub 上更新