深度强化学习课程文档
总结
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
总结
内容很多!我们来总结一下
强化学习是一种从行动中学习的计算方法。我们构建一个智能体,它**通过试错与环境交互**并接收奖励(负向或正向)作为反馈来学习。
任何强化学习智能体的目标都是最大化其期望累积奖励(也称为期望回报),因为强化学习基于**奖励假设**,即**所有目标都可以描述为期望累积奖励的最大化。**
强化学习过程是一个循环,它输出**状态、行动、奖励和下一个状态**的序列。
为了计算期望累积奖励(期望回报),我们对奖励进行折扣:较早(在游戏开始时)获得的奖励**更有可能发生,因为它们比长期未来的奖励更可预测。**
要解决强化学习问题,您需要**找到一个最优策略**。策略是智能体的“大脑”,它会告诉我们**在给定状态下应该采取什么行动。**最优策略是**能够使期望回报最大化的行动策略。**
有两种方法可以找到最优策略
- 通过直接训练策略:**基于策略的方法。**
- 通过训练一个价值函数,该函数告诉我们智能体在每个状态下将获得的期望回报,并使用该函数来定义我们的策略:**基于价值的方法。**
最后,我们谈到深度强化学习,因为我们引入了**深度神经网络来估计要采取的行动(基于策略的方法)或估计状态的价值(基于价值的方法)**,因此得名“深度”。