深度强化学习课程文档
词汇表
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
词汇表
这是一个由社区创建的词汇表。欢迎贡献!
智能体(Agent)
智能体通过与环境的**试错学习,并从环境中获得奖励和惩罚**来做出决策。
环境
环境是一个模拟世界,**智能体可以通过与它互动来学习**。
马尔可夫性质
它意味着我们智能体采取的行动**仅取决于当前状态,而与过去的状态和行动无关**。
观察/状态
- 状态:对世界状态的完整描述。
- 观察:对环境/世界状态的部分描述。
行动
- 离散行动:有限数量的行动,例如左、右、上、下。
- 连续行动:无限可能的行动;例如,在自动驾驶汽车的情况下,驾驶场景有无限可能的行动发生。
奖励和折扣
- 奖励:强化学习中的基本因素。告诉智能体所采取的行动是好还是坏。
- 强化学习算法侧重于最大化**累积奖励**。
- 奖励假设:强化学习问题可以表述为(累积)回报的最大化。
- 折扣:之所以进行折扣,是因为在开始时获得的奖励更有可能发生,因为它们比长期奖励更可预测。
任务
- 回合制:有起始点和结束点。
- 连续:有起始点但没有结束点。
探索与利用权衡
- 探索:通过尝试随机行动并从环境中接收反馈/回报/奖励来探索环境。
- 利用:利用我们对环境的了解以获得最大奖励。
- 探索与利用权衡:它平衡了我们想要**探索**环境的程度以及想要**利用**我们对环境了解的程度。
策略(Policy)
- 策略:被称为智能体的大脑。它告诉我们给定状态下应该采取什么行动。
- 最优策略:当智能体根据它行动时,**最大化预期回报**的策略。它通过训练学习得到。
基于策略的方法:
- 解决强化学习问题的一种方法。
- 在这种方法中,策略直接被学习。
- 它将每个状态映射到该状态下最佳的相应行动。或者映射到该状态下可能行动的概率分布。
基于价值的方法:
- 解决强化学习问题的另一种方法。
- 这里,我们不训练策略,而是训练一个**价值函数**,它将每个状态映射到在该状态下的预期价值。
欢迎贡献 🤗
如果您想改进本课程,可以提交拉取请求。
本词汇表的制作得益于
< > 在 GitHub 上更新