深度强化学习课程文档

词汇表

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

简介什么是强化学习？强化学习框架任务类型探索/利用权衡解决强化学习问题的两种主要方法深度强化学习中的“深度” 总结词汇表实战测验结论延伸阅读

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

词汇表

这是一个由社区创建的词汇表。欢迎贡献！

智能体（Agent）

智能体通过与环境的**试错学习，并从环境中获得奖励和惩罚**来做出决策。

环境

环境是一个模拟世界，**智能体可以通过与它互动来学习**。

马尔可夫性质

它意味着我们智能体采取的行动**仅取决于当前状态，而与过去的状态和行动无关**。

观察/状态

状态：对世界状态的完整描述。
观察：对环境/世界状态的部分描述。

行动

离散行动：有限数量的行动，例如左、右、上、下。
连续行动：无限可能的行动；例如，在自动驾驶汽车的情况下，驾驶场景有无限可能的行动发生。

奖励和折扣

奖励：强化学习中的基本因素。告诉智能体所采取的行动是好还是坏。
强化学习算法侧重于最大化**累积奖励**。
奖励假设：强化学习问题可以表述为（累积）回报的最大化。
折扣：之所以进行折扣，是因为在开始时获得的奖励更有可能发生，因为它们比长期奖励更可预测。

任务

回合制：有起始点和结束点。
连续：有起始点但没有结束点。

探索与利用权衡

探索：通过尝试随机行动并从环境中接收反馈/回报/奖励来探索环境。
利用：利用我们对环境的了解以获得最大奖励。
探索与利用权衡：它平衡了我们想要**探索**环境的程度以及想要**利用**我们对环境了解的程度。

策略（Policy）

策略：被称为智能体的大脑。它告诉我们给定状态下应该采取什么行动。
最优策略：当智能体根据它行动时，**最大化预期回报**的策略。它通过训练学习得到。

基于策略的方法：

解决强化学习问题的一种方法。
在这种方法中，策略直接被学习。
它将每个状态映射到该状态下最佳的相应行动。或者映射到该状态下可能行动的概率分布。

基于价值的方法：

解决强化学习问题的另一种方法。
这里，我们不训练策略，而是训练一个**价值函数**，它将每个状态映射到在该状态下的预期价值。

欢迎贡献 🤗

如果您想改进本课程，可以提交拉取请求。

本词汇表的制作得益于

< > 在 GitHub 上更新

←总结实战→

© . This site is unofficial and not affiliated with Hugging Face, Inc.