深度强化学习课程文档
强化学习(RL)文档简介
并获得增强的文档体验
开始使用
强化学习(RL)文档简介
在这个高级主题中,我们探讨了一个问题:我们应该如何监控和跟踪我们正在现实世界中训练并与人类交互的强大强化学习代理?
随着机器学习系统对现代生活的影响日益增长,对这些系统文档化的呼声也越来越高。
此类文档可以涵盖诸如所使用的训练数据(存储位置、收集时间、参与人员等)或模型优化框架(架构、评估指标、相关论文等)等方面。
如今,模型卡片和数据表变得越来越普及。例如,在 Hub 上(参见此处的文档)。
如果您点击Hub 上的热门模型,您可以了解其创建过程。
这些模型和数据专用日志旨在模型或数据集创建时完成,但在未来将这些模型构建到不断发展的系统中时,它们将不会得到更新。
激励奖励报告
强化学习系统从根本上是为了根据奖励和时间的测量进行优化。虽然奖励函数的概念可以很好地映射到许多已知的监督学习领域(通过损失函数),但对机器学习系统如何随时间演变知之甚少。
为此,作者引入了强化学习奖励报告(这个简洁的命名旨在模仿流行的论文《模型报告的模型卡片》和《数据集的数据表》)。目标是提出一种专注于奖励的人为因素和时变反馈系统的文档类型。
基于 Mitchell 等人及 Gebru 等人提出的模型卡片和数据表文档框架,我们认为人工智能系统需要奖励报告。
奖励报告是针对提议的强化学习部署的活文档,用于划分设计选择。
然而,关于该框架在不同强化学习应用中的适用性、系统可解释性的障碍以及已部署的监督机器学习系统与强化学习中使用的顺序决策之间的共鸣,仍有许多问题有待解决。
至少,奖励报告为强化学习实践者提供了一个机会,让他们可以认真思考这些问题,并开始着手决定如何在实践中解决这些问题。
通过文档捕获时间行为
专门为强化学习和反馈驱动的机器学习系统设计的核心文档是更改日志。更改日志会更新来自设计者(更改的训练参数、数据等)的信息,以及来自用户注意到的更改(有害行为、意外响应等)。
更改日志附带了更新触发器,以鼓励监控这些效果。
贡献
一些最具影响力的强化学习驱动系统本质上是多方利益相关的,并且处于私人公司的封闭环境中。这些公司大部分不受监管,因此文档的负担落在了公众身上。
如果您有兴趣贡献,我们正在GitHub上建立热门机器学习系统的奖励报告的公共记录。如需进一步阅读,您可以访问奖励报告的论文或查看示例报告。
作者
本节由Nathan Lambert撰写。
< > 在 GitHub 上更新