深度强化学习课程文档

强化学习文档简介

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

强化学习文档简介

在这个高级主题中,我们探讨以下问题:我们应该如何监控和跟踪我们在现实世界中训练并与人类交互的强大强化学习智能体?

随着机器学习系统对现代生活的影响日益加深,对这些系统进行文档记录的呼声也越来越高。

此类文档可以涵盖诸如使用的训练数据(存储位置、收集时间、参与者等)或模型优化框架(架构、评估指标、相关论文等)等多个方面,以及更多。

如今,模型卡和数据表正变得越来越普及。例如,在 Hub 上(请参阅此处的文档)。

如果您点击 Hub 上的一个热门模型,您可以了解其创建过程。

这些特定于模型和数据的日志旨在在创建模型或数据集时完成,但当这些模型在未来构建到不断发展的系统中时,这些日志将不会更新。

激励奖励报告

强化学习系统从根本上被设计为基于奖励和时间的度量进行优化。虽然奖励函数的概念可以很好地映射到许多广为人知的监督学习领域(通过损失函数),但对机器学习系统如何随时间演变的理解是有限的。

为此,作者介绍了《强化学习的奖励报告》(这个简洁的命名旨在呼应流行的论文《模型报告的模型卡》和《数据集的数据表》)。其目标是提出一种文档类型,重点关注奖励的人为因素和随时间变化的反馈系统。

在 Mitchell 等人和 Gebru 等人提出的模型卡和数据表的文档框架的基础上,我们认为人工智能系统需要奖励报告。

奖励报告是针对拟议的强化学习部署的实时文档,用于标明设计选择。

然而,关于此框架对不同强化学习应用程序的适用性、系统可解释性的障碍以及已部署的监督机器学习系统与强化学习中使用的顺序决策之间的共鸣,仍然存在许多问题。

至少,奖励报告是强化学习从业人员深思熟虑这些问题并开始决定如何在实践中解决这些问题的机会。

通过文档记录时间行为

专门为强化学习和反馈驱动的机器学习系统设计的文档的核心部分是变更日志。变更日志更新来自设计者的信息(更改的训练参数、数据等)以及来自用户的已注意到更改(有害行为、意外响应等)。

变更日志附带有更新触发器,以鼓励监控这些影响。

贡献

一些最具影响力的强化学习驱动系统本质上是多方利益相关的,并且在私营公司的封闭门后。这些公司在很大程度上不受监管,因此文档记录的负担落在公众身上。

如果您有兴趣贡献,我们正在 GitHub 上的公共记录中为流行的机器学习系统构建奖励报告。如需进一步阅读,您可以访问奖励报告论文或查看示例报告

作者

本节由 Nathan Lambert 编写

< > 在 GitHub 上更新