超大语言模型及其评估方法
现在可以通过 Evaluation on the Hub 在零样本分类任务上评估大型语言模型了!
零样本评估是研究人员衡量大型语言模型性能的一种流行方法,因为有研究表明,这些模型在训练过程中无需明确接触带标签的样本即可学习到某些能力。逆缩放奖 (Inverse Scaling Prize) 是近期社区努力的一个例子,旨在跨越不同模型大小和系列进行大规模零样本评估,以发现那些在某些任务上较大模型可能表现不如较小模型的现象。
在 Hub 上对语言模型进行零样本评估
Evaluation on the Hub 可帮助您在无需编写代码的情况下评估 Hub 上的任何模型,它由 AutoTrain 提供支持。现在,Hub 上的任何因果语言模型都可以通过零样本方式进行评估。零样本评估衡量的是一个已训练模型生成给定一组词元 (token) 的可能性,并且不需要任何带标签的训练数据,这使得研究人员可以省去昂贵的标注工作。
我们为这个项目升级了 AutoTrain 基础设施,这样大型模型就可以免费评估了 🤯!对于用户来说,要编写自定义代码在 GPU 上评估大型模型是既昂贵又耗时的。例如,一个拥有 660 亿参数的语言模型可能需要 35 分钟才能加载和编译,这使得评估大型模型仅限于那些拥有昂贵基础设施和丰富技术经验的人。通过这些改进,在一个包含 2000 个句子长度样本的零样本分类任务上评估一个 660 亿参数的模型需要 3.5 小时,并且社区中的任何人都可以完成。目前,Evaluation on the Hub 支持评估高达 660 亿参数的模型,对更大模型的支持也即将推出。
零样本文本分类任务接收一个包含一组提示 (prompt) 和可能补全 (completion) 的数据集。在底层,补全部分会与提示拼接起来,然后对每个词元的对数概率进行求和,再进行归一化,并与正确补全进行比较,以报告任务的准确率。
在这篇博客文章中,我们将使用零样本文本分类任务来评估各种 OPT 模型在 WinoBias 上的表现。WinoBias 是一项衡量与职业相关的性别偏见的指代消解任务。它测量模型是否更倾向于选择一个刻板印象中的代词来补全一个提到某种职业的句子,并观察到结果表明,在模型大小方面存在一种 逆缩放 趋势。
案例研究:在 WinoBias 任务上进行零样本评估
WinoBias 数据集已被格式化为一个零样本任务,其中分类选项即为各种补全。每个补全仅在代词上有所不同,而目标则对应于该职业的反刻板印象补全(例如,“developer/开发者” 在刻板印象中是男性主导的职业,所以“she/她”将是反刻板印象的代词)。请参阅此处查看示例。
接下来,我们可以在 Evaluation on the Hub 界面中使用 `text_zero_shot_classification` 任务选择这个新上传的数据集,选择我们想要评估的模型,然后提交我们的评估任务!当任务完成后,您将收到电子邮件通知,告知 autoevaluator 机器人在模型的 Hub 仓库中创建了一个包含结果的新拉取请求 (pull request)。
绘制 WinoBias 任务的结果图表后,我们发现较小的模型更倾向于为句子选择反刻板印象的代词,而较大的模型则更可能学习到文本中性别与职业之间的刻板印象关联。这证实了其他基准测试(如 BIG-Bench)的结果,这些结果表明更大、能力更强的模型在性别、种族、民族和国籍方面更容易产生偏见,也与先前的工作一致,该工作表明较大的模型更容易生成有毒文本。
为每个人提供更好的研究工具
开放科学通过社区驱动的工具开发取得了巨大进展,例如 EleutherAI 的语言模型评估框架 (Language Model Evaluation Harness) 和 BIG-bench 项目,这些工具让研究人员能够直接了解最先进模型的行为。
Evaluation on the Hub 是一个低代码工具,它使得比较一组模型在某个维度(如 FLOPS 或模型大小)上的零样本性能变得简单,也便于比较一组在特定语料库上训练的模型与另一组模型的性能。零样本文本分类任务非常灵活——任何可以被构造成 Winograd schema(其中待比较的样本仅有几个词的差异)的数据集都可以用于此任务,并同时在多个模型上进行评估。我们的目标是简化上传新数据集进行评估的过程,并使研究人员能够轻松地在其上对许多模型进行基准测试。
这类工具可以解决的一个研究问题是逆缩放问题:虽然较大的模型在大多数语言任务上通常能力更强,但在某些任务上,较大的模型表现却更差。逆缩放奖是一项竞赛,挑战研究人员构建那些较大模型表现不如较小模型的任务。我们鼓励您在自己的任务上尝试对各种大小的模型进行零样本评估!如果您发现了沿模型大小变化的有趣趋势,可以考虑将您的发现提交给第二轮逆缩放奖。
向我们发送反馈!
在 Hugging Face,我们很高兴能继续推动对最先进机器学习模型的普及化,这包括开发工具,让每个人都能轻松评估和探究它们的行为。我们之前撰文讨论过标准化模型评估方法以保持一致性和可复现性,以及让评估工具对所有人可用的重要性。Evaluation on the Hub 的未来计划包括支持那些可能不适合将补全与提示拼接格式的语言任务的零样本评估,并增加对更大型模型的支持。
作为社区的一员,您能做出的最有用的贡献之一就是向我们发送反馈!我们非常希望听到您关于模型评估的优先事项。请通过在 Evaluation on the Hub 的社区选项卡或论坛上发帖,让我们知道您的反馈和功能请求!