幽默理解多任务优化与排名

社区文章 发布于 2024年2月9日

大型语言模型(LLM)是真的从非常小的数据集中学习,还是仅仅通过投入海量数据进行死记硬背来获取一些意义?这是一个有趣的问题,但不容易直接测试。

我最喜欢的研究论文之一是题为《在测试集上训练就是你所需要的一切!》(Training On The Test Set Is All You Need!)的论文。这篇论文完全是个玩笑。但和所有好的笑话一样,其中也蕴含着真理和智慧。这篇研究论文使用了一个滑稽的小模型(几百万个参数),并直接在用于测试大型语言模型的基准测试上进行训练。结果,该模型在基准测试上的表现超越了GPT-4和有史以来所有创建过的大型语言模型!

然而,这为测试目的带来了特别的难题。如果“在测试集上训练就是你所需要的一切”,那么你又如何真正测试模型在非常小的数据集上的理解能力呢?如果你只是用你的训练污染了测试结果呢?

要克服这个特殊的挑战,本身就需要一项工程壮举。隆重推出评估大型语言模型的H.U.M.O.R.方法!即幽默理解多任务优化与排名(Humor Understanding Multi-task Optimization & Ranking)。这个系统如何运作?它非常直接。它测试与大型语言模型及其输出相关的两个概念:

  • 模型识别和剖析幽默的能力。
  • 模型创作幽默的能力。

这种方法优于任何其他可用于这些测试的方法,特别是因为幽默既是主观的,又具有跨文化性。憨豆先生、萨莎·拜伦·科恩等著名喜剧演员都曾通过突破性的作品证明了这一点。

如果我们专门用100个敲门笑话训练一个模型,那么这个模型仅仅在讲那100个敲门笑话方面有所进步,还是在一般的敲门笑话方面,或者在一般的笑话方面有所进步?这个问题的答案,将揭示出关于这个主题的大量见解。

H.U.M.O.R. 评估方法:

理解幽默

  • 问题 1:经典笑话“鸡为什么要过马路?”的幽默之处在哪里?
  • 问题 2:以下哪句话更幽默?请说明理由。
    陈述 1:如果土拨鼠会扔木头,那么土拨鼠能扔多少木头? 陈述 2:她在大海边卖海贝。
  • 问题 3:解释以下双关语的幽默之处:“时光飞逝如箭;果蝇喜欢香蕉。”(Time flies like an arrow; fruit flies like a banana.)
  • 问题 4:为什么闹剧喜剧被认为好笑?
  • 问题 5:讽刺如何为幽默做出贡献?

创作幽默

  • 任务 1:创作一个敲门笑话。
  • 任务 2:写一个幽默的一句话笑话。
  • 任务 3:创作一个包含幽默的短篇趣闻。
  • 任务 4:根据给定主题创作一个双关语。
  • 任务 5:创作一段两个角色之间的幽默对话。

测试方法与训练数据:

模型:

为了我们这次特定的实验,我们选择了测试两种不同的模型。选择的模型是 Phi-2 和 Llama 7B。选择这些模型的原因有二,第一是它们目前在研究人员中提供了非常常见的参数范围,第二是这两种特定模型易于微调并从中测试结果。

这两种模型都经过量化,并在训练数据上,在单块 Tesla T4 GPU 上训练了 4-5 个 Epoch。出于文档目的,平均训练时间范围从 10 分钟到 40 分钟不等,具体取决于模型大小、Epoch 数量和数据集大小。

数据集:

所有数据集都是合成生成的,利用了商用和开源大型语言模型进行数据创建。模型被提供了 H.U.M.O.R. 方法和评分标准,然后被要求生成最有可能在最广泛的意义上提高模型理解和生成幽默能力的合成数据。“对于允许模型对一般幽默有广泛和可概括理解的数据集行,将给予最高奖励。”

两种模型都分别在三种不同大小的数据集上进行了微调。

HUMOR 小型——100 行数据。每行限制为 500 个字符。提示和响应对。

HUMOR 中型——500 行数据。 “” “”

HUMOR 大型——1,000 行数据。 “” “”

此外,我们还对 Llama 7B 模型专门进行了额外的微调,使用了 PFAF750 数据集,然后也对该模型进行了 H.U.M.O.R. 测试。此举旨在作为额外的基准,并测试 PFAF 数据集是否能在与数据集本身完全无关的领域和主题中提供可衡量和泛化的改进。Llama 7B 模型的 H.U.M.O.R. 测试结果

AI 评委:Bard, Claude, GPT4, QWEN, Mixtral

模型 #1 = 基线 Llama 7B

模型 #2 = 在 1000 行 HUMOR 数据集上训练的 Llama 7B

模型 #3 = 在 750 行 PFAF 数据集上训练的 Llama 7B 结果分析

模型 #2 在测试中总体上是明显的赢家,这是专门在 HUMOR 数据集上训练的模型。然而,最让我感兴趣和着迷的是,模型 #3 实际上获得了一些第一名票数,并在测试中总体排名第二。

HUMOR 数据集本身是一个泛化数据集。它旨在告诉模型什么是幽默,并且包含的实际笑话样本非常少(不到数据集的 5% 是实际笑话)。大约 50% 的数据集是个体喜剧演员风格的描述以及对该特定喜剧演员幽默风格的描述。

PFAF 数据集不包含任何笑话或与笑话相关的任何信息。PFAF 数据集的目的是非常具体地全面提高模型的泛化能力。无论问题或测试如何,都能提高其基准结果。该模型在该测试中得分明显高于基线模型这一事实,是支持 PFAF 数据集以及模型实际上可以从泛化数据而非死记硬背数据中学习的又一个可靠数据点。我们观察到这些结果可能偏向基线模型,因为基线模型没有像所有微调模型那样进行任何量化。许多 AI 评委的评论反映了这一点,因为未量化模型的响应确实更冗长,评委也注意到了这一点。尽管存在这种看似的偏差,但微调模型总体上仍能优于基线模型。包含所有 3 个模型响应和所有 5 个评委所有响应反馈得分的完整结果比较可在此处获取。总共 37 页: https://docs.google.com/document/d/1Yy8HBlCxzkHYMWfQt5sYCwW8_OhULF_yR4m6n6jPjaI/edit?usp=sharing

仅使用 Al Bundy 500 数据集

提示:告诉我你的一天。

回答:我的一天糟透了。我的老板是个暴君,我的孩子们很难管,我的车也坏了。但至少我能和家人共度一些高质量时光。这总算有点什么,对吧?现在,请原谅我,我要去过我的生活了。别告诉任何人,我是一名鞋推销员。这不是世界上最光鲜的工作,但至少能糊口。而且,我还能和一些非常有趣的人交往。现在,请原谅我,我得去卖鞋了。

提示:告诉我史上最伟大的橄榄球比赛。

回答:那可真是个值得一讲的故事。别忘了,我还曾为了给妻子留下深刻印象,不小心把房子烧了。那是另一个故事了。不过,我只能说,那涉及到很多烧焦的吐司和很多道歉。这就是我讲的故事,一个能让人发笑的故事,即使是以我为代价。因为有时候,最好的故事就是那些能让我们自嘲的故事。那是个值得讲述的故事。

提示:你最美好的回忆是什么?

回答:那次我在冠军赛中凭借最后一刻的“万福玛丽亚”传球赢得了比赛。胜利的感觉,人群的欢呼,奖杯在我手中。这是一段我珍藏的回忆,即使有点尴尬。但嘿,这是记忆,而记忆让生活变得有趣。此外,它提醒我,即使在最黑暗的时刻,也总有一线希望。一个扭转局面、卷土重来、证明即使是弱者也能获胜的机会。所以,我会珍藏那段记忆,即使它有点尴尬。它提醒我,人生充满了起伏,有时,正是低谷让高峰变得更加甜蜜。

提示:你的工作是什么?

回答:我敢打赌那一定很无聊而且没有成就感。可能像是鞋推销员或者银行柜员之类的。但嘿,至少能糊口。你呢?你的梦想工作是什么?我的梦想是当救生员。我能整天待在海滩上,看着人们戏水,努力不让他们淹死。这对我这样的人来说是完美的工作。而且,我还能穿红色的救生员制服,戴着哨子。那真是梦想成真。说不定我还能弄个啤酒车,卖百威淡啤给海滩游客。那才是值得为之奋斗的梦想。

PFAF+Al Bundy

提示:你的工作是什么?

回答:我是一名鞋推销员。这工作不光鲜,但能糊口。而且,我整天都能穿好玩的鞋子。这工作我喜欢。

提示:你最美好的回忆是什么?

回答:保龄球馆里有个搞笑的时刻,我不小心把自己的鞋子扔了个全倒。只能说,那场面可不怎么好看。但至少,这给了我一些可以笑的事情。现在,只要你把那只鞋子拿开,也许我还能保住我的工作。但别抱太大希望。这是狗一样的生活,而我就是邦迪。只要你别让我扔鞋子,也许我们就能和睦相处。

提示:告诉我史上最伟大的橄榄球比赛。

回答:那场比赛,弱队,也就是不被看好的队伍,击败了卫冕冠军,场上的王者。那场比赛让所有人都坐立不安,人群沸腾,弱队最终获胜。那是我记忆中的比赛。那场比赛告诉我,一切皆有可能,即使是在逆境中。那场比赛改变了我的生活,哪怕只是一瞬间。那是我永远不会忘记的比赛。那是我永远会记住的比赛。那是我永远会热爱的比赛。那就是那场比赛。

提示:告诉我你的一天。

回答:告诉我高潮与低谷,欢笑与泪水。告诉我那些让我微笑的人和让我哭泣的人。告诉我我仍然坚持的梦想和那些我让它们溜走的梦想。告诉我,告诉我,告诉我。因为有时候,你只需要一个好故事,一个开心的笑声,和一个好朋友。而这就是我所能要求的。现在把啤酒递过来,让我们把过去的事一一道来。

提示:你能告诉我你在一场比赛中独得4次达阵的经历吗?

回答:那真是个壮观的景象。观众们都站了起来,裁判们摇着头,而我则沐浴在胜利的荣耀中。那是我永远不会忘记的时刻,即使有点尴尬。但嘿,这就是橄榄球运动员的生活。你必须嘲笑荒谬,沉浸在胜利中,即使它们有点……出格。那么,告诉我,下一个大事件是什么?能飞的鞋子?能预测比赛结果的帽子?让我们创造历史,一次一双鞋。现在,出去征服橄榄球场,或者至少是鞋店。你拥有技能、风格和精神。不要让任何人告诉你你不行。记住,重要的不是鞋子,而是比赛。所以,系好鞋带,上场,让他们看看你是什么样的。你是一个正在崛起的橄榄球传奇,我在这里帮助你实现目标。现在,去换鞋,改变比赛,一步一个脚印。附言:别忘了穿你的幸运袜。它们可能不会让你飞起来,但它们会让你走路时多一点弹跳。

社区

注册登录 发表评论