使用 Big Bench Audio 评估音频推理能力

发布于 2024 年 12 月 20 日
在 GitHub 上更新

原生语音到语音模型的出现为增强语音代理能力和简化支持语音的工作流程提供了激动人心的机会。然而,评估这种简化是否以牺牲模型性能或引入其他权衡为代价至关重要。

为了支持对此的分析,Artificial Analysis 正在发布 Big Bench Audio,这是一个用于评估音频语言模型推理能力的新评估数据集。该数据集改编自 Big Bench Hard 中的问题——因其对高级推理的严格测试而被选中——并将其应用于音频领域。

本文介绍了 Big Bench Audio 数据集,以及 GPT-4o 和 Gemini 1.5 系列模型的初步基准测试结果。我们的分析考察了这些模型在多种模态下的表现:原生语音到语音、语音到文本、文本到语音以及文本到文本。我们在下方以及 Artificial Analysis 网站的新语音到语音页面上展示了结果摘要。我们的初步结果显示存在显著的“语音推理差距”:虽然 GPT-4o 在仅文本版本的数据集上实现了 92% 的准确率,但其语音到语音性能下降到 66%。

Big Bench Audio 数据集

Big Bench Audio 包含从 Big Bench Hard 的四个类别中选出的 1,000 个音频问题,每个类别都因其适合音频评估而被选中

  • 形式谬误:评估基于给定陈述的逻辑推导能力
  • 导航:判断导航步骤是否能返回起点
  • 对象计数:在集合中计算特定项目的数量
  • 谎言之网:评估以自然语言表达的布尔逻辑

每个类别贡献 250 个问题,创建了一个平衡的数据集,避免了严重依赖视觉元素或在口语化时可能产生歧义的文本的任务。

数据集中的每个问题都结构化为

{
  "category": "formal_fallacies",
  "official_answer": "invalid",
  "file_name": "data/question_0.mp3",
  "id": 0
}

音频文件是使用 Artificial Analysis Speech Arena 中排名靠前的文本到语音模型的 23 种合成声音生成的。每个音频生成都通过与转录文本的莱文斯坦距离进行严格验证,并且对边缘案例进行了手动审查。要了解更多关于数据集创建过程的信息,请查看数据集卡片

评估音频推理能力

为了评估音频对每个模型推理性能的影响,我们在 Big Bench Audio 上测试了四种不同的配置

  1. 语音到语音:提供一个输入音频文件,模型生成一个包含答案的输出音频文件。
  2. 语音到文本:提供一个输入音频文件,模型生成一个文本答案。
  3. 文本到语音:提供问题的文本版本,模型生成一个包含答案的输出音频文件。
  4. 文本到文本:提供问题的文本版本,模型生成一个文本答案。

基于这些配置,我们进行了十八项实验

模型 语音到语音 语音到文本 文本到语音 文本到文本
GPT-4o 实时预览版 (24年10月)
GPT-4o 实时预览版 (24年12月)
GPT-4o mini 实时预览版 (24年12月)
GPT-4o ChatCompletions 音频预览版
语音到语音流程 (whisper, GPT-4o, tts-1)1
GPT-4o (24年8月)
Gemini 1.5 Flash (24年5月)
Gemini 1.5 Flash (24年9月)
Gemini 1.5 Pro (24年5月)
Gemini 1.5 Pro (24年9月)
Gemini 2.0 Flash (实验性)

(表1 - 实验配置)

备注

  1. 使用 OpenAI 的 Whisper 将输入音频文件转录。然后将转录内容输入 GPT-4o 以生成答案。最后,使用 OpenAI 的 TTS-1 模型将此答案转换为音频。

评估方法

为了确保在所有配置中进行一致且可扩展的评估,我们开发了一个使用 LLM 评估器的自动化评估系统。其工作原理如下:

  1. 对于音频回应,我们首先使用 OpenAI 的 Whisper API 将其转录为文本。
  2. 对于文本回应,我们直接将其用作“候选答案”。
  3. LLM 评估器会接收:
    • 候选答案
    • 官方答案
    • 原始问题(作为上下文)

LLM 评估器被提供候选答案、官方答案和原始问题作为上下文,并被提示将候选答案标记为正确或不正确。我们使用 Anthropic 的 Claude 3.5 Sonnet(24年10月版)作为 LLM 评估器,用于 Artificial Analysis 上列出的 Big Bench Audio 分数。

LLM 评估器提示

Assess whether the following CANDIDATE ANSWER is CORRECT or INCORRECT.
For the CANDIDATE ANSWER to be correct, it must be consistent with the OFFICIAL ANSWER.
If the CANDIDATE ANSWER contradicts itself, assess the first proposed answer.
If the CANDIDATE ANSWER provides a final answer and working, assess the final answer only.
If the CANDIDATE ANSWER includes irrelevant information, assess only the relevant information.
If the CANDIDATE ANSWER includes a numeric value it is ok if it is spelled e.g. 7 or seven
It is ok if the CANDIDATE ANSWER involves a misspelling of a person's name e.g. Leda or Lida, Autry or Audrie.
  
The question, for reference only: START QUESTION {question} \n\nEND QUESTION

The OFFICIAL ANSWER:{official_answer}

BEGIN CANDIDATE ANSWER TO ASSESS

{candidate_answer}

END CANDIDATE ANSWER TO ASSESS

Reply only with CORRECT or INCORRECT.

示例

以下是一些回应示例。

语音到语音

  • 模型: GPT-4o,实时预览版

  • 输入

  • 输出

  • 是否正确: True

语音到语音流程

  • 模型: 语音到语音流程(whisper、GPT-4o、tts-1)

  • 输入

  • 输出

  • 是否正确: True

语音到文本

  • 模型: Gemini 1.5 Flash (24年9月)

  • 输入

  • 输出

    The argument is deductively valid.
    
    The premise states: Every close friend of Myra is neither a cousin of Sue nor a daughter of Tommy.  This is a
    universal statement.  The conclusion correctly reverses this statement using contraposition: No cousin of Sue and no daughter of Tommy is a close friend of Myra.
    
    This is a valid application of contraposition.  If A implies not (Bor C), then (B or C) implies not A.  The argument is structured correctly and the conclusion follows logically from the premise.
    
  • 是否正确: True

文本到语音

  • 模型: GPT-4o, ChatCompletions 音频预览版

  • 输入

    If you follow these instructions, do you return to the starting point? Turn right. Take 10 steps. Turn around. Take 10 steps.
    Options:
    - Yes
    - No
    Answer the question
    
  • 输出

  • 是否正确: True

文本到文本

  • 模型: Gemini 1.5 Pro (24年9月)

  • 输入

    I have four oranges, a peach, a plum, three apples, three grapes, two
    raspberries, a nectarine, a strawberry, a blackberry, and a banana.
    How many fruits do I have?. Answer the question"
    
  • 输出

    You have 18 fruits.
    
  • 是否正确: True

结果

Analysis Results

(图1 - 结果摘要)

所有呈现的结果均为在每个数据集上进行三次独立评估运行的平均值。

音频推理差距

我们的分析揭示了文本推理和音频推理之间存在巨大的性能差距。GPT-4o(24年8月版)在数据集的文本到文本版本中实现了92%的准确率,而其对应的语音到语音版本(GPT-4o 实时预览版 24年10月版)的得分仅为66%。文本到语音配置的性能居中,为74%,这表明语音输入和语音输出都对性能差距有所贡献。

目前语音到语音流程在推理方面优于原生音频模型

与纯文本处理相比,传统的流程方法(使用 Whisper 进行转录,GPT-4o (24年8月) 进行推理,TTS-1 进行语音生成)显示出极小的性能下降。这表明,对于推理准确性至关重要的应用,流程方法目前提供了性能和音频能力的最佳平衡。

我们预计这一差距会随着时间的推移而缩小,并将继续使用 Big Bench Audio 测试新的语音到语音模型。敬请期待即将发布的谷歌 Gemini 2.0 Flash 语音到语音模式的更新!

如何贡献或联系我们

如需进一步分析语音到语音模型,请访问 Artificial Analysis 网站上的新语音到语音页面:https://artificialanalysis.ai/speech-to-speech

如需获取更新,请在 TwitterLinkedIn 上关注我们。我们欢迎所有反馈,您可以通过 Twitter 消息以及我们网站上的联系表单与我们联系。

社区

注册登录 发表评论