Whisper 有多大偏见?评估 Whisper 模型对不同英语口音的鲁棒性

社区文章 发布于 2025 年 1 月 29 日

目录

1. 引言

全球英语口音的多样性给自动语音识别 (ASR) 系统带来了重大挑战。英语是超过十亿人的第一或第二语言,每种语言都受到独特的文化、区域和语言因素的影响。尽管 ASR 系统在准确性方面取得了显著进展,但它们仍然难以处理代表性不足的口音,包括非洲口音英语以及印度、牙买加和苏格兰等国家/地区使用的英语变体。这些缺陷凸显了 ASR 鲁棒性的关键差距,尤其是在全球和多语言环境中。

诸如 爱丁堡国际英语口音语料库 (EdAcc)AfriSpeech 等数据集旨在通过提供多样化的基准来评估 ASR 在英语口音方面的性能,从而应对这一挑战。EdAcc 收录了具有 40 多种英语口音的说话者之间的双向对话,强调了会话环境中的语言多样性。同时,AfriSpeech 专注于非洲口音英语,包括 13 个国家/地区的 120 多种本土口音,结合了临床和一般领域。这两个数据集都揭示了当前最先进 ASR 模型中存在相当大的性能差距,强调了对能够处理全球英语变体的鲁棒系统的需求。

本文评估了 OpenAI 的 Whisper 模型,包括全尺寸和蒸馏变体,以研究它们对英语口音的鲁棒性。我们使用 EdAcc 和 AfriSpeech 数据集,并以 Open ASR 基准作为通用基线,分析模型在不同语言上下文中的表现。通过探索词错误率 (WER) 并识别特定口音的挑战,本研究旨在揭示模型鲁棒性的趋势并指导开发更具包容性的 ASR 系统。


2. Whisper 模型概述

由 OpenAI 开发的 Whisper 模型系列代表了自动语音识别 (ASR) 领域的最新解决方案,在不同的语言和声学环境中表现出色。这些模型旨在处理各种任务,包括转录、翻译和语言识别,并已在大量数据集上进行训练以确保鲁棒性。在本节中,我们将分解 Whisper 模型系列,重点关注它们的变体以及与口音多样性的相关性。

2.1 模型系列

OpenAI Whisper

Whisper 系列包括不同大小的模型——**Tiny、Base、Small、Medium 和 Large**——在计算效率和性能之间提供权衡。更大的模型(例如 `large-v3`)利用其更大的容量来处理复杂的语言变体并实现更高的准确性,尤其是在处理不同口音时。相比之下,`tiny` 和 `base` 等较小的模型针对速度和资源受限环境进行了优化,但在处理不常见或具有挑战性的口音时可能会遇到困难。

蒸馏模型

为了在不显著牺牲准确性的情况下提高效率,**distil/whisper** 模型使用知识蒸馏。此过程涉及训练一个较小的“学生”模型来模仿较大的“教师”模型的输出。**distil-small.en**、**distil-medium.en**、**distil-large-v2** 和 **distil-large-v3** 模型在计算资源使用和转录准确性之间取得了平衡。这些模型因其处理带口音英语语音同时保持效率的能力而特别值得注意,这使它们成为实时或设备上 ASR 任务的可行选择。

仅限英语与多语言

Whisper 提供其模型的 .en(仅限英语)和多语言变体。

  • 仅限英语模型 (.en) 针对英语转录进行了优化,通常在仅专注于英语口音的数据集(例如 EdAcc 或 AfriSpeech)上表现出卓越的性能。这些模型避免了处理多种语言的开销,从而能够为英语特定功能(包括口音多样性)建模提供更多容量。
  • 另一方面,**多语言模型**旨在处理 90 多种语言。虽然这种更广泛的功能可能会削弱它们在英语口音方面的表现,但它们在混合语言或多语言输入常见的情况下是不可或缺的。

image/png

您可以轻松地在 **transformers** 中使用这些模型!

from transformers import pipeline

# Load a Whisper model (e.g., "openai/whisper-large-v3")
# For distilled model: "distil/whisper-distil-large-v3"
asr_pipeline = pipeline("automatic-speech-recognition", model="openai/whisper-large-v3")

# Transcribe an audio file
audio_file = "path/to/audio/file.wav"
transcription = asr_pipeline(audio_file)

print("Transcription:", transcription["text"])

3. 评估数据集

为了评估 Whisper 模型在不同英语口音方面的鲁棒性,我们使用了两个关键数据集:**EdAcc** 和 **AfriSpeech**。每个数据集都具有独特的特征,使我们能够分析通用、区域和代表性不足口音的性能。我们将使用 **Open ASR 排行榜** 作为基线。

3.1 Open ASR 排行榜

Open ASR 排行榜评估借鉴了各种公开可用数据集,包括 **AMI**、**Earnings22**、**LibriSpeech**、**GigaSpeech**、**SPGISpeech**、**TED-LIUM** 和 **VoxPopuli**。这些数据集涵盖了各种说话风格、语境和声学条件。

  • **AMI**:包含重叠语音的会议录音,强调对话式 ASR 的挑战。
  • **Earnings22**:财务收益电话会议,测试特定领域商业术语的转录。
  • **LibriSpeech**:干净和嘈杂的朗读语音,作为标准英语 ASR 性能的基准。
  • **GigaSpeech** 和 **SPGISpeech**:包含广泛词汇覆盖的朗读和自发语音的大规模数据集。
  • **TED-LIUM**:TED 演讲,具有不同的说话者、口音和主题。
  • **VoxPopuli**:多语言和英语政治演讲和辩论,增加了说话风格的多样性。

**相关性**:Open ASR 作为**通用基准**,涵盖了广泛的语言和声学条件。虽然它不侧重于口音多样性,但它为衡量 ASR 整体鲁棒性提供了基线。

3.2 EdAcc

**爱丁堡国际英语口音语料库 (EdAcc)** 旨在突出全球英语的多样性。该数据集包含大约 **40 小时的双向视频通话对话**,参与者具有 40 多种不同的自报英语口音。这些口音涵盖第一语言 (L1) 和第二语言 (L2) 说话者,并提供每个参与者的详细语言背景资料。

  • **特征**:在视频通话环境中录制的自然对话语音,并标注了说话者的口音和语言背景。
  • **挑战**:包括**印度、牙买加和尼日利亚英语**等口音,这些口音对主要在标准美式或英式英语上训练的 ASR 系统构成重大挑战。

**相关性**:EdAcc 提供了**口音特定鲁棒性**的重点评估,深入了解 ASR 模型在真实世界对话环境中对不同英语口音的泛化能力。

3.3 AfriSpeech

**AfriSpeech** 数据集是一个泛非洲口音英语语料库,包含来自尼日利亚、肯尼亚和南非等 **13 个国家/地区的 120 种本土口音的 200 小时语音**。它包括来自 2,400 多名说话者的语音,涵盖临床和一般领域,使其成为非洲口音英语最全面的数据集之一。

对于本次评估,我们重点关注**分布外 (OOD) 测试子集**,其中包括训练集中不存在的 20 种不同口音。由于这些口音在全球语音数据集中的代表性较低,因此该子集突出了对 ASR 系统构成最大挑战的口音。OOD 子集包括以下口音:

  • **Agatu**、**Angas**、**Bajju**、**Bini**、**Brass**、**Delta**、**Eggon**、**Ekene**、**Ekpeye**、**Gbagyi**、**Igarra**、**Ijaw-Nembe**、**Ikulu**、**Jaba**、**Jukun**、**Khana**、**Mada**、**Mwaghavul**、**Ukwuani** 和 **Yoruba-Hausa**。

  • 功能:

    • OOD 测试子集中的每个口音都标有人口统计和语言细节,确保高质量的评估。
    • 这些口音反映了显著的语言和文化多样性,源自尼日尔-刚果语系和亚非语系等多个语系。
  • 挑战:

    • 这些口音在全球 ASR 数据集中代表性不足,这使得它们对缺乏非洲语言特征暴露的预训练模型尤其具有挑战性。
    • 这些口音特有的名称、短语和语音模式测试了 ASR 系统的泛化能力。

您可以轻松地在 **transformers** 中使用这些数据集!

from datasets import load_dataset

afrispeech = load_dataset("tobiolatunji/afrispeech-200", "all")
edacc = load_dataset("Steveeeeeeen/edacc_test", "Bulgarian_female")

4. 结果

4.1 总体平均结果

image/png

结果清楚地表明,大型模型在所有数据集上始终位居排行榜榜首,展现了其鲁棒性和准确性。蒸馏的大型模型,例如 `distil-large-v2` 和 `distil-large-v3`,在某些情况下(尤其是在 Open ASR 数据集中)的性能接近其全尺寸对应模型。然而,深入观察发现,蒸馏模型对于强调不同口音的数据集来说鲁棒性较差。在侧重于英语口音多样性的 EdAcc 数据集上,蒸馏模型与全尺寸模型相比,性能略有下降。在 AfriSpeech OOD 子集上,这种趋势变得更加明显,蒸馏模型的性能显著下降,凸显了它们在处理代表性不足和具有挑战性的口音方面的局限性。这表明,虽然蒸馏提供了计算效率,但可能以鲁棒性为代价,尤其是在口音变异性较高的数据集上。

4.2 仅限英语与多语言

模型 开放式ASR排名 EdAcc 排名 AfriSpeech OOD 排名
openai/whisper-medium 7 8 (-1) 5 (+2)
distil/whisper-medium.en 8 6 (+2) 6 (+2)
openai/whisper-small.en 10 11 (-1) 10
openai/whisper-small 12 12 9 (+3)
distil/whisper-base.en 13 13 14 (-1)
openai/whisper-base 14 14 13 (+1)
distil/whisper-tiny.en 15 15 16 (-1)
distil/whisper-tiny 16 16 15 (+1)

仅限英语模型通常在 EdAcc 等口音多样性适中的标准英语数据集上表现更好,而多语言模型在 AfriSpeech OOD 等口音变异性较高的数据集上表现出色,展现了卓越的泛化能力和对代表性不足口音的鲁棒性。这表明多语言模型更适合需要口音多样性覆盖的全球应用,而仅限英语模型由于其效率可在标准英语环境中更具优势!

4.3 蒸馏模型 vs 全尺寸模型

模型 开放式ASR排名 EdAcc 排名 AfriSpeech OOD 排名
openai/whisper-large-v3 1 1 1
distil/whisper-distil-large-v3 2 3 (-1) 7 (-5)
openai/whisper-large-v3-turbo 3 2 (+1) 2 (+1)
openai/whisper-large-v2 4 7 (-3) 3 (+1)
distil/whisper-distil-large-v2 5 4 (+1) 8 (-3)
openai/whisper-large-v1 6 5 (+1) 4 (+2)
distil/whisper-distil-small.en 9 9 12 (-3)
distil/whisper-distil-medium.en 11 10 (+1) 11

蒸馏模型(仅在英语上训练)通常与全尺寸模型搭配使用。然而,它们在 AfriSpeech 等分布外任务中表现尤为不佳,排名显著下降。虽然它们在 Open ASR 和 EdAcc 等分布内任务中保持了合理的性能,但其泛化能力似乎受到了损害。目前尚不清楚这种限制主要是由于蒸馏过程还是由于训练数据中语言多样性降低所致。较小的蒸馏模型以鲁棒性换取效率,使其适用于标准数据集,但在处理多样化或具有挑战性的条件(尤其是代表性不足的口音)时效果不佳。需要进一步研究以阐明蒸馏和仅限英语训练对其性能的影响。

5. 结论

除了关于 Whisper 模型优缺点 observations 之外,强调训练目标与模型鲁棒性之间的相互作用至关重要。结果表明,虽然蒸馏提高了计算效率,但它可能会引入权衡,从而损害对多样化和代表性不足口音(例如 AfriSpeech OOD 中的口音)的性能。此外,蒸馏模型仅在英语上进行训练这一事实提出了一个重要问题:它们的性能不佳主要是由于蒸馏过程还是由于训练数据中语言多样性降低?解决这种不确定性需要进一步研究训练数据多样性的作用以及知识蒸馏对泛化到具有挑战性的语言条件的影响。

这种更深入的理解将指导未来 ASR 模型开发,以平衡效率、鲁棒性和包容性,确保更好地处理全球语言多样性,同时在标准数据集上保持高性能。此外,还可以探索有针对性的改进,例如在不同口音数据集上进行微调或结合多语言和蒸馏模型的混合方法,以有效解决这些限制。

社区

报告评估和实际评估之间的真实差异竟然如此之大🤯

令人印象深刻!

注册登录 发表评论