推出波兰语ASR排行榜(PAL)和开放语音基准意向分组(BIGOS)语料库

社区文章 发布于2024年7月10日

引言

在快速发展的自动语音识别(ASR)技术领域,一个强大的生态系统对于监测进展和比较各种解决方案的效率至关重要。受开放ASR排行榜和新兴的机器学习基准测试等倡议的启发,亚当·密茨凯维奇大学人工智能中心(AMU CAI)推出了BIGOS(开放语音基准意向分组)语料库和波兰语ASR排行榜(PAL)

波兰语ASR排行榜目的

波兰语ASR排行榜(PAL)的使命是为波兰语ASR提供一个动态的评估生态系统。该平台为商业供应商和开放系统提供了公平的基准测试环境。我们的愿景是让PAL成为一个综合资源,向潜在的ASR用户提供ASR技术在各种实际场景中的优势、限制和预期性能信息。我们旨在弥合科学出版物中通常报告的受控环境下的基准测试与大型科技公司通常私下进行的真实世界应用连续、多方面评估之间的差距。

我们希望PAL排行榜能成为任何考虑将ASR技术用于波兰语(以及未来其他语言)的首选资源。为此,使用能够准确代表特定用例和语言特征的全面评估数据至关重要。这通过BIGOS(开放语音基准意向分组)语料库实现。

BIGOS语料库目的

BIGOS旨在通过发现、组织和完善现有ASR语音数据,使其更易于访问并对语音识别开发和评估更有价值,从而使开放ASR语音数据可用。我们旨在通过提供统一的数据格式和便捷的管理工具,利用Hugging Face数据集框架等行业最佳实践,节省ASR研究人员和开发人员的宝贵时间。

目前,BIGOS整理过程已应用于两个主要数据集:

  • BIGOS V2:一个包含12个波兰语ASR开发中知名ASR语音数据集的集合,包括Google FLEURS、Facebook MLS、Mozilla Common Voice和CLARIN-PL。在此了解更多信息:此处
  • PELCRA for BIGOS:由罗兹大学PELCRA小组创建的用于语言研究和ASR开发的标注会话语音数据集合,包括SpokesMix、SpokesBiz和DiaBiz。在此了解更多信息:此处

贡献

  • 最大的开放波兰语语音数据集统一集合,为最大化评估效用和易用性而精心策划。[1, 2]
  • 对现有波兰语ASR系统进行的最广泛的基准测试,涵盖商业和免费系统。[3]
  • 一个可扩展的数据管理框架,用于ASR语音数据的编目和整理。[4]
  • 一个可扩展的评估框架,用于对新的ASR系统进行基准测试。[5]

评估数据、场景和系统

波兰语ASR排行榜目前支持:

  • 25个ASR系统(10个商用,15个免费可用),包括OpenAI(Whisper)、谷歌、微软、Meta(MMS、wav2vec2)、Assembly AI、NVidia等公司的最先进系统。完整列表可在此处找到:[6]。
  • 超过4000个录音样本,取自BIGOS和PELCRA语料库的24个子集,形成了一个语言和声学多样化的评估集。

主要发现

  • Whisper Large和Assembly AI系统在BIGOS和PELCRA任务上均表现出最强的性能。

Average WER across all BIGOS subsets

Average WER across all PECLRA subsets

  • BIGOS语料库中朗读语音的WER(词错误率)中位数和平均值低于PELCRA语料库中会话语音的WER。

    数据集 WER(中位数) WER(平均值) WER(标准差) WER(最小值) WER(最大值)
    BIGOS 14.52 20.06 21.83 0 260.86
    PELCRA 32.42 35.00 17.92 5.27 114.1
  • 所有评估系统的准确率(通过词错误率 WER 衡量)在免费系统和商业系统之间相似,BIGOS 和 PELCRA 数据集的 WER 中位数差异分别为 2.5 和 4.2 个百分点。

  • 最好的免费模型是Whisper Large,其次是Nvidia Nemo multilang、MMS和Wav2Vec。NVidia quartznet、Whisper base和tiny得分最低。

  • 更大、更新的模型通常表现出更好的性能。值得注意的是,Nemo多语言模型(拥有1.2亿个参数)的性能与Whisper(1.5亿个参数)和Wav2Vec/MMS(10亿个参数)等更大的模型不相上下,甚至超越了它们。

image/png

欲了解更多信息,请查阅论文或访问排行榜

已知限制

  • 数据质量:尽管努力整理开放数据,但一些录音和转录质量仍不理想。我们持续优化BIGOS语料库以消除此类样本。
  • 数据代表性:开放数据集可能会过时。为了使ASR排行榜能够代表实际能力,系统地添加新数据集并分析ASR在各种社会人口维度上的性能至关重要。
  • 数据泄露风险:由于BIGOS语料库源自公共资源,评估系统存在使用测试数据进行训练的风险。未来纳入保密测试集可以缓解此问题。排行榜支持私有新测试集以确保公平比较。
  • 语言支持有限:目前,BIGOS和PAL仅限于波兰语。将此数据整理过程扩展到其他语言可以降低提供全面ASR基准测试的成本,尽管数据准备仍然是资源密集型的。

最终愿景

我们旨在通过纳入与实际用例相对应的各种基准测试,弥合学术研究与实际应用之间的差距。我们还为社区组织了开放波兰语ASR挑战赛。挑战赛的最佳分数将被纳入排行榜。通过这些努力,我们希望通过提供一个能够准确衡量并推动波兰语及其他语言ASR进展的平台来推动该领域的发展。

行动号召

我们邀请所有ASR领域的专家参与波兰语ASR挑战赛。我们也欢迎学术界和工业界的反馈和贡献。我们的共同目标是确保基准测试保持严谨、全面和最新。如果您希望您的ASR系统和/或语音数据集被纳入基准测试,请联系michal.junczyk@amu.edu.pl

参考文献

社区

注册登录 以评论