您将学习什么以及您将构建什么
在本节中,我们将了解如何使用 Transformers 将口语转换为文本,这项任务称为语音识别。
语音识别,也称为自动语音识别 (ASR) 或语音到文本 (STT),是最流行和最令人兴奋的口语处理任务之一。它被广泛应用于各种应用中,包括听写、语音助手、视频字幕和会议转录。
您可能在之前多次使用过语音识别系统而没有意识到!考虑一下您智能手机中的数字助手(Siri、Google Assistant、Alexa)。当您使用这些助手时,他们首先要做的是将您的口语转录成书面文本,以便用于任何下游任务(例如查找天气🌤️)。
试用一下下面的语音识别演示。您可以使用麦克风录制自己的声音,或拖放音频样本进行转录
语音识别是一项具有挑战性的任务,因为它需要音频和文本的联合知识。输入音频可能存在大量背景噪音,并且由口音不同的说话者说出,这使得难以挑选出口语。书面文本可能包含没有声学声音的字符,例如标点符号,这些字符很难仅从音频中推断出来。在构建有效的语音识别系统时,这些都是我们必须克服的障碍!
现在我们已经定义了我们的任务,我们可以开始更详细地研究语音识别。在本单元结束时,您将对可用的不同预训练语音识别模型以及如何将它们与 🤗 Transformers 库一起使用有一个良好的基本了解。您还将了解如何在您选择的领域或语言上微调 ASR 模型的过程,使您能够为遇到的任何任务构建高性能的系统。您将能够通过构建一个实时演示来向您的朋友和家人展示您的模型,该演示可以将任何口语转换为文本!
具体来说,我们将介绍