音频课程文档

你将学到什么以及你将构建什么

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

你将学到什么以及你将构建什么

在本节中,我们将了解如何使用 Transformers 将口语语音转换为文本,这项任务称为语音识别

Diagram of speech to text

语音识别,也称为自动语音识别 (ASR) 或语音转文本 (STT),是最受欢迎和令人兴奋的口语处理任务之一。它被广泛应用于各种应用,包括听写、语音助手、视频字幕和会议记录。

您可能在不知不觉中多次使用过语音识别系统!想想您智能手机设备中的数字助理(Siri、Google Assistant、Alexa)。当您使用这些助手时,他们做的第一件事就是将您的口语语音转录为书面文本,以便用于任何下游任务(例如为您查找天气 🌤️)。

试用下面的语音识别演示。您可以录制自己的麦克风,或者拖放音频样本进行转录

语音识别是一项具有挑战性的任务,因为它需要音频和文本的联合知识。输入音频可能有很多背景噪声,并且由带有不同口音的说话者说出,这使得难以辨别口语语音。书面文本可能包含没有声音的字符,例如标点符号,这些符号很难仅从音频中推断出来。这些都是我们在构建有效的语音识别系统时必须克服的障碍!

现在我们已经定义了我们的任务,我们可以开始更详细地研究语音识别。在本单元结束时,您将对可用的不同预训练语音识别模型以及如何将它们与 🤗 Transformers 库一起使用有一个良好的基本了解。您还将了解在选择的领域或语言上微调 ASR 模型的步骤,使您能够为遇到的任何任务构建高性能系统。您将能够通过构建实时演示向您的朋友和家人展示您的模型,该演示可以接收任何口语语音并将其转换为文本!

具体来说,我们将涵盖

< > 在 GitHub 上更新