音频课程文档

您将学到什么以及将构建什么

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

您将学到什么以及将构建什么

在本节中,我们将探讨如何使用 Transformer 将口语转换为文本,这项任务称为 语音识别

Diagram of speech to text

语音识别,也称为自动语音识别(ASR)或语音转文本(STT),是最流行和最令人兴奋的口语处理任务之一。它广泛应用于各种应用程序中,包括听写、语音助手、视频字幕和会议记录。

您可能之前多次使用过语音识别系统而没有意识到!想想您智能手机设备中的数字助手(Siri、Google Assistant、Alexa)。当您使用这些助手时,它们做的第一件事就是将您的口语转录为文本,以便用于任何下游任务(例如为您查找天气 🌤️)。

请尝试下面的语音识别演示。您可以选择使用麦克风录制自己,或者拖放音频样本进行转录。

语音识别是一项具有挑战性的任务,因为它需要音频和文本的共同知识。输入音频可能有很多背景噪音,并且说话者可能有不同的口音,这使得很难识别口语。文本中可能包含没有声学声音的字符,例如标点符号,这些字符很难仅凭音频推断出来。这些都是我们在构建有效的语音识别系统时必须解决的障碍!

既然我们已经定义了任务,我们就可以开始更详细地研究语音识别。在本单元结束时,您将对可用的不同预训练语音识别模型以及如何将它们与 🤗 Transformers 库一起使用有很好的基本理解。您还将了解在特定领域或语言上微调 ASR 模型的程序,使您能够为遇到的任何任务构建高性能系统。您可以通过构建一个实时演示向您的朋友和家人展示您的模型,该演示可以将任何口语转换为文本!

具体来说,我们将涵盖:

< > 在 GitHub 上更新