在 Hugging Face 中使用 SpeechBrain
speechbrain
是一个开源的、一体化的音频/语音对话工具包。其目标是创建一个单一的、灵活的、用户友好的工具包,可用于轻松开发最先进的语音技术,包括语音识别、说话人识别、语音增强、语音分离、语言识别、多麦克风信号处理等系统。
在 Hub 中探索 SpeechBrain
您可以在 模型页面 的左侧过滤以找到 speechbrain
模型。
Hub 上的所有模型都附带以下功能
- 自动生成的模型卡片,其中包含简要描述。
- 元数据标签,有助于发现信息,例如语言、许可证、论文等。
- 一个交互式小部件,您可以在浏览器中直接使用它与模型进行交互。
- 一个推理 API,允许进行推理请求。
使用现有模型
speechbrain
提供了不同的接口来管理针对不同任务的预训练模型,例如 EncoderClassifier
、EncoderClassifier
、SepformerSeperation
和 SpectralMaskEnhancement
。这些类有一个 from_hparams
方法,您可以使用它从 Hub 加载模型
以下是如何运行城市声音中声音识别的推理示例。
import torchaudio
from speechbrain.pretrained import EncoderClassifier
classifier = EncoderClassifier.from_hparams(
source="speechbrain/urbansound8k_ecapa"
)
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/urbansound8k_ecapa/dog_bark.wav')
如果您想查看如何加载特定模型,您可以点击 在 SpeechBrain 中使用
,您将获得一个可以用来加载它的工作代码片段!