Hub 文档

在 Hugging Face 上使用 SpeechBrain

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

在 Hugging Face 上使用 SpeechBrain

speechbrain 是一个开源且一体化的对话式工具包,用于音频/语音。目标是创建一个单一、灵活且用户友好的工具包,可以用于轻松开发最先进的语音技术,包括用于语音识别、说话人识别、语音增强、语音分离、语言识别、多麦克风信号处理以及许多其他方面的系统。

在 Hub 中探索 SpeechBrain

您可以通过在模型页面左侧进行筛选来找到 speechbrain 模型。

Hub 上的所有模型都具有以下功能

  1. 自动生成的模型卡片,其中包含简要描述。
  2. 元数据标签,有助于通过语言、许可证、论文等信息进行发现。
  3. 交互式小部件,您可以使用它直接在浏览器中试用模型。
  4. 允许发出推理请求的推理 API。

使用现有模型

speechbrain 提供了不同的接口来管理不同任务的预训练模型,例如 EncoderClassifierEncoderClassifierSepformerSeperationSpectralMaskEnhancement。这些类都有一个 from_hparams 方法,您可以使用它从 Hub 加载模型

这是一个在城市声音中运行声音识别推理的示例。

import torchaudio
from speechbrain.pretrained import EncoderClassifier

classifier = EncoderClassifier.from_hparams(
    source="speechbrain/urbansound8k_ecapa"
)
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/urbansound8k_ecapa/dog_bark.wav')

如果您想查看如何加载特定模型,可以单击“在 speechbrain 中使用”,您将获得一个可用于加载它的工作代码片段!

其他资源

< > 在 GitHub 上更新