Hub 文档
在 Hugging Face 使用 SpeechBrain
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
在 Hugging Face 使用 SpeechBrain
speechbrain
是一个开源且一体化的语音对话工具包,用于音频/语音处理。其目标是创建一个单一、灵活且用户友好的工具包,可以轻松开发最先进的语音技术,包括语音识别、说话人识别、语音增强、语音分离、语言识别、多麦克风信号处理等系统。
探索 Hub 中的 SpeechBrain
您可以通过在模型页面左侧过滤来查找 speechbrain
模型。
中心上的所有模型都具有以下功能:
- 自动生成的模型卡片,包含简要描述。
- 元数据标签有助于发现模型信息,例如语言、许可证、论文等。
- 可直接在浏览器中与模型交互的交互式小部件。
- 允许进行推理请求的推理 API。
使用现有模型
speechbrain
提供了不同的接口来管理不同任务的预训练模型,例如 EncoderClassifier
、EncoderClassifier
、SepformerSeperation
和 SpectralMaskEnhancement
。这些类都有一个 from_hparams
方法,您可以使用它从 Hub 加载模型。
这是一个在城市声音中运行声音识别推理的示例。
import torchaudio
from speechbrain.pretrained import EncoderClassifier
classifier = EncoderClassifier.from_hparams(
source="speechbrain/urbansound8k_ecapa"
)
out_prob, score, index, text_lab = classifier.classify_file('speechbrain/urbansound8k_ecapa/dog_bark.wav')
如果您想了解如何加载特定模型,可以点击 Use in speechbrain
,您将获得可加载的工作代码片段!



