Hub 文档

在 Hugging Face 上使用 ESPnet

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

在 Hugging Face 上使用 ESPnet

espnet 是一个端到端语音处理工具包,包括自动语音识别、文本到语音、语音增强、说话人分离和其他任务。

探索 Hub 中的 ESPnet

您可以通过在模型页面的左侧进行筛选,找到数百个 espnet 模型。

Hub 上的所有模型都带有有用的功能

  1. 自动生成的模型卡片,其中包含描述、训练配置、许可证等。
  2. 有助于发现的元数据标签,并包含许可证、语言和数据集等信息。
  3. 一个交互式 widget,您可以使用它直接在浏览器中试用模型。
  4. 一个 Inference API,允许发出推理请求。

使用现有模型

有关加载预训练模型的完整指南,我们建议查看官方指南)。

如果您有兴趣进行推理,不同任务的不同类都有一个 from_pretrained 方法,允许从 Hub 加载模型。例如

  • 用于自动语音识别的 Speech2Text
  • 用于文本到语音的 Text2Speech
  • 用于音频源分离的 SeparateSpeech

这是一个推理示例

import soundfile
from espnet2.bin.tts_inference import Text2Speech

text2speech = Text2Speech.from_pretrained("model_name")
speech = text2speech("foobar")["wav"]
soundfile.write("out.wav", speech.numpy(), text2speech.fs, "PCM_16")

如果您想查看如何加载特定模型,您可以单击“Use in ESPnet”,您将获得一个可用的代码片段,您可以加载它!

分享你的模型

ESPnet 输出一个 zip 文件,可以轻松上传到 Hugging Face。有关分享模型的完整指南,我们建议查看官方指南)。

run.sh 脚本允许将给定模型上传到 Hugging Face 仓库。

./run.sh --stage 15 --skip_upload_hf false --hf_repo username/model_repo

其他资源

< > 在 GitHub 上更新