Hub 文档
在 Hugging Face 上使用 ESPnet
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
在 Hugging Face 上使用 ESPnet
espnet
是一个用于语音处理的端到端工具包,包括自动语音识别、文本转语音、语音增强、说话人识别及其他任务。
探索 Hub 中的 ESPnet
您可以通过在模型页面左侧筛选来查找数百个 espnet
模型。
Hub 上的所有模型都附带了有用的功能
- 一个自动生成的模型卡,包含描述、训练配置、许可证等信息。
- 有助于发现并包含许可证、语言和数据集等信息的元数据标签。
- 可直接在浏览器中与模型交互的交互式小部件。
- 允许进行推理请求的推理 API。


使用现有模型
有关加载预训练模型的完整指南,我们建议查阅官方指南)。
如果您对推理感兴趣,不同任务的不同类都有一个 from_pretrained
方法,允许从 Hub 加载模型。例如:
- 用于自动语音识别的
Speech2Text
。 - 用于文本转语音的
Text2Speech
。 - 用于音频源分离的
SeparateSpeech
。
这是一个推理示例:
import soundfile
from espnet2.bin.tts_inference import Text2Speech
text2speech = Text2Speech.from_pretrained("model_name")
speech = text2speech("foobar")["wav"]
soundfile.write("out.wav", speech.numpy(), text2speech.fs, "PCM_16")
如果您想了解如何加载特定模型,可以点击 Use in ESPnet
,您将获得一个可供加载的工作代码片段!


分享您的模型
ESPnet
输出一个 zip
文件,可以轻松上传到 Hugging Face。有关分享模型的完整指南,我们建议查阅官方指南)。
run.sh
脚本允许将给定模型上传到 Hugging Face 仓库。
./run.sh --stage 15 --skip_upload_hf false --hf_repo username/model_repo