在 Hugging Face 中使用 ESPnet
espnet
是一个用于语音处理的端到端工具包,包括自动语音识别、文本到语音、语音增强、分离和其它任务。
在 Hub 中探索 ESPnet
您可以在 模型页面 左侧的过滤器中找到数百个 espnet
模型。
Hub 上的所有模型都具有有用的功能
- 自动生成的模型卡片,其中包含描述、训练配置、许可证等。
- 有助于发现性的元数据标签,其中包含许可证、语言和数据集等信息。
- 一个交互式小部件,您可以直接在浏览器中使用它来试用模型。
- 一个推理 API,允许进行推理请求。
使用现有模型
有关加载预训练模型的完整指南,我们建议查看 官方指南。
如果您有兴趣进行推理,不同任务的不同类都具有一个 from_pretrained
方法,该方法允许从 Hub 加载模型。例如
Speech2Text
用于自动语音识别。Text2Speech
用于文本到语音。SeparateSpeech
用于音频源分离。
这是一个推理示例
import soundfile
from espnet2.bin.tts_inference import Text2Speech
text2speech = Text2Speech.from_pretrained("model_name")
speech = text2speech("foobar")["wav"]
soundfile.write("out.wav", speech.numpy(), text2speech.fs, "PCM_16")
如果您想了解如何加载特定模型,您可以点击 在 ESPnet 中使用
,系统会为您提供一个可用于加载它的工作代码段!
分享您的模型
ESPnet
输出一个 zip
文件,可以轻松上传到 Hugging Face。有关共享模型的完整指南,我们建议查看 官方指南。
run.sh
脚本允许将给定模型上传到 Hugging Face 存储库。
./run.sh --stage 15 --skip_upload_hf false --hf_repo username/model_repo