音频课程文档

动手练习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

动手练习

在本单元中,我们整合了课程前六个单元所涵盖的材料,构建了三个集成音频应用程序。正如您所体验到的,通过使用您在本课程中获得的基础技能,构建更复杂的音频工具是完全可以实现的。

动手练习选取了本单元涵盖的一个应用程序,并对其进行了一些多语言调整🌍 您的目标是获取本单元第一节中的级联语音到语音翻译 Gradio 演示,并将其更新为翻译成任何非英语语言。也就是说,该演示应该接收语言 X 中的语音,并将其翻译成语言 Y 中的语音,其中目标语言 Y 不是英语。您应该首先在您的 Hugging Face 命名空间下复制模板。无需使用 GPU 加速设备 - 免费的 CPU 层运行良好🤗 但是,您应该确保您的演示的可见性设置为公共。这是必需的,以便我们能够访问您的演示并检查其正确性。

有关更新语音翻译功能以执行多语言语音翻译的提示,请参见语音到语音翻译部分。按照这些说明,您应该能够更新演示,从语言 X 的语音翻译成语言 Y 的文本,这只是任务的一半!

要从语言 Y 的文本合成语言 Y 的语音(其中 Y 是多语言),您需要使用多语言 TTS 检查点。为此,您可以使用在之前的动手练习中微调过的 SpeechT5 TTS 检查点,或预训练的多语言 TTS 检查点。预训练检查点有两种选择,一种是检查点sanchit-gandhi/speecht5_tts_vox_nl,这是一个在 VoxPopuli 数据集的荷兰语部分上微调过的 SpeechT5 检查点,另一种是 MMS TTS 检查点(请参阅TTS 预训练模型部分)。

根据我们对荷兰语的实验经验,使用 MMS TTS 检查点比微调的 SpeechT5 检查点效果更好,但您可能会发现您的微调 TTS 检查点在您的语言中更受欢迎。如果您决定使用 MMS TTS 检查点,您需要更新演示的requirements.txt文件以从 PR 分支安装 transformers

git+https://github.com/hollance/transformers.git@6900e8ba6532162a8613d2270ec2286c3f58f57b

您的演示应该以音频文件作为输入,并返回另一个音频文件作为输出,与模板演示中 speech_to_speech_translation 函数的签名相匹配。因此,我们建议您保持主函数 speech_to_speech_translation 不变,并根据需要仅更新 translatesynthesise 函数。

一旦您将您的演示作为 Gradio 演示构建到 Hugging Face Hub 上,您就可以提交它进行评估。前往 Space audio-course-u7-assessment 并在提示时提供您的演示的仓库 ID。此 Space 将通过向您的演示发送一个示例音频文件并检查返回的音频文件是否确实是非英语来检查您的演示是否已正确构建。如果您的演示工作正常,您将在整体 进度空间 中您的姓名旁边看到一个绿色对勾 ✅

< > 在 GitHub 上更新