动手练习
在本单元中,我们将整合了课程前六个单元中涵盖的材料,以构建三个集成的音频应用程序。正如您所体验到的,通过使用您在本课程中获得的基础技能,构建更复杂的音频工具完全可以实现。
动手练习采用本单元中涵盖的应用程序之一,并对其进行了一些多语言调整 🌍 您的目标是使用本单元第一节中的 级联语音到语音翻译 Gradio 演示,将其更新为翻译到任何 **非英语** 语言。也就是说,该演示应该以语言 X 接受语音,并将其翻译为语言 Y 的语音,其中目标语言 Y 不是英语。您应该从 复制 您 Hugging Face 命名空间下的模板开始。不需要使用 GPU 加速器设备 - 免费的 CPU 层级可以正常工作 🤗 但是,您应该确保您的演示的可见性设置为 **公开**。这是必需的,以便我们可以访问您的演示,并因此可以检查其正确性。
在 语音到语音翻译 部分提供了有关更新语音翻译功能以执行多语言语音翻译的提示。通过遵循这些说明,您应该能够将演示更新为从语言 X 的语音翻译为语言 Y 的文本,这是任务的一半!
要将语言 Y 的文本合成到语言 Y 的语音,其中 Y 是多语言,您需要使用多语言 TTS 检查点。为此,您可以使用您在上一个动手练习中微调的 SpeechT5 TTS 检查点,或者使用预训练的多语言 TTS 检查点。预训练检查点有两个选项:检查点 sanchit-gandhi/speecht5_tts_vox_nl,它是针对 VoxPopuli 数据集的荷兰语部分微调的 SpeechT5 检查点,或者 MMS TTS 检查点(请参阅有关 TTS 预训练模型 的部分)。
transformers
git+https://github.com/hollance/transformers.git@6900e8ba6532162a8613d2270ec2286c3f58f57b
您的演示应该将音频文件作为输入,并将另一个音频文件作为输出,匹配模板演示中的 speech_to_speech_translation
函数的签名。因此,我们建议您保留主函数 speech_to_speech_translation
原样,仅根据需要更新 translate
和 synthesise
函数。
在 Hugging Face Hub 上将您的演示构建为 Gradio 演示后,您可以将其提交以进行评估。前往 Space audio-course-u7-assessment,并在提示时提供您的演示的存储库 ID。此 Space 将通过将示例音频文件发送到您的演示并检查返回的音频文件是否确实是非英语的来检查您的演示是否已正确构建。如果您的演示工作正常,您将在整体 进度空间 上的姓名旁边获得一个绿色的勾号 ✅