音频课程文档

动手练习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始入门

动手练习

在本单元中,我们巩固了本课程前六个单元涵盖的材料,以构建三个集成的音频应用程序。正如您所体验到的,通过使用您在本课程中获得的基石技能,构建更复杂的音频工具完全可以实现。

这个动手练习采用了本单元中涵盖的应用程序之一,并用一些多语言调整 🌍 对其进行了扩展。您的目标是采用本单元第一节中的 级联语音到语音翻译 Gradio 演示,并更新它以翻译成任何非英语语言。也就是说,该演示应该接收语言 X 的语音,并将其翻译成语言 Y 的语音,其中目标语言 Y 不是英语。您应该首先复制 Hugging Face 命名空间下的模板。不强制要求使用 GPU 加速器设备 - 免费 CPU 层也可以正常工作 🤗 但是,您应确保将演示的可见性设置为公开。这是必需的,这样我们的工作人员才能访问您的演示并检查其正确性。

关于更新语音翻译功能以执行多语言语音翻译的提示在关于语音到语音翻译的部分中提供。通过遵循这些说明,您应该能够更新演示,将语言 X 的语音翻译成语言 Y 的文本,这只是任务的一半!

要将语言 Y 的文本合成到语言 Y 的语音,其中 Y 是一种多语言,您将需要使用多语言 TTS 检查点。为此,您可以选择使用您在上一个动手练习中微调的 SpeechT5 TTS 检查点,或者使用预训练的多语言 TTS 检查点。预训练检查点有两种选择,即 sanchit-gandhi/speecht5_tts_vox_nl 检查点,它是 SpeechT5 检查点,在 VoxPopuli 数据集的荷兰语拆分上进行了微调,或者 MMS TTS 检查点(请参阅关于 TTS 预训练模型的部分)。

根据我们使用荷兰语进行实验的经验,使用 MMS TTS 检查点比微调的 SpeechT5 检查点效果更好,但您可能会发现您微调的 TTS 检查点在您的语言中更可取。如果您决定使用 MMS TTS 检查点,则需要更新演示的 requirements.txt 文件以从 PR 分支安装 transformers

git+https://github.com/hollance/transformers.git@6900e8ba6532162a8613d2270ec2286c3f58f57b

您的演示应将音频文件作为输入,并返回另一个音频文件作为输出,与模板演示中的 speech_to_speech_translation 函数的签名匹配。因此,我们建议您保持主函数 speech_to_speech_translation 不变,仅根据需要更新 translatesynthesise 函数。

在 Hugging Face Hub 上将演示构建为 Gradio 演示后,您可以提交它进行评估。前往 Space audio-course-u7-assessment 并在提示时提供演示的存储库 ID。此 Space 将通过向您的演示发送示例音频文件并检查返回的音频文件是否确实为非英语来检查您的演示是否已正确构建。如果您的演示工作正常,您将在总体的进度 Space ✅ 旁边看到一个绿色勾号

< > 在 GitHub 上更新