使用 Gradio 构建演示

既然我们已经为迪维希语语音识别微调了 Whisper 模型，让我们继续构建一个 Gradio 演示，向社区展示它！

首先要做的是使用 pipeline() 类加载微调后的检查点 - 这与预训练模型部分非常相似。你可以将 model_id 更改为你在 Hugging Face Hub 上的微调模型的命名空间，或者更改为预训练的 Whisper 模型之一，以执行零样本语音识别

from transformers import pipeline

model_id = "sanchit-gandhi/whisper-small-dv"  # update with your model id
pipe = pipeline("automatic-speech-recognition", model=model_id)

其次，我们将定义一个函数，该函数接受音频输入的filepath 并将其传递到 pipeline 中。在此，pipeline 自动处理加载音频文件、将其重采样到正确的采样率以及使用模型运行推理。然后，我们可以简单地返回转录的文本作为函数的输出。为了确保我们的模型可以处理任意长度的音频输入，我们将启用分块，如预训练模型部分所述

def transcribe_speech(filepath):
    output = pipe(
        filepath,
        max_new_tokens=256,
        generate_kwargs={
            "task": "transcribe",
            "language": "sinhalese",
        },  # update with the language you've fine-tuned on
        chunk_length_s=30,
        batch_size=8,
    )
    return output["text"]

我们将使用 Gradio blocks 功能在我们的演示中启动两个选项卡：一个用于麦克风转录，另一个用于文件上传。

import gradio as gr

demo = gr.Blocks()

mic_transcribe = gr.Interface(
    fn=transcribe_speech,
    inputs=gr.Audio(sources="microphone", type="filepath"),
    outputs=gr.components.Textbox(),
)

file_transcribe = gr.Interface(
    fn=transcribe_speech,
    inputs=gr.Audio(sources="upload", type="filepath"),
    outputs=gr.components.Textbox(),
)

最后，我们使用刚刚定义的两个 blocks 启动 Gradio 演示

with demo:
    gr.TabbedInterface(
        [mic_transcribe, file_transcribe],
        ["Transcribe Microphone", "Transcribe Audio File"],
    )

demo.launch(debug=True)

这将启动一个类似于在 Hugging Face Space 上运行的 Gradio 演示

如果你希望将你的演示托管在 Hugging Face Hub 上，你可以使用此 Space 作为你的微调模型的模板。

点击链接以复制模板演示到你的帐户：https://huggingface.co/spaces/course-demos/whisper-small?duplicate=true

我们建议为你的 space 提供与你的微调模型类似的名称（例如 whisper-small-dv-demo），并将可见性设置为“Public”。

将 Space 复制到你的帐户后，点击“Files and versions” -> “app.py” -> “edit”。然后将模型标识符更改为你的微调模型（第 6 行）。滚动到页面底部，然后点击“Commit changes to main”。演示将重新启动，这次使用你的微调模型。你可以与你的朋友和家人分享此演示，以便他们可以使用你训练的模型！

查看我们的视频教程，以更好地了解如何复制 Space 👉️ YouTube 视频

我们期待在 Hub 上看到你的演示！

< > 在 GitHub 上更新

音频课程

使用 Gradio 构建演示