推理提供商文档

自动语音识别

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

自动语音识别

自动语音识别(ASR),也称为语音转文本(STT),是将给定音频转录为文本的任务。

应用示例

  • 转录播客
  • 构建语音助手
  • 为视频生成字幕

有关 `automatic-speech-recognition` 任务的更多详细信息,请查看其专用页面!您将找到示例和相关材料。

推荐模型

在此探索所有可用模型并找到最适合您的模型。

使用 API

import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="fal-ai",
    api_key=os.environ["HF_TOKEN"],
)

output = client.automatic_speech_recognition("sample1.flac", model="openai/whisper-large-v3")

API 规范

请求

标头
授权 字符串 身份验证头,格式为 `Bearer: hf_****`,其中 `hf_****` 是具有“推理提供商”权限的个人用户访问令牌。您可以从您的设置页面生成一个。
有效负载
inputs* 字符串 输入音频数据,采用 base64 编码字符串形式。如果未提供 `parameters`,您也可以将音频数据作为原始字节负载提供。
参数 对象
        return_timestamps 布尔值 是否随生成的文本输出相应的时间戳
        generation_parameters 对象
                temperature 数字 用于调节下一个 token 概率的值。
                top_k 整数 保留用于 top-k 过滤的最高概率词汇 token 数量。
                top_p 数字 如果设置为小于 1 的浮点数,则只保留概率总和达到 top_p 或更高的最小概率最高令牌集用于生成。
                typical_p 数字 局部典型性衡量预测下一个目标令牌的条件概率与在已生成部分文本的情况下预测下一个随机令牌的预期条件概率的相似程度。如果设置为小于 1 的浮点数,则保留概率总和达到 typical_p 或更高的最小局部典型令牌集用于生成。更多详情请参阅此论文
                epsilon_cutoff 数字 如果设置为严格介于 0 和 1 之间的浮点数,则只对条件概率大于 epsilon_cutoff 的令牌进行采样。在论文中,建议值范围为 3e-4 到 9e-4,具体取决于模型大小。更多详情请参阅截断采样作为语言模型平滑去噪
                eta_cutoff 数字 Eta 采样是局部典型采样和 epsilon 采样的混合。如果设置为严格介于 0 和 1 之间的浮点数,只有当令牌大于 eta_cutoff 或 sqrt(eta_cutoff) * exp(-entropy(softmax(next_token_logits))) 时才考虑该令牌。后者直观地说是预期的下一个令牌概率,按 sqrt(eta_cutoff) 缩放。在论文中,建议值范围为 3e-4 到 2e-3,具体取决于模型大小。更多详情请参阅截断采样作为语言模型平滑去噪
                max_length 整数 生成文本的最大长度(以令牌为单位),包括输入。
                max_new_tokens 整数 要生成的最大令牌数。优先于 max_length。
                min_length 整数 生成文本的最小长度(以令牌为单位),包括输入。
                min_new_tokens 整数 要生成的最小令牌数。优先于 min_length。
                do_sample 布尔值 生成新令牌时是否使用采样而不是贪婪解码。
                early_stopping 枚举 可能的值:never、true、false。
                num_beams 整数 用于束搜索的束数。
                num_beam_groups 整数 将 num_beams 分成组的数量,以确保不同束组之间的多样性。更多详情请参阅此论文
                penalty_alpha 数字 该值平衡了对比搜索解码中的模型置信度和退化惩罚。
                use_cache 布尔值 模型是否应使用过去的键/值注意力来加速解码

响应

正文
文本 字符串 识别出的文本。
chunks 对象数组 当启用 returnTimestamps 时,chunks 包含模型识别的音频块列表。
        文本 字符串 模型识别出的文本块
        时间戳 数字[] 与文本对应的开始和结束时间戳
< > 在 GitHub 上更新