自动语音识别

自动语音识别（ASR），也称为语音转文本（STT），是将给定音频转录为文本的任务。

应用示例

转录播客
构建语音助手
为视频生成字幕

有关 `automatic-speech-recognition` 任务的更多详细信息，请查看其专用页面！您将找到示例和相关材料。

使用 API

语言

客户端

提供商

设置

import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="fal-ai",
    api_key=os.environ["HF_TOKEN"],
)

output = client.automatic_speech_recognition("sample1.flac", model="openai/whisper-large-v3")

API 规范

请求

标头
授权	字符串	身份验证头，格式为 `Bearer: hf_**`，其中 `hf_**` 是具有“推理提供商”权限的个人用户访问令牌。您可以从您的设置页面生成一个。

有效负载
inputs*	字符串	输入音频数据，采用 base64 编码字符串形式。如果未提供 `parameters`，您也可以将音频数据作为原始字节负载提供。
参数	对象
return_timestamps	布尔值	是否随生成的文本输出相应的时间戳
generation_parameters	对象
temperature	数字	用于调节下一个 token 概率的值。
top_k	整数	保留用于 top-k 过滤的最高概率词汇 token 数量。
top_p	数字	如果设置为小于 1 的浮点数，则只保留概率总和达到 top_p 或更高的最小概率最高令牌集用于生成。
typical_p	数字	局部典型性衡量预测下一个目标令牌的条件概率与在已生成部分文本的情况下预测下一个随机令牌的预期条件概率的相似程度。如果设置为小于 1 的浮点数，则保留概率总和达到 typical_p 或更高的最小局部典型令牌集用于生成。更多详情请参阅此论文。
epsilon_cutoff	数字	如果设置为严格介于 0 和 1 之间的浮点数，则只对条件概率大于 epsilon_cutoff 的令牌进行采样。在论文中，建议值范围为 3e-4 到 9e-4，具体取决于模型大小。更多详情请参阅截断采样作为语言模型平滑去噪。
eta_cutoff	数字	Eta 采样是局部典型采样和 epsilon 采样的混合。如果设置为严格介于 0 和 1 之间的浮点数，只有当令牌大于 eta_cutoff 或 sqrt(eta_cutoff) * exp(-entropy(softmax(next_token_logits))) 时才考虑该令牌。后者直观地说是预期的下一个令牌概率，按 sqrt(eta_cutoff) 缩放。在论文中，建议值范围为 3e-4 到 2e-3，具体取决于模型大小。更多详情请参阅截断采样作为语言模型平滑去噪。
max_length	整数	生成文本的最大长度（以令牌为单位），包括输入。
max_new_tokens	整数	要生成的最大令牌数。优先于 max_length。
min_length	整数	生成文本的最小长度（以令牌为单位），包括输入。
min_new_tokens	整数	要生成的最小令牌数。优先于 min_length。
do_sample	布尔值	生成新令牌时是否使用采样而不是贪婪解码。
early_stopping	枚举	可能的值：never、true、false。
num_beams	整数	用于束搜索的束数。
num_beam_groups	整数	将 num_beams 分成组的数量，以确保不同束组之间的多样性。更多详情请参阅此论文。
penalty_alpha	数字	该值平衡了对比搜索解码中的模型置信度和退化惩罚。
use_cache	布尔值	模型是否应使用过去的键/值注意力来加速解码

响应

正文
文本	字符串	识别出的文本。
chunks	对象数组	当启用 returnTimestamps 时，chunks 包含模型识别的音频块列表。
文本	字符串	模型识别出的文本块
时间戳	数字[]	与文本对应的开始和结束时间戳

< > 在 GitHub 上更新

推理服务提供商

自动语音识别

推荐模型

使用 API

API 规范

请求

响应