推理提供商文档
自动语音识别
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
自动语音识别
自动语音识别(ASR),也称为语音转文本(STT),是将给定音频转录为文本的任务。
应用示例
- 转录播客
- 构建语音助手
- 为视频生成字幕
有关 `automatic-speech-recognition` 任务的更多详细信息,请查看其专用页面!您将找到示例和相关材料。
推荐模型
- openai/whisper-large-v3:OpenAI 强大的 ASR 模型。
在此处探索所有可用模型并找到最适合您的模型。
使用 API
语言
客户端
提供商
import os
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="fal-ai",
api_key=os.environ["HF_TOKEN"],
)
output = client.automatic_speech_recognition("sample1.flac", model="openai/whisper-large-v3")
API 规范
请求
标头 | ||
---|---|---|
授权 | 字符串 | 身份验证头,格式为 `Bearer: hf_****`,其中 `hf_****` 是具有“推理提供商”权限的个人用户访问令牌。您可以从您的设置页面生成一个。 |
有效负载 | ||
---|---|---|
inputs* | 字符串 | 输入音频数据,采用 base64 编码字符串形式。如果未提供 `parameters`,您也可以将音频数据作为原始字节负载提供。 |
参数 | 对象 | |
return_timestamps | 布尔值 | 是否随生成的文本输出相应的时间戳 |
generation_parameters | 对象 | |
temperature | 数字 | 用于调节下一个 token 概率的值。 |
top_k | 整数 | 保留用于 top-k 过滤的最高概率词汇 token 数量。 |
top_p | 数字 | 如果设置为小于 1 的浮点数,则只保留概率总和达到 top_p 或更高的最小概率最高令牌集用于生成。 |
typical_p | 数字 | 局部典型性衡量预测下一个目标令牌的条件概率与在已生成部分文本的情况下预测下一个随机令牌的预期条件概率的相似程度。如果设置为小于 1 的浮点数,则保留概率总和达到 typical_p 或更高的最小局部典型令牌集用于生成。更多详情请参阅此论文。 |
epsilon_cutoff | 数字 | 如果设置为严格介于 0 和 1 之间的浮点数,则只对条件概率大于 epsilon_cutoff 的令牌进行采样。在论文中,建议值范围为 3e-4 到 9e-4,具体取决于模型大小。更多详情请参阅截断采样作为语言模型平滑去噪。 |
eta_cutoff | 数字 | Eta 采样是局部典型采样和 epsilon 采样的混合。如果设置为严格介于 0 和 1 之间的浮点数,只有当令牌大于 eta_cutoff 或 sqrt(eta_cutoff) * exp(-entropy(softmax(next_token_logits))) 时才考虑该令牌。后者直观地说是预期的下一个令牌概率,按 sqrt(eta_cutoff) 缩放。在论文中,建议值范围为 3e-4 到 2e-3,具体取决于模型大小。更多详情请参阅截断采样作为语言模型平滑去噪。 |
max_length | 整数 | 生成文本的最大长度(以令牌为单位),包括输入。 |
max_new_tokens | 整数 | 要生成的最大令牌数。优先于 max_length。 |
min_length | 整数 | 生成文本的最小长度(以令牌为单位),包括输入。 |
min_new_tokens | 整数 | 要生成的最小令牌数。优先于 min_length。 |
do_sample | 布尔值 | 生成新令牌时是否使用采样而不是贪婪解码。 |
early_stopping | 枚举 | 可能的值:never、true、false。 |
num_beams | 整数 | 用于束搜索的束数。 |
num_beam_groups | 整数 | 将 num_beams 分成组的数量,以确保不同束组之间的多样性。更多详情请参阅此论文。 |
penalty_alpha | 数字 | 该值平衡了对比搜索解码中的模型置信度和退化惩罚。 |
use_cache | 布尔值 | 模型是否应使用过去的键/值注意力来加速解码 |
响应
正文 | ||
---|---|---|
文本 | 字符串 | 识别出的文本。 |
chunks | 对象数组 | 当启用 returnTimestamps 时,chunks 包含模型识别的音频块列表。 |
文本 | 字符串 | 模型识别出的文本块 |
时间戳 | 数字[] | 与文本对应的开始和结束时间戳 |