音频分类
音频分类是将标签或类别分配给给定音频的任务。
示例应用程序
- 识别用户正在发出的命令
- 识别说话者
- 检测歌曲的流派
有关 audio-classification
任务的更多详细信息,请查看其 专用页面! 您将找到示例和相关资料。
推荐的模型
探索所有可用的模型,找到最适合您的模型 这里。
使用 API
Python
JavaScript
cURL
import requests
API_URL = "https://api-inference.huggingface.co/models/ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition"
headers = {"Authorization": "Bearer hf_***"}
def query(filename):
with open(filename, "rb") as f:
data = f.read()
response = requests.post(API_URL, headers=headers, data=data)
return response.json()
output = query("sample1.flac")
要使用 Python 客户端,请参见 huggingface_hub
的 软件包参考。
API 规范
请求
有效负载 | ||
---|---|---|
输入* | 字符串 | 输入音频数据,以 Base64 编码的字符串形式。如果未提供 parameters ,您也可以以原始字节有效负载的形式提供音频数据。 |
参数 | 对象 | 音频分类的额外推理参数 |
要应用的函数 | 枚举 | 可能的值:sigmoid、softmax、none。 |
top_k | 整数 | 指定时,将输出限制为概率最高的 K 个类别。 |
某些选项可以通过将标头传递给推理 API 来配置。以下是可用的标头
标头 | ||
---|---|---|
授权 | 字符串 | 身份验证标头,形式为 'Bearer: hf_****' ,其中 hf_**** 是具有推理 API 权限的个人用户访问令牌。您可以在 您的设置页面 生成一个。 |
x-use-cache | 布尔值,默认为 true | 推理 API 上有一个缓存层,可以加快我们已经见过的请求。大多数模型可以使用这些结果,因为它们是确定性的(这意味着输出无论如何都会相同)。但是,如果您使用非确定性模型,则可以将此参数设置为阻止使用缓存机制,从而导致真正的全新查询。阅读有关缓存的更多信息 这里。 |
x-wait-for-model | 布尔值,默认为 false | 如果模型未准备好,请等待模型,而不是接收 503。这将限制完成推理所需的请求数量。建议仅在收到 503 错误后才将此标志设置为 true,因为它将限制应用程序中挂起的位置。阅读有关模型可用性的更多信息 这里。 |
有关推理 API 标头的更多信息,请查看参数 指南。
响应
主体 | ||
---|---|---|
(数组) | object[] | 输出是一个对象数组。 |
标签 | 字符串 | 预测的类别标签。 |
分数 | 数字 | 相应的概率。 |