推理服务提供商文档
音频分类
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
音频分类
音频分类是为给定的音频分配标签或类别的任务。
示例应用
- 识别用户发出的命令
- 识别说话人
- 检测歌曲的流派
有关 audio-classification
任务的更多详细信息,请查看其专用页面!您将在其中找到示例和相关资料。
推荐模型
- speechbrain/google_speech_command_xvector: 一款易于使用的命令识别模型。
- ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition: 一款情感识别模型。
- facebook/mms-lid-126: 一款语言识别模型。
浏览所有可用模型,找到最适合您的模型此处。
使用 API
此任务没有可用的代码片段。
API 规范
请求
载荷 | ||
---|---|---|
inputs* | 字符串 | 输入音频数据,为 base64 编码的字符串。如果未提供 parameters ,您也可以将音频数据作为原始字节载荷提供。 |
parameters | 对象 | |
function_to_apply | 枚举 | 可能的值:sigmoid,softmax,none。 |
top_k | 整数 | 指定后,将输出限制为前 K 个最可能的类别。 |
一些选项可以通过将标头传递给 Inference API 进行配置。以下是可用的标头
标头 | ||
---|---|---|
authorization | 字符串 | 授权标头,格式为 'Bearer: hf_****' ,其中 hf_**** 是具有 Inference API 权限的个人用户访问令牌。您可以从您的设置页面生成一个。 |
x-use-cache | 布尔值,默认为 true | 推理 API 上有一个缓存层,以加速我们已经看到的请求。大多数模型都可以使用这些结果,因为它们是确定性的(意味着输出无论如何都是相同的)。但是,如果您使用非确定性模型,则可以设置此参数以阻止使用缓存机制,从而产生真正的全新查询。阅读有关缓存的更多信息此处。 |
x-wait-for-model | 布尔值,默认为 false | 如果模型尚未准备好,请等待它而不是接收 503 错误。它限制了完成推理所需的请求数量。建议仅在收到 503 错误后才将此标志设置为 true,因为它会将应用程序中的挂起限制在已知位置。阅读有关模型可用性的更多信息此处。 |
有关 Inference API 标头的更多信息,请查看参数指南。
响应
正文 | ||
---|---|---|
(数组) | 对象[] | 输出是对象数组。 |
label | 字符串 | 预测的类别标签。 |
score | 数字 | 相应的概率。 |