推理服务提供商文档

音频分类

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

音频分类

音频分类是为给定的音频分配标签或类别的任务。

示例应用

  • 识别用户发出的命令
  • 识别说话人
  • 检测歌曲的流派

有关 audio-classification 任务的更多详细信息,请查看其专用页面!您将在其中找到示例和相关资料。

推荐模型

浏览所有可用模型,找到最适合您的模型此处

使用 API

此任务没有可用的代码片段。

API 规范

请求

载荷
inputs* 字符串 输入音频数据,为 base64 编码的字符串。如果未提供 parameters,您也可以将音频数据作为原始字节载荷提供。
parameters 对象
        function_to_apply 枚举 可能的值:sigmoid,softmax,none。
        top_k 整数 指定后,将输出限制为前 K 个最可能的类别。

一些选项可以通过将标头传递给 Inference API 进行配置。以下是可用的标头

标头
authorization 字符串 授权标头,格式为 'Bearer: hf_****',其中 hf_**** 是具有 Inference API 权限的个人用户访问令牌。您可以从您的设置页面生成一个。
x-use-cache 布尔值,默认为 true 推理 API 上有一个缓存层,以加速我们已经看到的请求。大多数模型都可以使用这些结果,因为它们是确定性的(意味着输出无论如何都是相同的)。但是,如果您使用非确定性模型,则可以设置此参数以阻止使用缓存机制,从而产生真正的全新查询。阅读有关缓存的更多信息此处
x-wait-for-model 布尔值,默认为 false 如果模型尚未准备好,请等待它而不是接收 503 错误。它限制了完成推理所需的请求数量。建议仅在收到 503 错误后才将此标志设置为 true,因为它会将应用程序中的挂起限制在已知位置。阅读有关模型可用性的更多信息此处

有关 Inference API 标头的更多信息,请查看参数指南

响应

正文
(数组) 对象[] 输出是对象数组。
        label 字符串 预测的类别标签。
        score 数字 相应的概率。
< > 在 GitHub 上更新