推理服务提供商文档

Token Classification

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

Token Classification

Token classification is a task in which a label is assigned to some tokens in a text. Some popular token classification subtasks are Named Entity Recognition (NER) and Part-of-Speech (PoS) tagging.

For more details about the token-classification task, check out its dedicated page! You will find examples and related materials.

推荐模型

浏览所有可用的模型,找到最适合您的模型 这里

使用 API

from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="hf-inference",
    api_key="hf_xxxxxxxxxxxxxxxxxxxxxxxx",
)

result = client.token_classification(
    inputs="My name is Sarah Jessica Parker but you can call me Jessica",
    model="dslim/bert-base-NER",
)

API 规范

请求

载荷
inputs* string 输入文本数据
parameters object
        ignore_labels string[] 要忽略的标签列表
        stride integer 拆分输入文本时,块之间重叠的 token 数量。
        aggregation_strategy string 以下选项之一
                 (#1) ’none’ 不聚合 token
                 (#2) ’simple’ 将具有相同标签的连续 token 分组到一个实体中。
                 (#3) ’first’ 类似于 “simple”,也保留了单词的完整性(使用单词中第一个 token 预测的标签)。
                 (#4) ’average’ 类似于 “simple”,也保留了单词的完整性(使用得分最高的标签,在单词的 token 上取平均)。
                 (#5) ’max’ 类似于 “simple”,也保留了单词的完整性(使用单词 token 中得分最高的标签)。

某些选项可以通过将 header 传递给 Inference API 来配置。以下是可用的 header

Headers
authorization string 形式为 'Bearer: hf_****' 的身份验证 header,其中 hf_**** 是具有 Inference API 权限的个人用户访问令牌。您可以从您的设置页面生成一个。
x-use-cache boolean,默认为 true Inference API 上有一个缓存层,用于加速我们已经看到的请求。大多数模型可以使用这些结果,因为它们是确定性的(意味着输出无论如何都是相同的)。但是,如果您使用非确定性模型,您可以设置此参数以防止使用缓存机制,从而产生真正的全新查询。阅读更多关于缓存的信息 这里
x-wait-for-model boolean,默认为 false 如果模型尚未准备就绪,请等待它,而不是收到 503 错误。它限制了完成推理所需的请求数量。建议仅在收到 503 错误后才将此标志设置为 true,因为它会将应用程序中的挂起限制在已知位置。阅读更多关于模型可用性的信息 这里

有关 Inference API header 的更多信息,请查看指南中的参数。

响应

主体
(array) object[] 输出是对象数组。
        entity_group string 一个或多个 token 组的预测标签
        entity string 单个 token 的预测标签
        score number 关联的得分/概率
        word string 对应的文本
        start integer 输入中此组开始的字符位置。
        end integer 输入中此组结束的字符位置。
< > GitHub 上更新