推理服务提供商文档
Token Classification
加入 Hugging Face 社区
并获取增强的文档体验
开始使用
Token Classification
Token classification is a task in which a label is assigned to some tokens in a text. Some popular token classification subtasks are Named Entity Recognition (NER) and Part-of-Speech (PoS) tagging.
For more details about the token-classification
task, check out its dedicated page! You will find examples and related materials.
推荐模型
- dslim/bert-base-NER: 一个强大的性能模型,用于识别人物、地点、组织和各种实体的名称。
- FacebookAI/xlm-roberta-large-finetuned-conll03-english: 一个强大的模型,用于识别多种语言中的人物、地点、组织和名称。
- blaze999/Medical-NER: 一个专门用于医学实体识别的 token classification 模型。
- flair/ner-english: Flair 模型通常是命名实体识别任务中最先进的模型。
浏览所有可用的模型,找到最适合您的模型 这里。
使用 API
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="hf-inference",
api_key="hf_xxxxxxxxxxxxxxxxxxxxxxxx",
)
result = client.token_classification(
inputs="My name is Sarah Jessica Parker but you can call me Jessica",
model="dslim/bert-base-NER",
)
API 规范
请求
载荷 | ||
---|---|---|
inputs* | string | 输入文本数据 |
parameters | object | |
ignore_labels | string[] | 要忽略的标签列表 |
stride | integer | 拆分输入文本时,块之间重叠的 token 数量。 |
aggregation_strategy | string | 以下选项之一 |
(#1) | ’none’ | 不聚合 token |
(#2) | ’simple’ | 将具有相同标签的连续 token 分组到一个实体中。 |
(#3) | ’first’ | 类似于 “simple”,也保留了单词的完整性(使用单词中第一个 token 预测的标签)。 |
(#4) | ’average’ | 类似于 “simple”,也保留了单词的完整性(使用得分最高的标签,在单词的 token 上取平均)。 |
(#5) | ’max’ | 类似于 “simple”,也保留了单词的完整性(使用单词 token 中得分最高的标签)。 |
某些选项可以通过将 header 传递给 Inference API 来配置。以下是可用的 header
Headers | ||
---|---|---|
authorization | string | 形式为 'Bearer: hf_****' 的身份验证 header,其中 hf_**** 是具有 Inference API 权限的个人用户访问令牌。您可以从您的设置页面生成一个。 |
x-use-cache | boolean,默认为 true | Inference API 上有一个缓存层,用于加速我们已经看到的请求。大多数模型可以使用这些结果,因为它们是确定性的(意味着输出无论如何都是相同的)。但是,如果您使用非确定性模型,您可以设置此参数以防止使用缓存机制,从而产生真正的全新查询。阅读更多关于缓存的信息 这里。 |
x-wait-for-model | boolean,默认为 false | 如果模型尚未准备就绪,请等待它,而不是收到 503 错误。它限制了完成推理所需的请求数量。建议仅在收到 503 错误后才将此标志设置为 true,因为它会将应用程序中的挂起限制在已知位置。阅读更多关于模型可用性的信息 这里。 |
有关 Inference API header 的更多信息,请查看指南中的参数。
响应
主体 | ||
---|---|---|
(array) | object[] | 输出是对象数组。 |
entity_group | string | 一个或多个 token 组的预测标签 |
entity | string | 单个 token 的预测标签 |
score | number | 关联的得分/概率 |
word | string | 对应的文本 |
start | integer | 输入中此组开始的字符位置。 |
end | integer | 输入中此组结束的字符位置。 |