令牌分类
令牌分类是一项任务,其中将标签分配给文本中的一些令牌。一些流行的令牌分类子任务是命名实体识别 (NER) 和词性 (PoS) 标记。
有关 token-classification
任务的更多详细信息,请查看其 专用页面!您将找到示例和相关材料。
推荐的模型
- dslim/bert-base-NER: 一个强大的性能模型,用于识别人员、位置、组织和各种实体的名称。
- FacebookAI/xlm-roberta-large-finetuned-conll03-english: 一个强大的模型,用于识别多种语言中的人员、位置、组织和名称。
- blaze999/Medical-NER: 专注于医疗实体识别的令牌分类模型。
- flair/ner-english: Flair 模型通常是命名实体识别任务中最新技术。
探索所有可用的模型,并找到最适合您的模型 这里.
使用 API
Python
JavaScript
cURL
import requests
API_URL = "https://api-inference.huggingface.co/models/dslim/bert-base-NER"
headers = {"Authorization": "Bearer hf_***"}
def query(payload):
response = requests.post(API_URL, headers=headers, json=payload)
return response.json()
output = query({
"inputs": "My name is Sarah Jessica Parker but you can call me Jessica",
})
要使用 Python 客户端,请参阅 huggingface_hub
的 软件包参考.
API 规范
请求
有效负载 | ||
---|---|---|
inputs* | 字符串 | 输入文本数据 |
参数 | 对象 | 令牌分类的额外推理参数 |
ignore_labels | 字符串[] | 要忽略的标签列表 |
stride | 整数 | 在将输入文本拆分为块时,块之间重叠的令牌数。 |
aggregation_strategy | 字符串 | 以下之一 |
(#1) | ’none’ | 不要聚合令牌 |
(#2) | ’simple’ | 将具有相同标签的连续令牌分组到一个实体中。 |
(#3) | ’first’ | 与“simple”类似,也保留了单词完整性(使用预测的单词第一个令牌的标签)。 |
(#4) | ’average’ | 与“simple”类似,也保留了单词完整性(使用在单词的令牌中平均后的最高分数的标签)。 |
(#5) | ’max’ | 与“simple”类似,也保留了单词完整性(使用在单词的令牌中得分最高的标签)。 |
一些选项可以通过向 Inference API 传递头部信息来配置。以下是可用的头部信息
头部信息 | ||
---|---|---|
authorization | 字符串 | 身份验证头部信息,格式为 'Bearer: hf_****' ,其中 hf_**** 是一个具有 Inference API 权限的个人用户访问令牌。您可以在 您的设置页面 中生成一个。 |
x-use-cache | 布尔值,默认为 true | Inference API 上有一个缓存层,用于加速我们已经见过的请求。大多数模型可以使用这些结果,因为它们是确定性的(意味着输出将始终相同)。但是,如果您使用的是非确定性模型,您可以将此参数设置为 false 以防止使用缓存机制,从而导致一个真正的新的查询。了解更多关于缓存的信息,请访问 这里。 |
x-wait-for-model | 布尔值,默认为 false | 如果模型尚未准备就绪,请等待它,而不是收到 503 错误。它限制了完成推理所需的请求数量。建议您只在收到 503 错误后将此标志设置为 true ,因为它会将应用程序中挂起操作限制在已知位置。了解更多关于模型可用性的信息,请访问 这里。 |
有关 Inference API 头部信息的更多信息,请查看 参数指南。
响应
输出类型取决于 stream
输入参数。如果 stream
为 false
(默认值),则响应将是一个包含以下字段的 JSON 对象
主体 | ||
---|---|---|
(数组) | object[] | 输出是一个对象数组。 |
entity_group | 字符串 | 该组标记的预测标签 |
score | 数字 | 关联的分数 / 概率 |
word | 字符串 | 对应的文本 |
start | 整数 | 该组在输入中开始的字符位置。 |
end | 整数 | 该组在输入中结束的字符位置。 |
如果 stream
为 true
,则生成的标记将作为流返回,使用服务器发送事件 (SSE)。有关流式传输的更多信息,请查看 本指南。