AutoTrain 文档

令牌分类

您正在查看 版本,需要从源代码安装. 如果您想要使用常规的 pip 安装,请查看最新的稳定版本(v0.8.8)。
Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始

令牌分类

令牌分类是将序列中的每个令牌进行分类的任务。这可以用于命名实体识别 (NER)、词性 (POS) 标记等。准备好格式正确的数据,然后只需点击几下,您的最先进模型就可以准备好在生产中使用。

数据格式

数据应采用以下 CSV 格式

tokens,tags
"['I', 'love', 'Paris']", "['O', 'O', 'B-LOC']"
"['I', 'live', 'in', 'New', 'York']", "['O', 'O', 'O', 'B-LOC', 'I-LOC']"
.
.
.

或者您也可以使用 JSONL 格式

{"tokens": ["I", "love", "Paris"], "tags": ["O", "O", "B-LOC"]}
{"tokens": ["I", "live", "in", "New", "York"], "tags": ["O", "O", "O", "B-LOC", "I-LOC"]}
.
.
.

如您所见,CSV 文件中有两列。一列是令牌,另一列是标签。这两列都是字符串化的列表!令牌列包含句子的令牌,标签列包含每个令牌的标签。

如果您的 CSV 文件很大,您可以将其分成多个 CSV 文件,并分别上传它们。请确保所有 CSV 文件中的列名相同。

使用 pandas 将 CSV 文件分成的其中一种方法如下所示

import pandas as pd

# Set the chunk size
chunk_size = 1000
i = 1

# Open the CSV file and read it in chunks
for chunk in pd.read_csv('example.csv', chunksize=chunk_size):
    # Save each chunk to a new file
    chunk.to_csv(f'chunk_{i}.csv', index=False)
    i += 1

您的 CSV/JSONL 数据集必须包含两列:tokenstags

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.