令牌分类

令牌分类是将序列中的每个令牌进行分类的任务。这可以用于命名实体识别 (NER)、词性 (POS) 标记等。准备好格式正确的数据，然后只需点击几下，您的最先进模型就可以准备好在生产中使用。

数据格式

数据应采用以下 CSV 格式

tokens,tags
"['I', 'love', 'Paris']", "['O', 'O', 'B-LOC']"
"['I', 'live', 'in', 'New', 'York']", "['O', 'O', 'O', 'B-LOC', 'I-LOC']"
.
.
.

或者您也可以使用 JSONL 格式

{"tokens": ["I", "love", "Paris"], "tags": ["O", "O", "B-LOC"]}
{"tokens": ["I", "live", "in", "New", "York"], "tags": ["O", "O", "O", "B-LOC", "I-LOC"]}
.
.
.

如您所见，CSV 文件中有两列。一列是令牌，另一列是标签。这两列都是字符串化的列表！令牌列包含句子的令牌，标签列包含每个令牌的标签。

如果您的 CSV 文件很大，您可以将其分成多个 CSV 文件，并分别上传它们。请确保所有 CSV 文件中的列名相同。

使用 pandas 将 CSV 文件分成的其中一种方法如下所示

import pandas as pd

# Set the chunk size
chunk_size = 1000
i = 1

# Open the CSV file and read it in chunks
for chunk in pd.read_csv('example.csv', chunksize=chunk_size):
    # Save each chunk to a new file
    chunk.to_csv(f'chunk_{i}.csv', index=False)
    i += 1

列

您的 CSV/JSONL 数据集必须包含两列：tokens 和 tags。

< > 在 GitHub 上更新

AutoTrain

令牌分类

数据格式

列