Tokenizers 文档
预分词器
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
预分词器
Python
Rust
Node
BertPreTokenizer
BertPreTokenizer
此预分词器在空格和标点符号上分割 token。每个标点符号的出现都将单独处理。
ByteLevel
ByteLevel 预分词器
此预分词器负责将给定字符串的所有字节替换为相应的表示形式,以及分割成单词。
CharDelimiterSplit
Digits
Metaspace
class tokenizers.pre_tokenizers.Metaspace
( replacement = '_' prepend_scheme = 'always' split = True )
参数
Metaspace 预分词器
此预分词器将所有空格替换为提供的替换字符。然后尝试在这些空格上分割。
PreTokenizer
所有预分词器的基类
此类不应直接实例化。相反,任何 PreTokenizer 的实现都会在实例化时返回此类的实例。
Punctuation
Sequence
Split
class tokenizers.pre_tokenizers.Split
( pattern behavior invert = False )
参数
- **pattern** (`str` 或 `Regex`) — 用于分割字符串的模式。通常是字符串或使用 tokenizers.Regex 构建的正则表达式。如果要使用正则表达式模式,则必须将其包装在 tokenizer.Regex 中,否则我们将其视为字符串模式。例如,`pattern=”|”` 表示您想在 `|` 上分割(例如,想象一个 csv 文件),而 `patter=tokenizer.Regex(“1|2”)` 表示您在 ‘1’ 或 ‘2’ 上分割。
- **behavior** (`SplitDelimiterBehavior`) — 分割时使用的行为。选项:“removed”、“isolated”、“merged_with_previous”、“merged_with_next”、“contiguous”
- **invert** (`bool`, *可选*, 默认为 `False`) — 是否反转模式。
Split 预分词器
这种通用的预分词器使用提供的模式并根据提供的行为进行拆分。可以通过使用反转标志来反转模式。
UnicodeScripts
此预分词器根据字符所属的不同语系进行拆分。它大致遵循 https://github.com/google/sentencepiece/blob/master/data/Scripts.txt 实际上,平假名和片假名与汉字融合,0x30FC 也被视为汉字。这模仿了 SentencePiece Unigram 的实现。