分词器文档
预分词器
并获得增强的文档体验
开始使用
预分词器
BertPreTokenizer
BertPreTokenizer
该预分词器按空格和标点符号对词符进行切分。每个标点符号的出现都将被单独处理。
ByteLevel
ByteLevel 预分词器
此预分词器负责将给定字符串的所有字节替换为相应的表示形式,并将其切分为单词。
CharDelimiterSplit
Digits
Metaspace
class tokenizers.pre_tokenizers.Metaspace
( replacement = '_' prepend_scheme = 'always' split = True )
Metaspace 预分词器
此预分词器将任何空白字符替换为提供的替换字符。然后,它会尝试按这些空格进行切分。
PreTokenizer
所有预分词器的基类
此类不应直接实例化。相反,任何预分词器的实现在实例化时都会返回此类的实例。
对 ~tokenizers.PyPreTokenizedString
进行原地预分词
此方法允许修改 PreTokenizedString
以跟踪预分词过程,并利用 PreTokenizedString
的功能。如果您只想查看原始字符串的预分词结果,可以使用 pre_tokenize_str()
。
对给定字符串进行预分词
此方法提供了一种可视化 PreTokenizer 效果的方式,但它不跟踪对齐信息,也不提供 PreTokenizedString
的所有功能。如果您需要这些功能,可以使用 pre_tokenize()
。
Punctuation
Sequence
Split
class tokenizers.pre_tokenizers.Split
( pattern behavior invert = False )
参数
- pattern (
str
orRegex
) — 用于切分字符串的模式。通常是字符串或使用 tokenizers.Regex 构建的正则表达式。如果要使用正则表达式模式,必须用 tokenizer.Regex 包装,否则我们将其视为字符串模式。例如,pattern=”|” 表示您想按 | 切分(例如,想象一个 csv 文件),而 patter=tokenizer.Regex(“1|2”) 表示您按“1”或“2”切分。 - behavior (
SplitDelimiterBehavior
) — 切分时使用的行为。选项:“removed”、“isolated”、“merged_with_previous”、“merged_with_next”、“contiguous” - invert (
bool
, 可选, 默认为False
) — 是否反转模式。
Split 预分词器
这个多功能的预分词器使用提供的模式并根据提供的行为进行切分。可以通过使用 invert 标志来反转模式。
UnicodeScripts
此预分词器根据属于不同语系的字符进行切分,大致遵循 https://github.com/google/sentencepiece/blob/master/data/Scripts.txt。实际上,平假名和片假名与汉字合并,0x30FC 也被视为汉字。这模仿了 SentencePiece Unigram 的实现。