预分词器
Python
Rust
Node
BertPreTokenizer
BertPreTokenizer
此预分词器在空格和标点符号上分割令牌。每个标点符号都会被单独处理。
ByteLevel
ByteLevel 预分词器
此预分词器负责用相应的表示替换给定字符串中的所有字节,以及将其分割成单词。
CharDelimiterSplit
Digits
Metaspace
Metaspace 预标记器
此预标记器将任何空格替换为提供的替换字符。然后尝试在这些空格上进行拆分。
PreTokenizer
所有预标记器的基类
不应直接实例化此类。相反,任何 PreTokenizer 的实现都将在实例化时返回此类的实例。
就地预标记 ~tokenizers.PyPreTokenizedString
此方法允许修改 PreTokenizedString
以跟踪预标记,并利用 PreTokenizedString
的功能。如果您只想查看原始字符串预标记的结果,可以使用 pre_tokenize_str()
预标记给定的字符串
此方法提供了一种可视化 PreTokenizer 效果的方式,但它不会跟踪对齐,也不会提供 PreTokenizedString
的所有功能。如果您需要其中的某些功能,可以使用 pre_tokenize()
Punctuation
序列
分割
分割预标记器
这个多功能的预标记器使用提供的模式和行为进行分割。可以通过使用反转标志来反转模式。
Unicode 脚本
这个预标记器根据属于不同语言族的字符进行分割。它大致遵循 https://github.com/google/sentencepiece/blob/master/data/Scripts.txt 实际上,平假名和片假名与汉字融合在一起,0x30FC 也是汉字。这模仿了 SentencePiece Unigram 的实现。