BertNormalizer
类 tokenizers.normalizers.BertNormalizer
( clean_text = True handle_chinese_chars = True strip_accents = None lowercase = True )
参数
- HTML_TAG_START clean_text (
bool
, 可选, 默认为 True
) — 是否清理文本,通过删除所有控制字符,并将所有空白替换为经典的一种。HTML_TAG_END
- HTML_TAG_START handle_chinese_chars (
bool
, 可选, 默认为 True
) — 是否处理中文字符,在其周围放置空格。HTML_TAG_END
- 删除重音符号(
bool
,可选) — 是否删除所有重音符号。如果没有指定此选项(即 == None),则将根据 lowercase 的值确定(如在原始 Bert 中)。
- 小写化(
bool
,可选,默认为 True
) — 是否小写化。
BertNormalizer
在将原始文本传给 Bert 模型之前对其进行规范化处理。这包括清理文本、处理重音符号、中文符号和小写化。
小写化
class tokenizers.normalizers.Lowercase
(
)
小写化规范化器
NFC
class tokenizers.normalizers.NFC
(
)
NFC Unicode 标准化器
NFD
类 tokenizers.normalizers.NFD
(
)
NFD Unicode 正规化器
NFKC
类 tokenizers.normalizers.NFKC
(
)
NFKC Unicode 正规化器
NFKD
类 tokenizers.normalizers.NFKD
(
)
NFKD Unicode 正规化器
Nmt
类 tokenizers.normalizers.Nmt
(
)
Nmt 正规化器
Normalizer
类 tokenizers.normalizers.Normalizer
(
)
所有规范器的基类
此类不应直接实例化。相反,任何 Normalizer 的实现将在此类实例化后返回该类的实例。
normalize
( normalized )
参数
- normalized (
NormalizedString
) - 要应用此 Normalizer 的规范化字符串
原地规范化一个 NormalizedString
此方法允许修改一个 NormalizedString
以保持对对齐信息的跟踪。如果您只想查看原始字符串上规范化的结果,则可以使用 normalize_str()
normalize_str
( sequence ) → str
参数
- sequence (
str
) - 要规范化的字符串
规范化后的字符串
规范化给定的字符串
此方法提供了一种可视化的方式来查看 标准化器 的影响,但它不跟踪对齐信息。如果您需要获取/转换偏移量,可以使用 normalize()
。
预编译
类 tokenizers.normalizers.Precompiled
( precompiled_charsmap )
预编译标准化器。不要手动使用,它是为了与 SentencePiece 的兼容性而使用的。
替换
类 tokenizers.normalizers.Replace
( pattern content )
替换标准化器
序列
类 tokenizers.normalizers.Sequence
(
)
参数
- normalizers (
List[Normalizer]
) — 一个作为序列运行的 Normalizer 列表
允许将多个其他 Normalizer 作为序列连接起来。所有 normalizers 将按给定顺序依次运行
Strip
class tokenizers.normalizers.Strip
( left = True right = True )
Strip normalizer
StripAccents
class tokenizers.normalizers.StripAccents
(
)
StripAccents normalizer