BertNormalizer
class tokenizers.normalizers.BertNormalizer
( clean_text = True handle_chinese_chars = True strip_accents = None lowercase = True )
参数
- clean_text (
bool
, 可选, 默认为 True
) — 是否清理文本,通过移除所有控制字符并将所有空白字符替换为经典空白字符。
- handle_chinese_chars (
bool
, 可选, 默认为 True
) — 是否处理中文,通过在中文单字前后添加空格。
- strip_accents (
bool
, 可选) — 是否去除所有 accents。如果此选项未指定(即 == None),那么它将由 lowercase 的值决定(与原始 Bert 一致)。
- lowercase (
bool
, 可选, 默认为 True
) — 是否转换为小写。
BertNormalizer
负责在将原始文本提供给 Bert 模型之前对其进行规范化。这包括清理文本、处理 accents、中文字符和转换为小写
Lowercase
class tokenizers.normalizers.Lowercase
(
)
小写规范化器
NFC
class tokenizers.normalizers.NFC
(
)
NFC Unicode 规范化器
NFD
class tokenizers.normalizers.NFD
(
)
NFD Unicode 规范化器
NFKC
class tokenizers.normalizers.NFKC
(
)
NFKC Unicode 规范化器
NFKD
class tokenizers.normalizers.NFKD
(
)
NFKD Unicode 规范化器
Nmt
class tokenizers.normalizers.Nmt
(
)
Nmt 规范化器
Normalizer
class tokenizers.normalizers.Normalizer
(
)
所有规范化器的基类
这个类不应该被直接实例化。相反,任何 Normalizer 的实现被实例化时都将返回这个类的一个实例。
normalize
( normalized )
参数
- normalized (
NormalizedString
) — 要应用此 Normalizer 的规范化字符串
原地规范化 NormalizedString
此方法允许修改 NormalizedString
以跟踪对齐信息。如果您只想查看原始字符串规范化的结果,可以使用 normalize_str()
normalize_str
( sequence ) → str
参数
- sequence (
str
) — 要规范化的字符串
规范化后的字符串
规范化给定的字符串
此方法提供了一种可视化 Normalizer 效果的方法,但它不跟踪对齐信息。如果您需要获取/转换偏移量,可以使用 normalize()
Precompiled
class tokenizers.normalizers.Precompiled
( precompiled_charsmap )
Precompiled 规范化器。请勿手动使用,它用于 SentencePiece 的兼容性。
Replace
class tokenizers.normalizers.Replace
( pattern content )
替换规范化器
Sequence
class tokenizers.normalizers.Sequence
(
)
参数
- normalizers (
List[Normalizer]
) — 要按顺序运行的 Normalizer 列表
允许将多个其他 Normalizer 连接成一个 Sequence。所有规范化器都按给定的顺序依次运行
Strip
class tokenizers.normalizers.Strip
( left = True right = True )
Strip 规范化器
StripAccents
class tokenizers.normalizers.StripAccents
(
)
StripAccents 规范化器