归一化器

Python

Rust

Node

BertNormalizer

class tokenizers.normalizers.BertNormalizer

( clean_text = True handle_chinese_chars = True strip_accents = None lowercase = True )

参数

clean_text (bool, optional, 默认为 True) — 是否清理文本，通过移除任何控制字符并将所有空白符替换为标准空格。
handle_chinese_chars (bool, optional, 默认为 True) — 是否处理中文字符，在它们周围添加空格。
strip_accents (bool, optional) — 是否去除所有重音符号。如果未指定此选项（即 == None），则将由 lowercase 的值决定（与原始 Bert 一致）。
lowercase (bool, optional, 默认为 True) — 是否转换为小写。

BertNormalizer

负责在将原始文本提供给 Bert 模型之前对其进行归一化。这包括清理文本、处理重音、中文字符和转换为小写。

Lowercase

class tokenizers.normalizers.Lowercase

( )

小写转换归一化器

NFC

class tokenizers.normalizers.NFC

( )

NFC Unicode 归一化器

NFD

class tokenizers.normalizers.NFD

( )

NFD Unicode 归一化器

NFKC

class tokenizers.normalizers.NFKC

( )

NFKC Unicode 归一化器

NFKD

class tokenizers.normalizers.NFKD

( )

NFKD Unicode 归一化器

Nmt

class tokenizers.normalizers.Nmt

( )

Nmt 归一化器

Normalizer

class tokenizers.normalizers.Normalizer

( )

所有归一化器的基类

这个类不应该被直接实例化。相反，任何 Normalizer 的实现都会在实例化时返回这个类的实例。

归一化

( normalized )

参数

normalized (NormalizedString) — 要应用此 Normalizer 的归一化字符串

就地归一化一个 NormalizedString

此方法允许修改 NormalizedString 以跟踪对齐信息。如果你只想查看对原始字符串进行归一化的结果，可以使用 normalize_str()

normalize_str

( sequence ) → str

参数

sequence (str) — 要归一化的字符串

字符串

归一化后的字符串

归一化给定的字符串

此方法提供了一种可视化 Normalizer 效果的方式，但它不跟踪对齐信息。如果需要获取/转换偏移量，可以使用 normalize()

Precompiled

class tokenizers.normalizers.Precompiled

( precompiled_charsmap )

预编译归一化器。请勿手动使用，它用于与 SentencePiece 的兼容性。

Replace

class tokenizers.normalizers.Replace

( pattern content )

替换归一化器

Sequence

class tokenizers.normalizers.Sequence

( )

参数

normalizers (List[Normalizer]) — 要按顺序运行的 Normalizer 列表

允许将多个其他 Normalizer 作为序列连接起来。所有归一化器按给定顺序依次运行

Strip

class tokenizers.normalizers.Strip

( left = True right = True )

Strip 归一化器

StripAccents

class tokenizers.normalizers.StripAccents

( )

StripAccents 归一化器

< > 在 GitHub 上更新

分词器

归一化器

BertNormalizer

class tokenizers.normalizers.BertNormalizer

Lowercase

class tokenizers.normalizers.Lowercase

NFC

class tokenizers.normalizers.NFC

NFD

class tokenizers.normalizers.NFD

NFKC

class tokenizers.normalizers.NFKC

NFKD

class tokenizers.normalizers.NFKD

Nmt

class tokenizers.normalizers.Nmt

Normalizer

class tokenizers.normalizers.Normalizer

归一化

normalize_str

Precompiled

class tokenizers.normalizers.Precompiled

Replace

class tokenizers.normalizers.Replace

Sequence

class tokenizers.normalizers.Sequence

Strip

class tokenizers.normalizers.Strip

StripAccents

class tokenizers.normalizers.StripAccents