Tokenizers 文档

标准化器

Hugging Face's logo
加入Hugging Face社区

并获得增强型文档体验

开始使用

标准化器

Python
Rust
Node

BertNormalizer

tokenizers.normalizers.BertNormalizer

( clean_text = True handle_chinese_chars = True strip_accents = None lowercase = True )

参数

  • HTML_TAG_START clean_text (bool, 可选, 默认为 True) — 是否清理文本,通过删除所有控制字符,并将所有空白替换为经典的一种。HTML_TAG_END
  • HTML_TAG_START handle_chinese_chars (bool, 可选, 默认为 True) — 是否处理中文字符,在其周围放置空格。HTML_TAG_END
  • 删除重音符号(bool,可选) — 是否删除所有重音符号。如果没有指定此选项(即 == None),则将根据 lowercase 的值确定(如在原始 Bert 中)。
  • 小写化(bool,可选,默认为 True) — 是否小写化。

BertNormalizer

在将原始文本传给 Bert 模型之前对其进行规范化处理。这包括清理文本、处理重音符号、中文符号和小写化。

小写化

class tokenizers.normalizers.Lowercase

( )

小写化规范化器

NFC

class tokenizers.normalizers.NFC

( )

NFC Unicode 标准化器

NFD

tokenizers.normalizers.NFD

( )

NFD Unicode 正规化器

NFKC

tokenizers.normalizers.NFKC

( )

NFKC Unicode 正规化器

NFKD

tokenizers.normalizers.NFKD

( )

NFKD Unicode 正规化器

Nmt

tokenizers.normalizers.Nmt

( )

Nmt 正规化器

Normalizer

tokenizers.normalizers.Normalizer

( )

所有规范器的基类

此类不应直接实例化。相反,任何 Normalizer 的实现将在此类实例化后返回该类的实例。

normalize

( normalized )

参数

  • normalized (NormalizedString) - 要应用此 Normalizer 的规范化字符串

原地规范化一个 NormalizedString

此方法允许修改一个 NormalizedString 以保持对对齐信息的跟踪。如果您只想查看原始字符串上规范化的结果,则可以使用 normalize_str()

normalize_str

( sequence ) str

参数

  • sequence (str) - 要规范化的字符串

返回

字符串 (str)

规范化后的字符串

规范化给定的字符串

此方法提供了一种可视化的方式来查看 标准化器 的影响,但它不跟踪对齐信息。如果您需要获取/转换偏移量,可以使用 normalize()

预编译

tokenizers.normalizers.Precompiled

( precompiled_charsmap )

预编译标准化器。不要手动使用,它是为了与 SentencePiece 的兼容性而使用的。

替换

tokenizers.normalizers.Replace

( pattern content )

替换标准化器

序列

tokenizers.normalizers.Sequence

( )

参数

  • normalizers (List[Normalizer]) — 一个作为序列运行的 Normalizer 列表

允许将多个其他 Normalizer 作为序列连接起来。所有 normalizers 将按给定顺序依次运行

Strip

class tokenizers.normalizers.Strip

( left = True right = True )

Strip normalizer

StripAccents

class tokenizers.normalizers.StripAccents

( )

StripAccents normalizer