Tokenizers 文档

规范化器

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

规范化器

Python
Rust
Node

BertNormalizer

class tokenizers.normalizers.BertNormalizer

( clean_text = True handle_chinese_chars = True strip_accents = None lowercase = True )

参数

  • clean_text (bool, 可选, 默认为 True) — 是否清理文本,通过移除所有控制字符并将所有空白字符替换为经典空白字符。
  • handle_chinese_chars (bool, 可选, 默认为 True) — 是否处理中文,通过在中文单字前后添加空格。
  • strip_accents (bool, 可选) — 是否去除所有 accents。如果此选项未指定(即 == None),那么它将由 lowercase 的值决定(与原始 Bert 一致)。
  • lowercase (bool, 可选, 默认为 True) — 是否转换为小写。

BertNormalizer

负责在将原始文本提供给 Bert 模型之前对其进行规范化。这包括清理文本、处理 accents、中文字符和转换为小写

Lowercase

class tokenizers.normalizers.Lowercase

( )

小写规范化器

NFC

class tokenizers.normalizers.NFC

( )

NFC Unicode 规范化器

NFD

class tokenizers.normalizers.NFD

( )

NFD Unicode 规范化器

NFKC

class tokenizers.normalizers.NFKC

( )

NFKC Unicode 规范化器

NFKD

class tokenizers.normalizers.NFKD

( )

NFKD Unicode 规范化器

Nmt

class tokenizers.normalizers.Nmt

( )

Nmt 规范化器

Normalizer

class tokenizers.normalizers.Normalizer

( )

所有规范化器的基类

这个类不应该被直接实例化。相反,任何 Normalizer 的实现被实例化时都将返回这个类的一个实例。

normalize

( normalized )

参数

  • normalized (NormalizedString) — 要应用此 Normalizer 的规范化字符串

原地规范化 NormalizedString

此方法允许修改 NormalizedString 以跟踪对齐信息。如果您只想查看原始字符串规范化的结果,可以使用 normalize_str()

normalize_str

( sequence ) str

参数

  • sequence (str) — 要规范化的字符串

返回值

str

规范化后的字符串

规范化给定的字符串

此方法提供了一种可视化 Normalizer 效果的方法,但它不跟踪对齐信息。如果您需要获取/转换偏移量,可以使用 normalize()

Precompiled

class tokenizers.normalizers.Precompiled

( precompiled_charsmap )

Precompiled 规范化器。请勿手动使用,它用于 SentencePiece 的兼容性。

Replace

class tokenizers.normalizers.Replace

( pattern content )

替换规范化器

Sequence

class tokenizers.normalizers.Sequence

( )

参数

  • normalizers (List[Normalizer]) — 要按顺序运行的 Normalizer 列表

允许将多个其他 Normalizer 连接成一个 Sequence。所有规范化器都按给定的顺序依次运行

Strip

class tokenizers.normalizers.Strip

( left = True right = True )

Strip 规范化器

StripAccents

class tokenizers.normalizers.StripAccents

( )

StripAccents 规范化器