Transformers.js 文档

分词器

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

分词器

分词器用于准备模型的文本输入。

示例: 创建一个 AutoTokenizer 并使用它来分词一个句子。这将根据 tokenizer.json 中定义的分词器类自动检测分词器类型。

import { AutoTokenizer } from '@huggingface/transformers';

const tokenizer = await AutoTokenizer.from_pretrained('Xenova/bert-base-uncased');
const { input_ids } = await tokenizer('I love transformers!');
// Tensor {
//   data: BigInt64Array(6) [101n, 1045n, 2293n, 19081n, 999n, 102n],
//   dims: [1, 6],
//   type: 'int64',
//   size: 6,
// }

tokenizers.TokenizerModel ⇐ Callable

tokenizer 模型的抽象基类。

Kind: tokenizers 的静态类
Extends: Callable


new TokenizerModel(config)

创建 TokenizerModel 的新实例。

参数类型描述
configObject

TokenizerModel 的配置对象。


tokenizerModel.vocab : Array. < string >

Kind: TokenizerModel 的实例属性


tokenizerModel.tokens_to_ids : Map. < string, number >

令牌到 ID 的映射。

Kind: TokenizerModel 的实例属性


tokenizerModel.fuse_unk : boolean

是否在编码时融合未知令牌。默认为 false。

Kind: TokenizerModel 的实例属性


tokenizerModel._call(tokens) ⇒ Array. < string >

调用 TokenizerModel 实例的内部函数。

Kind: TokenizerModel 的实例方法
Overrides: _call
Returns: Array.<string> - 编码后的令牌。

参数类型描述
tokensArray.<string>

要编码的令牌。


tokenizerModel.encode(tokens) ⇒ Array. < string >

将令牌列表编码为令牌 ID 列表。

Kind: TokenizerModel 的实例方法
Returns: Array.<string> - 编码后的令牌。
Throws:

  • 如果子类中未实现,将抛出错误。
参数类型描述
tokensArray.<string>

要编码的令牌。


tokenizerModel.convert_tokens_to_ids(tokens) ⇒ <code> Array. < number > </code>

将 token 列表转换为 token ID 列表。

Kind: TokenizerModel 的实例方法
返回: Array.<number> - 转换后的 token ID。

参数类型描述
tokensArray.<string>

要转换的 token。


tokenizerModel.convert_ids_to_tokens(ids) ⇒ <code> Array. < string > </code>

将 token ID 列表转换为 token 列表。

Kind: TokenizerModel 的实例方法
返回: Array.<string> - 转换后的 token。

参数类型描述
idsArray<number> | Array<bigint>

要转换的 token ID。


TokenizerModel.fromConfig(config, ...args) ⇒ <code> TokenizerModel </code>

基于提供的配置对象实例化一个新的 TokenizerModel 实例。

类型: TokenizerModel 的静态方法
返回: TokenizerModel - TokenizerModel 的新实例。
Throws:

  • 如果配置中的 TokenizerModel 类型无法识别,将抛出错误。
参数类型描述
configObject

TokenizerModel 的配置对象。

...args*

传递给特定 TokenizerModel 构造函数的可选参数。


tokenizers.PreTrainedTokenizer

Kind: tokenizers 的静态类


new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)

创建一个新的 PreTrainedTokenizer 实例。

参数类型描述
tokenizerJSONObject

tokenizer 的 JSON。

tokenizerConfigObject

tokenizer 的配置。


preTrainedTokenizer.added_tokens : <code> Array. < AddedToken > </code>

类型: PreTrainedTokenizer 的实例属性


preTrainedTokenizer.remove_space : <code> boolean </code>

在 token 化时是否去除文本(删除字符串前后多余的空格)。

类型: PreTrainedTokenizer 的实例属性


preTrainedTokenizer._call(text, options) ⇒ <code> BatchEncoding </code>

编码/token 化给定的文本。

类型: PreTrainedTokenizer 的实例方法
返回: BatchEncoding - 要传递给模型的对象。

参数类型默认描述
textstring | Array<string>

要 token 化的文本。

optionsObject

一个包含以下属性的可选对象

[options.text_pair]string | Array<string>null

要编码的可选的第二个序列。如果设置,则必须与文本类型相同。

[options.padding]boolean | 'max_length'false

是否填充输入序列。

[options.add_special_tokens]booleantrue

是否添加与相应模型关联的特殊 token。

[options.truncation]boolean

是否截断输入序列。

[options.max_length]number

返回列表的最大长度以及可选的填充长度。

[options.return_tensor]booleantrue

是否将结果作为 Tensor 或数组返回。

[options.return_token_type_ids]boolean

是否返回 token 类型 ID。


preTrainedTokenizer._encode_text(text) ⇒ <code> Array < string > </code> | <code> null </code>

使用 tokenizer 的预处理器管道对单个文本进行编码。

类型: PreTrainedTokenizer 的实例方法
返回: Array.<string> | null - 编码后的 token。

参数类型描述
textstring | null

要编码的文本。


preTrainedTokenizer._tokenize_helper(text, options) ⇒ <code> * </code>

用于 token 化文本(以及可选的文本对)的内部辅助函数。

类型: PreTrainedTokenizer 的实例方法
返回: * - 包含 token 以及可选的 token 类型 ID 的对象。

参数类型默认描述
textstring

要 token 化的文本。

optionsObject

一个包含以下属性的可选对象

[options.pair]stringnull

要 token 化的可选的第二个文本。

[options.add_special_tokens]booleanfalse

是否添加与相应模型关联的特殊 token。


preTrainedTokenizer.tokenize(text, options) ⇒ <code> Array. < string > </code>

将字符串转换为 token 序列。

类型: PreTrainedTokenizer 的实例方法
返回: Array.<string> - token 列表。

参数类型默认描述
textstring

要编码的序列。

optionsObject

一个包含以下属性的可选对象

[options.pair]string

与第一个序列一起编码的第二个序列。

[options.add_special_tokens]booleanfalse

是否添加与相应模型关联的特殊 token。


preTrainedTokenizer.encode(text, options) ⇒ <code> Array. < number > </code>

使用模型的 tokenizer 编码单个文本或文本对。

类型: PreTrainedTokenizer 的实例方法
返回: Array.<number> - 表示编码后的文本的 token ID 数组。

参数类型默认描述
textstring

要编码的文本。

optionsObject

一个包含以下属性的可选对象

[options.text_pair]stringnull

要编码的可选的第二个文本。

[options.add_special_tokens]booleantrue

是否添加与相应模型关联的特殊 token。

[options.return_token_type_ids]boolean

是否返回 token_type_ids。


preTrainedTokenizer.batch_decode(batch, decode_args) ⇒ <code> Array. < string > </code>

解码一批 token 化的序列。

类型: PreTrainedTokenizer 的实例方法
返回: Array.<string> - 解码后的序列列表。

参数类型描述
batchArray<Array<number>> | Tensor

token 化后的输入序列的列表/Tensor。

decode_argsObject

(可选)包含解码参数的对象。


preTrainedTokenizer.decode(token_ids, [decode_args]) ⇒ <code> string </code>

将 token ID 序列解码回字符串。

类型: PreTrainedTokenizer 的实例方法
返回: string - 解码后的字符串。
Throws:

  • Error 如果 token_ids 不是非空的整数数组。
参数类型默认描述
token_idsArray<number> | Array<bigint> | Tensor

要解码的 token ID 的列表/Tensor。

[decode_args]Object{}
[decode_args.skip_special_tokens]booleanfalse

如果为 true,则从输出字符串中删除特殊 token。

[decode_args.clean_up_tokenization_spaces]booleantrue

如果为 true,则删除标点符号和缩写形式前的空格。


preTrainedTokenizer.decode_single(token_ids, decode_args) ⇒ <code> string </code>

将单个 token ID 列表解码为字符串。

类型: PreTrainedTokenizer 的实例方法
返回: string - 解码后的字符串

参数类型默认描述
token_idsArray<number> | Array<bigint>

要解码的 token ID 列表

decode_argsObject

用于解码的可选参数

[decode_args.skip_special_tokens]booleanfalse

在解码期间是否跳过特殊 token

[decode_args.clean_up_tokenization_spaces]boolean

在解码期间是否清理 token 化空格。如果为 null,则该值设置为 this.decoder.cleanup(如果存在),否则回退到 this.clean_up_tokenization_spaces(如果存在),再回退到 true


preTrainedTokenizer.get_chat_template(options) ⇒ <code> string </code>

检索用于 token 化聊天消息的聊天模板字符串。此模板在内部由 apply_chat_template 方法使用,也可以在外部使用以检索模型的聊天模板,从而更好地跟踪生成过程。

类型: PreTrainedTokenizer 的实例方法
返回: string - 聊天模板字符串。

参数类型默认描述
optionsObject

一个包含以下属性的可选对象

[options.chat_template]stringnull

用于此转换的 Jinja 模板或模板名称。通常不需要将任何内容传递给此参数,因为默认情况下将使用模型的模板。

[options.tools]Array.<Object>

模型可以访问的工具(可调用函数)列表。如果模板不支持函数调用,则此参数无效。每个工具都应作为 JSON Schema 传递,提供工具的名称、描述和参数类型。有关更多信息,请参阅我们的聊天模板指南


preTrainedTokenizer.apply_chat_template(conversation, options) ⇒ <code> string </code> | <code> Tensor </code> | <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> BatchEncoding </code>

将包含 "role""content" 键的消息对象列表转换为 token ID 列表。此方法旨在用于聊天模型,并将读取 tokenizer 的 chat_template 属性以确定转换时要使用的格式和控制 token。

有关更多信息,请参阅此处

示例: 将聊天模板应用于对话。

import { AutoTokenizer } from "@huggingface/transformers";

const tokenizer = await AutoTokenizer.from_pretrained("Xenova/mistral-tokenizer-v1");

const chat = [
  { "role": "user", "content": "Hello, how are you?" },
  { "role": "assistant", "content": "I'm doing great. How can I help you today?" },
  { "role": "user", "content": "I'd like to show off how chat templating works!" },
]

const text = tokenizer.apply_chat_template(chat, { tokenize: false });
// "<s>[INST] Hello, how are you? [/INST]I'm doing great. How can I help you today?</s> [INST] I'd like to show off how chat templating works! [/INST]"

const input_ids = tokenizer.apply_chat_template(chat, { tokenize: true, return_tensor: false });
// [1, 733, 16289, 28793, 22557, 28725, 910, 460, 368, 28804, 733, 28748, 16289, 28793, 28737, 28742, 28719, 2548, 1598, 28723, 1602, 541, 315, 1316, 368, 3154, 28804, 2, 28705, 733, 16289, 28793, 315, 28742, 28715, 737, 298, 1347, 805, 910, 10706, 5752, 1077, 3791, 28808, 733, 28748, 16289, 28793]

类型: PreTrainedTokenizer 的实例方法
返回: string | Tensor | Array.<number> | Array.<Array.<number>> | BatchEncoding - token 化后的输出。

参数类型默认描述
conversationArray.<Message>

包含 "role""content" 键的消息对象列表,表示到目前为止的聊天记录。

optionsObject

一个包含以下属性的可选对象

[options.chat_template]stringnull

用于此转换的 Jinja 模板。如果未传递此模板,则将使用模型的聊天模板。

[options.tools]Array.<Object>

模型可以访问的工具(可调用函数)列表。如果模板不支持函数调用,则此参数无效。每个工具都应作为 JSON Schema 传递,提供工具的名称、描述和参数类型。有关更多信息,请参阅我们的聊天模板指南

[options.documents]*

表示文档的字典列表,如果模型正在执行 RAG(检索增强生成),则模型可以访问这些文档。如果模板不支持 RAG,则此参数无效。我们建议每个文档都应该是一个包含 "title""text" 键的字典。有关使用聊天模板传递文档的示例,请参阅聊天模板指南的 RAG 部分。

[options.add_generation_prompt]booleanfalse

是否以指示助手消息开始的 token 结束 prompt。当您想从模型生成响应时,这很有用。请注意,此参数将传递给聊天模板,因此模板中必须支持此参数才能生效。

[options.tokenize]booleantrue

是否 token 化输出。如果为 false,则输出将为字符串。

[options.padding]booleanfalse

是否将序列填充到最大长度。如果 tokenize 为 false,则无效。

[options.truncation]booleanfalse

是否将序列截断到最大长度。如果 tokenize 为 false,则无效。

[options.max_length]number

用于填充或截断的最大长度(以 token 为单位)。如果 tokenize 为 false,则无效。如果未指定,则 tokenizer 的 max_length 属性将用作默认值。

[options.return_tensor]booleantrue

是否将输出作为 Tensor 或数组返回。如果 tokenize 为 false,则无效。

[options.return_dict]booleantrue

是否返回包含命名输出的字典。如果 tokenize 为 false,则无效。

[options.tokenizer_kwargs]Object{}

要传递给 tokenizer 的其他选项。


PreTrainedTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>

从给定的 pretrained_model_name_or_path 加载预训练的 tokenizer。

类型: PreTrainedTokenizer 的静态方法
返回: Promise.<PreTrainedTokenizer> - PreTrainedTokenizer 类的新实例。
Throws:

  • Error 如果在 pretrained_model_name_or_path 中找不到 tokenizer.jsontokenizer_config.json 文件,则抛出错误。
参数类型描述
pretrained_model_name_or_pathstring

预训练 tokenizer 的路径。

optionsPretrainedTokenizerOptions

用于加载 tokenizer 的其他选项。


tokenizers.BertTokenizer ⇐ <code> PreTrainedTokenizer </code>

BertTokenizer 类用于为 BERT 模型 token 化文本。

Kind: tokenizers 的静态类
继承自: PreTrainedTokenizer


tokenizers.AlbertTokenizer ⇐ <code> PreTrainedTokenizer </code>

Albert tokenizer

Kind: tokenizers 的静态类
继承自: PreTrainedTokenizer


tokenizers.NllbTokenizer

NllbTokenizer 类用于为 NLLB(“No Language Left Behind”)模型 token 化文本。

No Language Left Behind (NLLB) 是一个首创的 AI 突破性项目,它开源了能够在 200 多种语言(包括阿斯图里亚斯语、卢干达语、乌尔都语等低资源语言)的任意两种语言之间直接进行高质量翻译的模型。它旨在帮助人们与任何人、在任何地方进行交流,无论他们的语言偏好如何。有关更多信息,请查看他们的论文

有关支持语言列表(及其语言代码),

Kind: tokenizers 的静态类
参见: https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200


nllbTokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>

用于为 NllbTokenizer 构建翻译输入的辅助函数。

类型: NllbTokenizer 的实例方法
返回值: Object - 要传递给模型的对象。

参数类型描述
raw_inputsstring | Array<string>

要 token 化的文本。

tokenizer_optionsObject

要发送给分词器的选项

generate_kwargsObject

生成选项。


tokenizers.M2M100Tokenizer

M2M100Tokenizer 类用于为 M2M100(“多对多”)模型分词文本。

M2M100 是一个用于多对多语言翻译的多语言编码器-解码器(seq-to-seq)模型。它在这篇论文中被介绍,并首次在这个仓库中发布。

有关支持语言列表(及其语言代码),

Kind: tokenizers 的静态类
参见: https://huggingface.co/facebook/m2m100_418M#languages-covered


m2M100Tokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>

用于为 M2M100Tokenizer 构建翻译输入的辅助函数。

类型: M2M100Tokenizer 的实例方法
返回值: Object - 要传递给模型的对象。

参数类型描述
raw_inputsstring | Array<string>

要 token 化的文本。

tokenizer_optionsObject

要发送给分词器的选项

generate_kwargsObject

生成选项。


tokenizers.WhisperTokenizer ⇐ <code> PreTrainedTokenizer </code>

WhisperTokenizer 分词器

Kind: tokenizers 的静态类
继承自: PreTrainedTokenizer


whisperTokenizer._decode_asr(sequences, options) ⇒ <code> * </code>

解码自动语音识别 (ASR) 序列。

类型: WhisperTokenizer 的实例方法
返回值: * - 解码后的序列。

参数类型描述
sequences*

要解码的序列。

optionsObject

用于解码的选项。


whisperTokenizer.decode() : <code> * </code>

类型: WhisperTokenizer 的实例方法


tokenizers.MarianTokenizer

Kind: tokenizers 的静态类
待办


new MarianTokenizer(tokenizerJSON, tokenizerConfig)

创建一个新的 MarianTokenizer 实例。

参数类型描述
tokenizerJSONObject

tokenizer 的 JSON。

tokenizerConfigObject

tokenizer 的配置。


marianTokenizer._encode_text(text) ⇒ <code> Array </code>

编码单个文本。由于必须在用 sentencepiece 模型编码之前删除语言代码,因此必须重写此方法。

类型: MarianTokenizer 的实例方法
返回值: Array - 编码后的 token。
参见: https://github.com/huggingface/transformers/blob/12d51db243a00726a548a43cc333390ebae731e3/src/transformers/models/marian/tokenization_marian.py#L204-L213

参数类型描述
textstring | null

要编码的文本。


tokenizers.AutoTokenizer

辅助类,用于使用 from_pretrained 函数实例化预训练的分词器。所选的分词器类由分词器配置中指定的类型确定。

Kind: tokenizers 的静态类


AutoTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>

从预训练模型实例化库中的一个分词器类。

要实例化的分词器类是根据配置对象的 tokenizer_class 属性选择的(可以作为参数传递,也可以从 pretrained_model_name_or_path 加载,如果可能)

类型: AutoTokenizer 的静态方法
返回值: Promise.<PreTrainedTokenizer> - PreTrainedTokenizer 类的新实例。

参数类型描述
pretrained_model_name_or_pathstring

预训练模型的名称或路径。可以是

  • 一个字符串,即托管在 huggingface.co 模型仓库内的预训练分词器的模型 ID。有效的模型 ID 可以位于根级别,例如 bert-base-uncased,或者在用户或组织名称下命名空间,例如 dbmdz/bert-base-german-cased
  • 一个指向包含分词器文件的目录的路径,例如,./my_model_directory/
optionsPretrainedTokenizerOptions

用于加载 tokenizer 的其他选项。


tokenizers.is_chinese_char(cp) ⇒ <code> boolean </code>

检查给定的 Unicode 代码点是否代表 CJK(中文、日文或韩文)字符。

“中文字符”定义为 CJK Unicode 区块中的任何内容:https://en.wikipedia.org/wiki/CJK_Unified_Ideographs_(Unicode_block)

请注意,CJK Unicode 区块并非所有日文和韩文字符,尽管其名称如此。现代韩文韩文是不同的区块,日文平假名和片假名也是如此。这些字母表用于书写空格分隔的单词,因此它们不会被特殊对待,并且像所有其他语言一样处理。

类型: tokenizers 的静态方法
返回值: boolean - 如果代码点代表 CJK 字符,则为 True,否则为 False。

参数类型描述
cpnumber | bigint

要检查的 Unicode 代码点。


tokenizers~AddedToken

表示用户在现有模型词汇表之上添加的 token。AddedToken 可以配置为指定它们在各种情况下的行为,例如

  • 它们是否应该只匹配单个单词
  • 是否在其左侧或右侧包含任何空格

类型: tokenizers 的内部类


new AddedToken(config)

创建 AddedToken 的新实例。

参数类型默认描述
configObject

添加 token 配置对象。

config.contentstring

添加的 token 的内容。

config.idnumber

添加的 token 的 ID。

[config.single_word]booleanfalse

此 token 是否必须是单个单词或可以断词。

[config.lstrip]booleanfalse

此 token 是否应去除其左侧的空格。

[config.rstrip]booleanfalse

此 token 是否应去除其右侧的空格。

[config.normalized]booleanfalse

是否应规范化此 token。

[config.special]booleanfalse

此 token 是否是特殊的。


tokenizers~WordPieceTokenizer ⇐ <code> TokenizerModel </code>

TokenizerModel 的子类,它使用 WordPiece 编码来编码 token。

类型: tokenizers 的内部类
继承自: TokenizerModel


new WordPieceTokenizer(config)

参数类型默认描述
configObject

配置对象。

config.vocabObject

令牌到 ID 的映射。

config.unk_tokenstring

未知 token 字符串。

config.continuing_subword_prefixstring

用于继续子词的前缀。

[config.max_input_chars_per_word]number100

每个单词的最大字符数。


wordPieceTokenizer.tokens_to_ids : <code> Map. < string, number > </code>

令牌到 ID 的映射。

类型: WordPieceTokenizer 的实例属性


wordPieceTokenizer.unk_token_id : <code> number </code>

未知 token 的 ID。

类型: WordPieceTokenizer 的实例属性


wordPieceTokenizer.unk_token : <code> string </code>

未知 token 字符串。

类型: WordPieceTokenizer 的实例属性


wordPieceTokenizer.max_input_chars_per_word : <code> number </code>

每个单词允许的最大字符数。

类型: WordPieceTokenizer 的实例属性


wordPieceTokenizer.vocab : <code> Array. < string > </code>

token 数组。

类型: WordPieceTokenizer 的实例属性


wordPieceTokenizer.encode(tokens) ⇒ <code> Array. < string > </code>

使用 WordPiece 编码对 token 数组进行编码。

类型: WordPieceTokenizer 的实例方法
返回值: Array.<string> - 编码后的 token 数组。

参数类型描述
tokensArray.<string>

要编码的令牌。


tokenizers~Unigram ⇐ <code> TokenizerModel </code>

表示 Unigram 分词器模型的类。

类型: tokenizers 的内部类
继承自: TokenizerModel


new Unigram(config, moreConfig)

创建一个新的 Unigram 分词器模型。

参数类型描述
configObject

Unigram 模型的配置对象。

config.unk_idnumber

未知 token 的 ID

config.vocabArray.<Array<any>>

一个 2D 数组,表示 token 到分数的映射。

moreConfigObject

Unigram 模型的其他配置对象。


unigram.populateNodes(lattice)

填充 lattice 节点。

Kind: instance method of Unigram

参数类型描述
latticeTokenLattice

要填充节点的 token lattice。


unigram.tokenize(normalized) ⇒ <code> Array. < string > </code>

使用 unigram 模型将 token 数组编码为 subtoken 数组。

Kind: instance method of Unigram
Returns: Array.<string> - 通过使用 unigram 模型编码输入 token 获得的 subtoken 数组。

参数类型描述
normalizedstring

标准化的字符串。


unigram.encode(tokens) ⇒ <code> Array. < string > </code>

使用 Unigram 编码对 token 数组进行编码。

Kind: instance method of Unigram
返回值: Array.<string> - 编码后的 token 数组。

参数类型描述
tokensArray.<string>

要编码的令牌。


tokenizers~BPE ⇐ <code> TokenizerModel </code>

BPE 类,用于将文本编码为 Byte-Pair-Encoding (BPE) token。

类型: tokenizers 的内部类
继承自: TokenizerModel


new BPE(config)

创建一个 BPE 实例。

参数类型默认描述
configObject

BPE 的配置对象。

config.vocabObject

令牌到 ID 的映射。

config.merges*

BPE 合并操作的字符串数组。

config.unk_tokenstring

用于词汇表外单词的未知 token。

config.end_of_word_suffixstring

放置在每个单词末尾的后缀。

[config.continuing_subword_suffix]string

插入在单词之间的后缀。

[config.byte_fallback]booleanfalse

是否使用 spm 字节回退技巧(默认为 False)

[config.ignore_merges]booleanfalse

在使用合并操作之前是否匹配词汇表中的 token。


bpE.tokens_to_ids : <code> Map. < string, number > </code>

Kind: instance property of BPE


bpE.merges : <code> * </code>

Kind: instance property of BPE


merges.config.merges : <code> * </code>

Kind: static property of merges


bpE.cache : <code> Map. < string, Array < string > > </code>

Kind: instance property of BPE


bpE.bpe(token) ⇒ <code> Array. < string > </code>

将 Byte-Pair-Encoding (BPE) 应用于给定的 token。高效的基于堆的优先级队列实现,改编自 https://github.com/belladoreai/llama-tokenizer-js

Kind: instance method of BPE
Returns: Array.<string> - BPE 编码后的 token 数组。

参数类型描述
tokenstring

要编码的 token。


bpE.encode(tokens) ⇒ <code> Array. < string > </code>

使用 BPE 算法对输入的 token 序列进行编码,并返回生成的 subword token。

Kind: instance method of BPE
Returns: Array.<string> - 将 BPE 算法应用于输入 token 序列后生成的 subword token。

参数类型描述
tokensArray.<string>

要编码的输入 token 序列。


tokenizers~LegacyTokenizerModel

用于仅具有词汇表的 tokenizer 的传统 tokenizer 类。

类型: tokenizers 的内部类


new LegacyTokenizerModel(config, moreConfig)

创建一个 LegacyTokenizerModel 实例。

参数类型描述
configObject

LegacyTokenizerModel 的配置对象。

config.vocabObject

token 到 id 的(可能是嵌套的)映射。

moreConfigObject

LegacyTokenizerModel 模型的附加配置对象。


legacyTokenizerModel.tokens_to_ids : <code> Map. < string, number > </code>

Kind: instance property of LegacyTokenizerModel


tokenizers~Normalizer

文本标准化的基类。

Kind: inner abstract class of tokenizers


new Normalizer(config)

参数类型描述
configObject

normalizer 的配置对象。


normalizer.normalize(text) ⇒ <code> string </code>

标准化输入文本。

Kind: instance abstract method of Normalizer
Returns: string - 标准化后的文本。
Throws:

  • Error 如果子类中未实现此方法。
参数类型描述
textstring

要标准化的文本。


normalizer._call(text) ⇒ <code> string </code>

别名,指向 Normalizer#normalize

Kind: instance method of Normalizer
Returns: string - 标准化后的文本。

参数类型描述
textstring

要标准化的文本。


Normalizer.fromConfig(config) ⇒ <code> Normalizer </code>

用于从配置对象创建 normalizer 的工厂方法。

Kind: static method of Normalizer
Returns: Normalizer - 一个 Normalizer 对象。
Throws:

  • Error 如果在配置中指定了未知的 Normalizer 类型。
参数类型描述
configObject

normalizer 的配置对象。


tokenizers~Replace ⇐ <code> Normalizer </code>

Replace normalizer,用于将模式的出现替换为给定的字符串或正则表达式。

类型: tokenizers 的内部类
Extends: Normalizer


replace.normalize(text) ⇒ <code> string </code>

通过将模式替换为内容来标准化输入文本。

Kind: instance method of Replace
Returns: string - 将模式替换为内容后标准化后的文本。

参数类型描述
textstring

要标准化的输入文本。


tokenizers~NFC ⇐ <code> Normalizer </code>

一个 normalizer,它将 Unicode 标准化形式 C (NFC) 应用于输入文本。

类型: tokenizers 的内部类
Extends: Normalizer


nfC.normalize(text) ⇒ <code> string </code>

通过应用 Unicode 标准化形式 C (NFC) 来标准化输入文本。

Kind: instance method of NFC
Returns: string - 标准化后的文本。

参数类型描述
textstring

要标准化的输入文本。


tokenizers~NFKC ⇐ <code> Normalizer </code>

NFKC Normalizer。

类型: tokenizers 的内部类
Extends: Normalizer


nfkC.normalize(text) ⇒ <code> string </code>

使用 NFKC 标准化来标准化文本。

Kind: instance method of NFKC
Returns: string - 标准化后的文本。

参数类型描述
textstring

要标准化的文本。


tokenizers~NFKD ⇐ <code> Normalizer </code>

NFKD Normalizer。

类型: tokenizers 的内部类
Extends: Normalizer


nfkD.normalize(text) ⇒ <code> string </code>

使用 NFKD 标准化来标准化文本。

Kind: instance method of NFKD
Returns: string - 标准化后的文本。

参数类型描述
textstring

要标准化的文本。


tokenizers~StripNormalizer

一个 Normalizer,用于去除输入文本的前导和/或尾随空格。

类型: tokenizers 的内部类


stripNormalizer.normalize(text) ⇒ <code> string </code>

去除输入文本的前导和/或尾随空格。

KindStripNormalizer 的实例方法,请参阅 StripNormalizer
Returns: string - 标准化后的文本。

参数类型描述
textstring

输入文本。


tokenizers~StripAccents ⇐ <code> Normalizer </code>

StripAccents normalizer 从文本中删除所有重音符号。

类型: tokenizers 的内部类
Extends: Normalizer


stripAccents.normalize(text) ⇒ <code> string </code>

从文本中删除所有重音符号。

KindStripAccents 的实例方法,请参阅 StripAccents
Returns: string - 不带重音符号的标准化文本。

参数类型描述
textstring

输入文本。


tokenizers~Lowercase ⇐ <code> Normalizer </code>

一个 Normalizer,用于将输入字符串转换为小写。

类型: tokenizers 的内部类
Extends: Normalizer


lowercase.normalize(text) ⇒ <code> string </code>

将输入字符串转换为小写。

KindLowercase 的实例方法,请参阅 Lowercase
Returns: string - 标准化后的文本。

参数类型描述
textstring

要标准化的文本。


tokenizers~Prepend ⇐ <code> Normalizer </code>

一个 Normalizer,用于在输入字符串前面添加字符串。

类型: tokenizers 的内部类
Extends: Normalizer


prepend.normalize(text) ⇒ <code> string </code>

在输入字符串前面添加字符串。

KindPrepend 的实例方法,请参阅 Prepend
Returns: string - 标准化后的文本。

参数类型描述
textstring

要标准化的文本。


tokenizers~NormalizerSequence ⇐ <code> Normalizer </code>

一个 Normalizer,用于应用 Normalizer 序列。

类型: tokenizers 的内部类
Extends: Normalizer


new NormalizerSequence(config)

创建 NormalizerSequence 的新实例。

参数类型描述
configObject

配置对象。

config.normalizersArray.<Object>

Normalizer 配置对象数组。


normalizerSequence.normalize(text) ⇒ <code> string </code>

将 Normalizer 序列应用于输入文本。

KindNormalizerSequence 的实例方法,请参阅 NormalizerSequence
Returns: string - 标准化后的文本。

参数类型描述
textstring

要标准化的文本。


tokenizers~BertNormalizer ⇐ <code> Normalizer </code>

一个类,表示 BERT 标记化中使用的 normalizer。

类型: tokenizers 的内部类
Extends: Normalizer


bertNormalizer._tokenize_chinese_chars(text) ⇒ <code> string </code>

在输入文本中的任何 CJK(中文、日文或韩文)字符周围添加空格。

KindBertNormalizer 的实例方法,请参阅 BertNormalizer
Returns: string - 在 CJK 字符周围添加空格的标记化文本。

参数类型描述
textstring

要标记化的输入文本。


bertNormalizer.stripAccents(text) ⇒ <code> string </code>

从给定的文本中去除重音符号。

KindBertNormalizer 的实例方法,请参阅 BertNormalizer
Returns: string - 去除重音符号的文本。

参数类型描述
textstring

要从中去除重音符号的文本。


bertNormalizer.normalize(text) ⇒ <code> string </code>

根据配置规范化给定的文本。

KindBertNormalizer 的实例方法,请参阅 BertNormalizer
Returns: string - 标准化后的文本。

参数类型描述
textstring

要标准化的文本。


tokenizers~PreTokenizer ⇐ <code> Callable </code>

一个可调用类,表示标记化中使用的预标记器。子类应实现 pre_tokenize_text 方法来定义特定的预标记化逻辑。

类型: tokenizers 的内部类
Extends: Callable


preTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

子类应实现的方法,用于定义特定的预标记化逻辑。

KindPreTokenizer 的实例抽象方法,请参阅 PreTokenizer
Returns: Array.<string> - 预标记化文本。
Throws:

  • Error 如果子类中未实现该方法。
参数类型描述
textstring

要预标记化的文本。

[options]Object

预标记化逻辑的附加选项。


preTokenizer.pre_tokenize(text, [options]) ⇒ <code> Array. < string > </code>

将给定的文本标记化为预标记。

KindPreTokenizer 的实例方法,请参阅 PreTokenizer
Returns: Array.<string> - 预标记数组。

参数类型描述
textstring | Array<string>

要预标记化的文本或文本数组。

[options]Object

预标记化逻辑的附加选项。


preTokenizer._call(text, [options]) ⇒ <code> Array. < string > </code>

PreTokenizer#pre_tokenize 的别名,请参阅 PreTokenizer#pre_tokenize

KindPreTokenizer 的实例方法,请参阅 PreTokenizer
Overrides: _call
Returns: Array.<string> - 预标记数组。

参数类型描述
textstring | Array<string>

要预标记化的文本或文本数组。

[options]Object

预标记化逻辑的附加选项。


PreTokenizer.fromConfig(config) ⇒ <code> PreTokenizer </code>

工厂方法,根据提供的配置返回 PreTokenizer 子类的实例。

KindPreTokenizer 的静态方法,请参阅 PreTokenizer
Returns: PreTokenizer - PreTokenizer 子类的实例。
Throws:

  • Error 如果提供的配置对象与任何已知的预标记器都不对应。
参数类型描述
configObject

预标记器的配置对象。


tokenizers~BertPreTokenizer ⇐ <code> PreTokenizer </code>

类型: tokenizers 的内部类
ExtendsPreTokenizer


new BertPreTokenizer(config)

一个 PreTokenizer,它使用类似于 BERT 原始实现中使用的基本标记化方案,将文本拆分为 wordpiece。

参数类型描述
configObject

配置对象。


bertPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

使用 BERT 预标记化方案标记化单个文本。

KindBertPreTokenizer 的实例方法,请参阅 BertPreTokenizer
Returns: Array.<string> - 标记数组。

参数类型描述
textstring

要 token 化的文本。

[options]Object

预标记化逻辑的附加选项。


tokenizers~ByteLevelPreTokenizer ⇐ <code> PreTokenizer </code>

一个预标记器,用于将文本拆分为字节对编码 (BPE) 子词。

类型: tokenizers 的内部类
ExtendsPreTokenizer


new ByteLevelPreTokenizer(config)

创建 ByteLevelPreTokenizer 类的新实例。

参数类型描述
configObject

配置对象。


byteLevelPreTokenizer.add_prefix_space : <code> boolean </code>

是否在第一个单词前添加前导空格。这允许像对待任何其他单词一样对待前导词。

KindByteLevelPreTokenizer 的实例属性,请参阅 ByteLevelPreTokenizer


byteLevelPreTokenizer.trim_offsets : <code> boolean </code>

后处理步骤是否应修剪偏移量以避免包含空格。

KindByteLevelPreTokenizer 的实例属性,请参阅 ByteLevelPreTokenizer
待办

  • 在预标记化步骤中使用此项。

byteLevelPreTokenizer.use_regex : <code> boolean </code>

是否使用标准的 GPT2 正则表达式进行空格拆分。如果您想使用自己的拆分,请将其设置为 False。默认为 true。

KindByteLevelPreTokenizer 的实例属性,请参阅 ByteLevelPreTokenizer


byteLevelPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

使用字节级分词器对单段文本进行分词。

Kind: instance method of ByteLevelPreTokenizer
Returns: Array.<string> - 标记数组。

参数类型描述
textstring

要 token 化的文本。

[options]Object

预标记化逻辑的附加选项。


tokenizers~SplitPreTokenizer ⇐ <code> PreTokenizer </code>

使用给定的模式分割文本。

类型: tokenizers 的内部类
ExtendsPreTokenizer


new SplitPreTokenizer(config)

参数类型描述
configObject

预分词器的配置选项。

config.pattern

Object

用于分割文本的模式。可以是字符串或正则表达式对象。

config.pattern.String

string | undefined

用于分割的字符串。仅当模式为字符串时定义。

config.pattern.Regex

string | undefined

用于分割的正则表达式。仅当模式为正则表达式时定义。

config.behavior

SplitDelimiterBehavior

分割时使用的行为。

config.invert

boolean

是否分割 (invert=false) 或匹配 (invert=true) 模式。


splitPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过使用给定的模式分割文本进行分词。

Kind: instance method of SplitPreTokenizer
Returns: Array.<string> - 标记数组。

参数类型描述
textstring

要 token 化的文本。

[options]Object

预标记化逻辑的附加选项。


tokenizers~PunctuationPreTokenizer ⇐ <code> PreTokenizer </code>

基于标点符号分割文本。

类型: tokenizers 的内部类
ExtendsPreTokenizer


new PunctuationPreTokenizer(config)

参数类型描述
configObject

预分词器的配置选项。

config.behavior

SplitDelimiterBehavior

分割时使用的行为。


punctuationPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过使用给定的模式分割文本进行分词。

Kind: instance method of PunctuationPreTokenizer
Returns: Array.<string> - 标记数组。

参数类型描述
textstring

要 token 化的文本。

[options]Object

预标记化逻辑的附加选项。


tokenizers~DigitsPreTokenizer ⇐ <code> PreTokenizer </code>

基于数字分割文本。

类型: tokenizers 的内部类
ExtendsPreTokenizer


new DigitsPreTokenizer(config)

参数类型描述
configObject

预分词器的配置选项。

config.individual_digits

boolean

是否分割为单个数字。


digitsPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过使用给定的模式分割文本进行分词。

Kind: instance method of DigitsPreTokenizer
Returns: Array.<string> - 标记数组。

参数类型描述
textstring

要 token 化的文本。

[options]Object

预标记化逻辑的附加选项。


tokenizers~PostProcessor ⇐ <code> Callable </code>

类型: tokenizers 的内部类
Extends: Callable


new PostProcessor(config)

参数类型描述
configObject

后处理器的配置。


postProcessor.post_process(tokens, ...args) ⇒ <code> PostProcessedOutput </code>

子类中要实现的方法,用于对给定的 tokens 应用后处理。

Kind: instance method of PostProcessor

Returns: PostProcessedOutput - 后处理后的 tokens。
Throws:

  • Error 如果该方法未在子类中实现。

参数类型描述
tokens

Array

要进行后处理的输入 tokens。

...args*

后处理逻辑所需的其他参数。


postProcessor._call(tokens, ...args) ⇒ <code> PostProcessedOutput </code>

PostProcessor#post_process 的别名。

Kind: instance method of PostProcessor
Overrides: _call

Returns: PostProcessedOutput - 后处理后的 tokens。

参数类型描述
tokens

Array

要进行后处理的文本或文本数组。

...args*

后处理逻辑所需的其他参数。


PostProcessor.fromConfig(config) ⇒ <code> PostProcessor </code>

从配置对象创建 PostProcessor 对象的工厂方法。

Kind: static method of PostProcessor

Returns: PostProcessor - 从给定配置创建的 PostProcessor 对象。
Throws:

  • Error 如果遇到未知的 PostProcessor 类型。

参数类型描述
configObject

表示 PostProcessor 的配置对象。


tokenizers~BertProcessing

一个后处理器,用于在输入的开头和结尾添加特殊 tokens。

类型: tokenizers 的内部类


new BertProcessing(config)

参数类型描述
configObject

后处理器的配置。

config.cls

Array.<string>

要添加到输入开头的特殊 tokens。

config.sep

Array.<string>

要添加到输入结尾的特殊 tokens。


bertProcessing.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

将特殊 tokens 添加到输入的开头和结尾。

Kind: instance method of BertProcessing

Returns: PostProcessedOutput - 后处理后的 tokens,在开头和结尾添加了特殊 tokens。

参数类型默认描述
tokensArray.<string>

输入 tokens。

[tokens_pair]

Array.<string>

可选的第二组输入 tokens。


tokenizers~TemplateProcessing ⇐ <code> PostProcessor </code>

后处理器,用于将模板中的特殊 tokens 替换为实际 tokens。

类型: tokenizers 的内部类
Extends: PostProcessor


new TemplateProcessing(config)

创建 TemplateProcessing 的新实例。

参数类型描述
configObject

后处理器的配置选项。

config.single

Array

单 token 序列的模板。

config.pair

Array

token 对序列的模板。


templateProcessing.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

将模板中的特殊 tokens 替换为实际 tokens。

Kind: instance method of TemplateProcessing

Returns: PostProcessedOutput - 一个对象,其中包含 tokens 列表,特殊 tokens 已被实际 tokens 替换。

参数类型默认描述
tokensArray.<string>

第一个序列的 tokens 列表。

[tokens_pair]

Array.<string>

第二个序列的 tokens 列表(可选)。


tokenizers~ByteLevelPostProcessor ⇐ <code> PostProcessor </code>

一个后处理器,按原样返回给定的 tokens。

类型: tokenizers 的内部类
Extends: PostProcessor


byteLevelPostProcessor.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

后处理给定的 tokens。

Kind: instance method of ByteLevelPostProcessor

Returns: PostProcessedOutput - 包含后处理 tokens 的对象。

参数类型默认描述
tokensArray.<string>

第一个序列的 tokens 列表。

[tokens_pair]

Array.<string>

第二个序列的 tokens 列表(可选)。


tokenizers~PostProcessorSequence

一个后处理器,按顺序应用多个后处理器。

类型: tokenizers 的内部类


new PostProcessorSequence(config)

创建 PostProcessorSequence 的新实例。

参数类型描述
configObject

配置对象。

config.processors

Array.<Object>

要应用的后处理器列表。


postProcessorSequence.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

后处理给定的 tokens。

Kind: instance method of PostProcessorSequence

Returns: PostProcessedOutput - 包含后处理 tokens 的对象。

参数类型默认描述
tokensArray.<string>

第一个序列的 tokens 列表。

[tokens_pair]

Array.<string>

第二个序列的 tokens 列表(可选)。


tokenizers~Decoder ⇐ <code> Callable </code>

token 解码器的基类。

类型: tokenizers 的内部类
Extends: Callable


new Decoder(config)

创建 Decoder 的实例。

参数类型描述
configObject

配置对象。


decoder.added_tokens : <code> Array. < AddedToken > </code>

Kind: instance property of Decoder


decoder._call(tokens) ⇒ <code> string </code>

调用 decode 方法。

Kind: instance method of Decoder
Overrides: _call
返回: string - 解码后的字符串。

参数类型描述
tokensArray.<string>

tokens 列表。


decoder.decode(tokens) ⇒ <code> string </code>

解码 tokens 列表。

Kind: instance method of Decoder
返回: string - 解码后的字符串。

参数类型描述
tokensArray.<string>

tokens 列表。


decoder.decode_chain(tokens) ⇒ <code> Array. < string > </code>

将解码器应用于 token 列表。

Kind: instance method of Decoder
返回值Array.<string> - 解码后的 token 列表。
Throws:

  • Error 如果子类中未实现 `decode_chain` 方法。
参数类型描述
tokensArray.<string>

tokens 列表。


Decoder.fromConfig(config) ⇒ <code> Decoder </code>

根据提供的配置创建解码器实例。

类型Decoder 的静态方法
返回值Decoder - 一个解码器实例。
Throws:

  • Error 如果提供了未知的解码器类型。
参数类型描述
configObject

配置对象。


tokenizers~FuseDecoder

Fuse 只是简单地将所有 token 融合为一个大的字符串。它通常已经是最后的解码步骤,但此解码器的存在是为了防止某些解码器需要在该步骤之后发生。

类型: tokenizers 的内部类


fuseDecoder.decode_chain() : <code> * </code>

类型FuseDecoder 的实例方法


tokenizers~WordPieceDecoder ⇐ <code> Decoder </code>

一个将 WordPiece token 列表解码为单个字符串的解码器。

类型: tokenizers 的内部类
继承自Decoder


new WordPieceDecoder(config)

创建一个 WordPieceDecoder 的新实例。

参数类型描述
configObject

配置对象。

config.prefixstring

用于 WordPiece 编码的前缀。

config.cleanupboolean

是否清理解码后的字符串。


wordPieceDecoder.decode_chain() : <code> * </code>

类型WordPieceDecoder 的实例方法


tokenizers~ByteLevelDecoder ⇐ <code> Decoder </code>

用于 tokenization 输出的字节级解码器。继承自 Decoder 类。

类型: tokenizers 的内部类
继承自Decoder


new ByteLevelDecoder(config)

创建一个 ByteLevelDecoder 对象。

参数类型描述
configObject

配置对象。


byteLevelDecoder.convert_tokens_to_string(tokens) ⇒ <code> string </code>

通过解码每个字节,将 token 数组转换为字符串。

类型ByteLevelDecoder 的实例方法
返回: string - 解码后的字符串。

参数类型描述
tokensArray.<string>

要解码的 token 数组。


byteLevelDecoder.decode_chain() : <code> * </code>

类型ByteLevelDecoder 的实例方法


tokenizers~CTCDecoder

CTC(Connectionist Temporal Classification,连接时序分类)解码器。请参阅 https://github.com/huggingface/tokenizers/blob/bb38f390a61883fc2f29d659af696f428d1cda6b/tokenizers/src/decoders/ctc.rs

类型: tokenizers 的内部类


ctcDecoder.convert_tokens_to_string(tokens) ⇒ <code> string </code>

将连接时序分类 (CTC) 输出 token 转换为单个字符串。

类型CTCDecoder 的实例方法
返回: string - 解码后的字符串。

参数类型描述
tokensArray.<string>

要解码的 token 数组。


ctcDecoder.decode_chain() : <code> * </code>

类型CTCDecoder 的实例方法


tokenizers~DecoderSequence ⇐ <code> Decoder </code>

应用一系列解码器。

类型: tokenizers 的内部类
继承自Decoder


new DecoderSequence(config)

创建一个 DecoderSequence 的新实例。

参数类型描述
configObject

配置对象。

config.decodersArray.<Object>

要应用的解码器列表。


decoderSequence.decode_chain() : <code> * </code>

类型DecoderSequence 的实例方法


tokenizers~MetaspacePreTokenizer ⇐ <code> PreTokenizer </code>

此 PreTokenizer 将空格替换为给定的替换字符,如果请求,则添加前缀空格,并返回 token 列表。

类型: tokenizers 的内部类
ExtendsPreTokenizer


new MetaspacePreTokenizer(config)

参数类型默认描述
configObject

MetaspacePreTokenizer 的配置对象。

config.add_prefix_spaceboolean

是否为第一个 token 添加前缀空格。

config.replacementstring

用于替换空格的字符。

[config.str_rep]string"config.replacement"

替换字符的可选字符串表示形式。

[config.prepend_scheme]'first' | 'never' | 'always''always'

metaspace 前置方案。


metaspacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

此方法接受一个字符串,将空格替换为替换字符,如果请求,则添加前缀空格,并返回新的 token 列表。

类型MetaspacePreTokenizer 的实例方法
返回值Array.<string> - 一个新的预 tokenization 后的 token 列表。

参数类型描述
textstring

要预标记化的文本。

[options]Object

预 tokenization 的选项。

[options.section_index]number

要进行预 tokenization 的 section 的索引。


tokenizers~MetaspaceDecoder ⇐ <code> Decoder </code>

MetaspaceDecoder 类扩展了 Decoder 类,并解码 Metaspace tokenization。

类型: tokenizers 的内部类
继承自Decoder


new MetaspaceDecoder(config)

构造一个新的 MetaspaceDecoder 对象。

参数类型描述
configObject

MetaspaceDecoder 的配置对象。

config.add_prefix_spaceboolean

是否为解码后的字符串添加前缀空格。

config.replacementstring

用于替换空格的字符串。


metaspaceDecoder.decode_chain() : <code> * </code>

类型MetaspaceDecoder 的实例方法


tokenizers~Precompiled ⇐ <code> Normalizer </code>

一个应用预编译字符映射表的 normalizer。这对于在 C++ 中应用复杂的 normalization 并将其暴露给 JavaScript 非常有用。

类型: tokenizers 的内部类
Extends: Normalizer


new Precompiled(config)

创建一个 Precompiled normalizer 的新实例。

参数类型描述
configObject

Precompiled normalizer 的配置对象。

config.precompiled_charsmapObject

预编译的字符映射表对象。


precompiled.normalize(text) ⇒ <code> string </code>

通过应用预编译的字符映射表,对给定的文本进行 normalization。

类型Precompiled 的实例方法
Returns: string - 标准化后的文本。

参数类型描述
textstring

要标准化的文本。


tokenizers~PreTokenizerSequence ⇐ <code> PreTokenizer </code>

一个将一系列预 tokenization 器应用于输入文本的预 tokenization 器。

类型: tokenizers 的内部类
ExtendsPreTokenizer


new PreTokenizerSequence(config)

创建一个 PreTokenizerSequence 的实例。

参数类型描述
configObject

预 tokenization 器序列的配置对象。

config.pretokenizersArray.<Object>

预 tokenization 器配置的数组。


preTokenizerSequence.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

依次将序列中的每个预 tokenization 器应用于输入文本。

类型PreTokenizerSequence 的实例方法
Returns: Array.<string> - 预标记化文本。

参数类型描述
textstring

要预标记化的文本。

[options]Object

预标记化逻辑的附加选项。


tokenizers~WhitespacePreTokenizer

在单词边界上拆分(使用以下正则表达式:\w+|[^\w\s]+)。

类型: tokenizers 的内部类


new WhitespacePreTokenizer(config)

创建一个 WhitespacePreTokenizer 的实例。

参数类型描述
configObject

预 tokenization 器的配置对象。


whitespacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过在单词边界上拆分输入文本来对其进行预 tokenization。

类型WhitespacePreTokenizer 的实例方法
返回值Array.<string> - 通过在空格上拆分输入文本而生成的 token 数组。

参数类型描述
textstring

要进行预 tokenization 的文本。

[options]Object

预标记化逻辑的附加选项。


tokenizers~WhitespaceSplit ⇐ <code> PreTokenizer </code>

通过空格字符将文本字符串拆分为单独的标记。

类型: tokenizers 的内部类
ExtendsPreTokenizer


new WhitespaceSplit(config)

创建 WhitespaceSplit 的实例。

参数类型描述
configObject

预 tokenization 器的配置对象。


whitespaceSplit.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过在空格字符上拆分输入文本来对其进行预标记化。

类型WhitespaceSplit 的实例方法
返回值Array.<string> - 通过在空格上拆分输入文本而生成的 token 数组。

参数类型描述
textstring

要进行预 tokenization 的文本。

[options]Object

预标记化逻辑的附加选项。


tokenizers~ReplacePreTokenizer

类型: tokenizers 的内部类


new ReplacePreTokenizer(config)

参数类型描述
configObject

预分词器的配置选项。

config.pattern

Object

用于分割文本的模式。可以是字符串或正则表达式对象。

config.contentstring

用什么替换模式。


replacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过替换某些字符来预标记化输入文本。

类型ReplacePreTokenizer 的实例方法
返回值Array.<string> - 通过替换某些字符生成的标记数组。

参数类型描述
textstring

要进行预 tokenization 的文本。

[options]Object

预标记化逻辑的附加选项。


tokenizers~BYTES_TO_UNICODE ⇒ <code> Object </code>

返回 utf-8 字节列表以及到 unicode 字符串的映射。 特别是避免映射到 BPE 代码会出错的空格/控制字符。

类型tokenizers 的内部常量
返回值Object - 具有 utf-8 字节键和 unicode 字符串值的对象。


tokenizers~loadTokenizer(pretrained_model_name_or_path, options) ⇒ <code> Promise. < Array < any > > </code>

从指定路径加载分词器。

类型tokenizers 的内部方法
返回值Promise.<Array<any>> - 一个 Promise,它解析为有关已加载分词器的信息。

参数类型描述
pretrained_model_name_or_pathstring

分词器目录的路径。

optionsPretrainedTokenizerOptions

用于加载 tokenizer 的其他选项。


tokenizers~regexSplit(text, regex) ⇒ <code> Array. < string > </code>

辅助函数,用于在正则表达式上拆分字符串,但保留分隔符。 这是必需的,因为 JavaScript 的 .split() 方法不保留分隔符,并且包装在捕获组中会导致现有捕获组出现问题(由于嵌套)。

类型tokenizers 的内部方法
返回值Array.<string> - 拆分后的字符串。

参数类型描述
textstring

要拆分的文本。

regexRegExp

要拆分的正则表达式。


tokenizers~createPattern(pattern, invert) ⇒ <code> RegExp </code> | <code> null </code>

从配置对象构造模式的辅助方法。

类型tokenizers 的内部方法
返回值RegExp | null - 编译后的模式。

参数类型默认描述
patternObject

模式对象。

invertbooleantrue

是否反转模式。


tokenizers~objectToMap(obj) ⇒ <code> Map. < string, any > </code>

将 Object 转换为 Map 的辅助函数

类型tokenizers 的内部方法
返回值Map.<string, any> - Map。

参数类型描述
objObject

要转换的对象。


tokenizers~prepareTensorForDecode(tensor) ⇒ <code> Array. < number > </code>

辅助函数,用于在解码之前将张量转换为列表。

类型tokenizers 的内部方法
返回值Array.<number> - 作为列表的张量。

参数类型描述
tensorTensor

要转换的张量。


tokenizers~clean_up_tokenization(text) ⇒ <code> string </code>

清理简单的英语标记化伪像列表,例如标点符号前的空格和缩写形式

类型tokenizers 的内部方法
返回值string - 清理后的文本。

参数类型描述
textstring

要清理的文本。


tokenizers~remove_accents(text) ⇒ <code> string </code>

从字符串中删除重音符号的辅助函数。

类型tokenizers 的内部方法
Returns: string - 去除重音符号的文本。

参数类型描述
textstring

要从中删除重音符号的文本。


tokenizers~lowercase_and_remove_accent(text) ⇒ <code> string </code>

将字符串转换为小写并删除重音符号的辅助函数。

类型tokenizers 的内部方法
返回值string - 已转换为小写并删除重音符号的文本。

参数类型描述
textstring

要转换为小写并删除重音符号的文本。


tokenizers~whitespace_split(text) ⇒ <code> Array. < string > </code>

在空格上拆分字符串。

类型tokenizers 的内部方法
返回值Array.<string> - 拆分后的字符串。

参数类型描述
textstring

要拆分的文本。


tokenizers~PretrainedTokenizerOptions : <code> Object </code>

其他特定于分词器的属性。

类型tokenizers 的内部类型定义
属性

名称类型默认描述
[legacy]booleanfalse

是否应使用分词器的 legacy 行为。


tokenizers~BPENode : <code> Object </code>

类型tokenizers 的内部类型定义
属性

名称类型描述
tokenstring

与节点关联的标记

biasnumber

节点的定位偏差。

[score]number

节点的得分。

[prev]BPENode

链接列表中的上一个节点。

[next]BPENode

链接列表中的下一个节点。


tokenizers~SplitDelimiterBehavior : <code> ’ removed ’ </code> | <code> ’ isolated ’ </code> | <code> ’ mergedWithPrevious ’ </code> | <code> ’ mergedWithNext ’ </code> | <code> ’ contiguous ’ </code>

类型tokenizers 的内部类型定义


tokenizers~PostProcessedOutput : <code> Object </code>

类型tokenizers 的内部类型定义
属性

名称类型描述
tokensArray.<string>

后处理器生成的标记列表。

[token_type_ids]Array.<number>

后处理器生成的标记类型 ID 列表。


tokenizers~EncodingSingle : <code> Object </code>

类型tokenizers 的内部类型定义
属性

名称类型描述
input_idsArray.<number>

要馈送到模型的标记 ID 列表。

attention_maskArray.<number>

要馈送到模型的标记类型 ID 列表

[token_type_ids]Array.<number>

指定模型应关注哪些标记的索引列表


tokenizers~Message : <code> Object </code>

类型tokenizers 的内部类型定义
属性

名称类型描述
rolestring

消息的角色(例如,“用户”或“助手”或“系统”)。

contentstring

消息的内容。


tokenizers~BatchEncoding : <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> Tensor </code>

保存分词器调用函数的输出。

类型tokenizers 的内部类型定义
属性

名称类型描述
input_idsBatchEncodingItem

要馈送到模型的标记 ID 列表。

attention_maskBatchEncodingItem

指定模型应关注哪些标记的索引列表。

[token_type_ids]BatchEncodingItem

要馈送到模型的标记类型 ID 列表。


< > 在 GitHub 上更新