Transformers.js 文档

分词器

Transformers.js

您正在查看 main 版本，该版本需要从源代码安装。如果您想要常规的 npm 安装，请查看最新的稳定版本 (v3.0.0)。

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

在文档主题之间切换

开始使用

分词器

分词器用于准备模型的文本输入。

示例： 创建一个 AutoTokenizer 并使用它来分词一个句子。这将根据 tokenizer.json 中定义的分词器类自动检测分词器类型。

import { AutoTokenizer } from '@huggingface/transformers';

const tokenizer = await AutoTokenizer.from_pretrained('Xenova/bert-base-uncased');
const { input_ids } = await tokenizer('I love transformers!');
// Tensor {
//   data: BigInt64Array(6) [101n, 1045n, 2293n, 19081n, 999n, 102n],
//   dims: [1, 6],
//   type: 'int64',
//   size: 6,
// }

分词器
- 静态
  - .TokenizerModel ⇐ Callable
    - new TokenizerModel(config)
    - 实例
      - .vocab : Array.<string>
      - .tokens_to_ids : Map.<string, number>
      - .fuse_unk : boolean
      - ._call(tokens) ⇒ Array.<string>
      - .encode(tokens) ⇒ Array.<string>
      - .convert_tokens_to_ids(tokens) ⇒ Array.<number>
      - .convert_ids_to_tokens(ids) ⇒ Array.<string>
    - 静态
      - .fromConfig(config, ...args) ⇒ TokenizerModel
  - .PreTrainedTokenizer
    - new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)
    - 实例
      - .added_tokens : Array.<AddedToken>
      - .added_tokens_map : Map.<string, AddedToken>
      - .remove_space : boolean
      - ._call(text, options) ⇒ BatchEncoding
      - ._encode_text(text) ⇒ Array<string> | null
      - ._tokenize_helper(text, options) ⇒ *
      - .tokenize(text, options) ⇒ Array.<string>
      - .encode(text, options) ⇒ Array.<number>
      - .batch_decode(batch, decode_args) ⇒ Array.<string>
      - .decode(token_ids, [decode_args]) ⇒ string
      - .decode_single(token_ids, decode_args) ⇒ string
      - .get_chat_template(options) ⇒ string
      - .apply_chat_template(conversation, options) ⇒ string | Tensor | Array<number> | Array<Array<number>> | BatchEncoding
    - 静态
      - .from_pretrained(pretrained_model_name_or_path, options) ⇒ Promise.<PreTrainedTokenizer>
  - .BertTokenizer ⇐ PreTrainedTokenizer
  - .AlbertTokenizer ⇐ PreTrainedTokenizer
  - .NllbTokenizer
    - ._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ Object
  - .M2M100Tokenizer
    - ._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ Object
  - .WhisperTokenizer ⇐ PreTrainedTokenizer
    - ._decode_asr(sequences, options) ⇒ *
    - .decode() : *
  - .MarianTokenizer
    - new MarianTokenizer(tokenizerJSON, tokenizerConfig)
    - ._encode_text(text) ⇒ Array
  - .AutoTokenizer
    - new AutoTokenizer()
    - .from_pretrained(pretrained_model_name_or_path, options) ⇒ Promise.<PreTrainedTokenizer>
  - .is_chinese_char(cp) ⇒ boolean
- 内部
  - ~AddedToken
    - new AddedToken(config)
  - ~WordPieceTokenizer ⇐ TokenizerModel
    - new WordPieceTokenizer(config)
    - .tokens_to_ids : Map.<string, number>
    - .unk_token_id : number
    - .unk_token : string
    - .max_input_chars_per_word : number
    - .vocab : Array.<string>
    - .encode(tokens) ⇒ Array.<string>
  - ~Unigram ⇐ TokenizerModel
    - new Unigram(config, moreConfig)
    - .scores : Array.<number>
    - .populateNodes(lattice)
    - .tokenize(normalized) ⇒ Array.<string>
    - .encode(tokens) ⇒ Array.<string>
  - ~BPE ⇐ TokenizerModel
    - new BPE(config)
    - .tokens_to_ids : Map.<string, number>
    - .merges : *
      - .config.merges : *
    - .cache : Map.<string, Array<string>>
    - .bpe(token) ⇒ Array.<string>
    - .encode(tokens) ⇒ Array.<string>
  - ~LegacyTokenizerModel
    - new LegacyTokenizerModel(config, moreConfig)
    - .tokens_to_ids : Map.<string, number>
  - ~Normalizer
    - new Normalizer(config)
    - 实例
      - .normalize(text) ⇒ string
      - ._call(text) ⇒ string
    - 静态
      - .fromConfig(config) ⇒ Normalizer
  - ~Replace ⇐ Normalizer
    - .normalize(text) ⇒ string
  - ~UnicodeNormalizer ⇐ Normalizer
    - .form : string
    - .normalize(text) ⇒ string
  - ~NFC ⇐ UnicodeNormalizer
  - ~NFD ⇐ UnicodeNormalizer
  - ~NFKC ⇐ UnicodeNormalizer
  - ~NFKD ⇐ UnicodeNormalizer
  - ~StripNormalizer
    - .normalize(text) ⇒ string
  - ~StripAccents ⇐ Normalizer
    - .normalize(text) ⇒ string
  - ~Lowercase ⇐ Normalizer
    - .normalize(text) ⇒ string
  - ~Prepend ⇐ Normalizer
    - .normalize(text) ⇒ string
  - ~NormalizerSequence ⇐ Normalizer
    - new NormalizerSequence(config)
    - .normalize(text) ⇒ string
  - ~BertNormalizer ⇐ Normalizer
    - ._tokenize_chinese_chars(text) ⇒ string
    - .stripAccents(text) ⇒ string
    - .normalize(text) ⇒ string
  - ~PreTokenizer ⇐ Callable
    - 实例
      - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
      - .pre_tokenize(text, [options]) ⇒ Array.<string>
      - ._call(text, [options]) ⇒ Array.<string>
    - 静态
      - .fromConfig(config) ⇒ PreTokenizer
  - ~BertPreTokenizer ⇐ PreTokenizer
    - new BertPreTokenizer(config)
    - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - ~ByteLevelPreTokenizer ⇐ PreTokenizer
    - new ByteLevelPreTokenizer(config)
    - .add_prefix_space : boolean
    - .trim_offsets : boolean
    - .use_regex : boolean
    - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - ~SplitPreTokenizer ⇐ PreTokenizer
    - new SplitPreTokenizer(config)
    - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - ~PunctuationPreTokenizer ⇐ PreTokenizer
    - new PunctuationPreTokenizer(config)
    - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - ~DigitsPreTokenizer ⇐ PreTokenizer
    - new DigitsPreTokenizer(config)
    - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - ~PostProcessor ⇐ Callable
    - new PostProcessor(config)
    - 实例
      - .post_process(tokens, ...args) ⇒ PostProcessedOutput
      - ._call(tokens, ...args) ⇒ PostProcessedOutput
    - 静态
      - .fromConfig(config) ⇒ PostProcessor
  - ~BertProcessing
    - new BertProcessing(config)
    - .post_process(tokens, [tokens_pair]) ⇒ PostProcessedOutput
  - ~TemplateProcessing ⇐ PostProcessor
    - new TemplateProcessing(config)
    - .post_process(tokens, [tokens_pair]) ⇒ PostProcessedOutput
  - ~ByteLevelPostProcessor ⇐ PostProcessor
    - .post_process(tokens, [tokens_pair]) ⇒ PostProcessedOutput
  - ~PostProcessorSequence
    - new PostProcessorSequence(config)
    - .post_process(tokens, [tokens_pair]) ⇒ PostProcessedOutput
  - ~Decoder ⇐ Callable
    - new Decoder(config)
    - 实例
      - .added_tokens : Array.<AddedToken>
      - ._call(tokens) ⇒ string
      - .decode(tokens) ⇒ string
      - .decode_chain(tokens) ⇒ Array.<string>
    - 静态
      - .fromConfig(config) ⇒ Decoder
  - ~FuseDecoder
    - .decode_chain() : *
  - ~WordPieceDecoder ⇐ Decoder
    - new WordPieceDecoder(config)
    - .decode_chain() : *
  - ~ByteLevelDecoder ⇐ Decoder
    - new ByteLevelDecoder(config)
    - .convert_tokens_to_string(tokens) ⇒ string
    - .decode_chain() : *
  - ~CTCDecoder
    - .convert_tokens_to_string(tokens) ⇒ string
    - .decode_chain() : *
  - ~DecoderSequence ⇐ Decoder
    - new DecoderSequence(config)
    - .decode_chain() : *
  - ~MetaspacePreTokenizer ⇐ PreTokenizer
    - new MetaspacePreTokenizer(config)
    - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - ~MetaspaceDecoder ⇐ Decoder
    - new MetaspaceDecoder(config)
    - .decode_chain() : *
  - ~Precompiled ⇐ Normalizer
    - new Precompiled(config)
    - .normalize(text) ⇒ string
  - ~PreTokenizerSequence ⇐ PreTokenizer
    - new PreTokenizerSequence(config)
    - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - ~WhitespacePreTokenizer
    - new WhitespacePreTokenizer(config)
    - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - ~WhitespaceSplit ⇐ PreTokenizer
    - new WhitespaceSplit(config)
    - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - ~ReplacePreTokenizer
    - new ReplacePreTokenizer(config)
    - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - ~BYTES_TO_UNICODE ⇒ Object
  - ~loadTokenizer(pretrained_model_name_or_path, options) ⇒ Promise.<Array<any>>
  - ~regexSplit(text, regex) ⇒ Array.<string>
  - ~createPattern(pattern, invert) ⇒ RegExp | null
  - ~objectToMap(obj) ⇒ Map.<string, any>
  - ~prepareTensorForDecode(tensor) ⇒ Array.<number>
  - ~clean_up_tokenization(text) ⇒ string
  - ~remove_accents(text) ⇒ string
  - ~lowercase_and_remove_accent(text) ⇒ string
  - ~whitespace_split(text) ⇒ Array.<string>
  - ~PretrainedTokenizerOptions : Object
  - ~BPENode : Object
  - ~SplitDelimiterBehavior : ’removed’ | ’isolated’ | ’mergedWithPrevious’ | ’mergedWithNext’ | ’contiguous’
  - ~PostProcessedOutput : Object
  - ~EncodingSingle : Object
  - ~Message : Object
  - ~BatchEncoding : Array<number> | Array<Array<number>> | Tensor

tokenizers.TokenizerModel ⇐ `Callable`

分词器模型的抽象基类。

类型：tokenizers 的静态类
继承自：Callable

.TokenizerModel ⇐ Callable
- new TokenizerModel(config)
- 实例
  - .vocab : Array.<string>
  - .tokens_to_ids : Map.<string, number>
  - .fuse_unk : boolean
  - ._call(tokens) ⇒ Array.<string>
  - .encode(tokens) ⇒ Array.<string>
  - .convert_tokens_to_ids(tokens) ⇒ Array.<number>
  - .convert_ids_to_tokens(ids) ⇒ Array.<string>
- 静态
  - .fromConfig(config, ...args) ⇒ TokenizerModel

new TokenizerModel(config)

创建一个 TokenizerModel 的新实例。

参数	类型	描述
config	`Object`	TokenizerModel 的配置对象。

tokenizerModel.vocab : `Array. < string >`

类型：TokenizerModel 的实例属性

tokenizerModel.tokens_to_ids : `Map. < string, number >`

令牌到 ID 的映射。

类型：TokenizerModel 的实例属性

tokenizerModel.fuse_unk : `boolean`

是否在编码时融合未知令牌。默认为 false。

类型：TokenizerModel 的实例属性

tokenizerModel._call(tokens) ⇒ `Array. < string >`

调用 TokenizerModel 实例的内部函数。

类型：TokenizerModel 的实例方法
覆盖：_call
返回值：Array.<string> - 编码后的令牌。

参数	类型	描述
tokens	`Array.<string>`	要编码的令牌。

tokenizerModel.encode(tokens) ⇒ `Array. < string >`

将令牌列表编码为令牌 ID 列表。

类型：TokenizerModel 的实例方法
返回值：Array.<string> - 编码后的令牌。
抛出:

如果在子类中未实现，将抛出错误。

参数	类型	描述
tokens	`Array.<string>`	要编码的令牌。

tokenizerModel.convert_tokens_to_ids(tokens) ⇒ `Array. < number >`

将令牌列表转换为令牌 ID 列表。

类型：TokenizerModel 的实例方法
返回值：Array.<number> - 转换后的令牌 ID。

参数	类型	描述
tokens	`Array.<string>`	要转换的令牌。

tokenizerModel.convert_ids_to_tokens(ids) ⇒ <code> Array. < string > </code>

将 token ID 列表转换为 token 列表。

类型：TokenizerModel 的实例方法
返回值：Array.<string> - 转换后的 token。

参数	类型	描述
ids	`Array<number>` \| `Array<bigint>`	要转换的 token ID。

TokenizerModel.fromConfig(config, ...args) ⇒ <code> TokenizerModel </code>

基于提供的配置对象实例化一个新的 TokenizerModel 实例。

类型：TokenizerModel 的静态方法
返回值：TokenizerModel - TokenizerModel 的新实例。
抛出:

如果配置中的 TokenizerModel 类型无法识别，将抛出错误。

参数	类型	描述
config	`Object`	TokenizerModel 的配置对象。
...args	`*`	传递给特定 TokenizerModel 构造函数的可选参数。

tokenizers.PreTrainedTokenizer

类型：tokenizers 的静态类

.PreTrainedTokenizer
- new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)
- 实例
  - .added_tokens : Array.<AddedToken>
  - .added_tokens_map : Map.<string, AddedToken>
  - .remove_space : boolean
  - ._call(text, options) ⇒ BatchEncoding
  - ._encode_text(text) ⇒ Array<string> | null
  - ._tokenize_helper(text, options) ⇒ *
  - .tokenize(text, options) ⇒ Array.<string>
  - .encode(text, options) ⇒ Array.<number>
  - .batch_decode(batch, decode_args) ⇒ Array.<string>
  - .decode(token_ids, [decode_args]) ⇒ string
  - .decode_single(token_ids, decode_args) ⇒ string
  - .get_chat_template(options) ⇒ string
  - .apply_chat_template(conversation, options) ⇒ string | Tensor | Array<number> | Array<Array<number>> | BatchEncoding
- 静态
  - .from_pretrained(pretrained_model_name_or_path, options) ⇒ Promise.<PreTrainedTokenizer>

new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)

创建一个新的 PreTrainedTokenizer 实例。

参数	类型	描述
tokenizerJSON	`Object`	tokenizer 的 JSON。
tokenizerConfig	`Object`	tokenizer 的配置。

preTrainedTokenizer.added_tokens : <code> Array. < AddedToken > </code>

类型：PreTrainedTokenizer 的实例属性

preTrainedTokenizer.added_tokens_map : <code> Map. < string, AddedToken > </code>

类型：PreTrainedTokenizer 的实例属性

preTrainedTokenizer.remove_space : <code> boolean </code>

在 token 化时是否去除文本中的空格（删除字符串前后多余的空格）。

类型：PreTrainedTokenizer 的实例属性

preTrainedTokenizer._call(text, options) ⇒ <code> BatchEncoding </code>

编码/token 化给定的文本。

类型：PreTrainedTokenizer 的实例方法
返回值：BatchEncoding - 要传递给模型的对象。

参数	类型	默认	描述
text	`string` \| `Array<string>`		要 token 化的文本。
options	`Object`		一个可选对象，包含以下属性
[options.text_pair]	`string` \| `Array<string>`	`null`	可选的第二个要编码的序列。如果设置，则必须与 text 类型相同。
[options.padding]	`boolean` \| `'max_length'`	`false`	是否填充输入序列。
[options.add_special_tokens]	`boolean`	`true`	是否添加与相应模型关联的特殊 token。
[options.truncation]	`boolean`		是否截断输入序列。
[options.max_length]	`number`		返回列表的最大长度以及可选的填充长度。
[options.return_tensor]	`boolean`	`true`	是否将结果作为 Tensor 或数组返回。
[options.return_token_type_ids]	`boolean`		是否返回 token 类型 ID。

preTrainedTokenizer._encode_text(text) ⇒ <code> Array < string > </code> | <code> null </code>

使用 tokenizer 的预处理器流水线编码单个文本。

类型：PreTrainedTokenizer 的实例方法
返回值：Array<string> | null - 编码后的 token。

参数	类型	描述
text	`string` \| `null`	要编码的文本。

preTrainedTokenizer._tokenize_helper(text, options) ⇒ <code> * </code>

用于 token 化文本以及可选的文本对的内部辅助函数。

类型：PreTrainedTokenizer 的实例方法
返回值：* - 一个包含 token 以及可选的 token 类型 ID 的对象。

参数	类型	默认	描述
text	`string`		要 token 化的文本。
options	`Object`		一个可选对象，包含以下属性
[options.pair]	`string`	`null`	可选的第二个要 token 化的文本。
[options.add_special_tokens]	`boolean`	`false`	是否添加与相应模型关联的特殊 token。

preTrainedTokenizer.tokenize(text, options) ⇒ <code> Array. < string > </code>

将字符串转换为 token 序列。

类型：PreTrainedTokenizer 的实例方法
返回值：Array.<string> - token 列表。

参数	类型	默认	描述
text	`string`		要编码的序列。
options	`Object`		一个可选对象，包含以下属性
[options.pair]	`string`		要与第一个序列一起编码的第二个序列。
[options.add_special_tokens]	`boolean`	`false`	是否添加与相应模型关联的特殊 token。

preTrainedTokenizer.encode(text, options) ⇒ <code> Array. < number > </code>

使用模型的 tokenizer 编码单个文本或文本对。

类型：PreTrainedTokenizer 的实例方法
返回值：Array.<number> - 表示编码文本的 token ID 数组。

参数	类型	默认	描述
text	`string`		要编码的文本。
options	`Object`		一个可选对象，包含以下属性
[options.text_pair]	`string`	`null`	可选的第二个要编码的文本。
[options.add_special_tokens]	`boolean`	`true`	是否添加与相应模型关联的特殊 token。
[options.return_token_type_ids]	`boolean`		是否返回 token_type_ids。

preTrainedTokenizer.batch_decode(batch, decode_args) ⇒ <code> Array. < string > </code>

解码一批 token 化的序列。

类型：PreTrainedTokenizer 的实例方法
返回值：Array.<string> - 解码序列的列表。

参数	类型	描述
batch	`Array<Array<number>>` \| `Tensor`	token 化输入序列的列表/Tensor。
decode_args	`Object`	（可选）包含解码参数的对象。

preTrainedTokenizer.decode(token_ids, [decode_args]) ⇒ <code> string </code>

将 token ID 序列解码回字符串。

类型：PreTrainedTokenizer 的实例方法
返回值：string - 解码后的字符串。
抛出:

Error 如果 `token_ids` 不是非空整数数组。

参数	类型	默认	描述
token_ids	`Array<number>` \| `Array<bigint>` \| `Tensor`		要解码的 token ID 的列表/Tensor。
[decode_args]	`Object`	`{}`
[decode_args.skip_special_tokens]	`boolean`	`false`	如果为 true，则从输出字符串中删除特殊 token。
[decode_args.clean_up_tokenization_spaces]	`boolean`	`true`	如果为 true，则删除标点符号和缩写形式前的空格。

preTrainedTokenizer.decode_single(token_ids, decode_args) ⇒ <code> string </code>

将单个 token ID 列表解码为字符串。

类型：PreTrainedTokenizer 的实例方法
返回值：string - 解码后的字符串

参数	类型	默认	描述
token_ids	`Array<number>` \| `Array<bigint>`		要解码的 token ID 列表
decode_args	`Object`		解码的可选参数
[decode_args.skip_special_tokens]	`boolean`	`false`	在解码期间是否跳过特殊 token
[decode_args.clean_up_tokenization_spaces]	`boolean`		在解码期间是否清理 token 化空格。如果为 null，则该值设置为 `this.decoder.cleanup`（如果存在），如果不存在，则回退到 `this.clean_up_tokenization_spaces`，如果还不存在，则回退到 `true`。

preTrainedTokenizer.get_chat_template(options) ⇒ <code> string </code>

检索用于 token 化聊天消息的聊天模板字符串。此模板在内部由 apply_chat_template 方法使用，也可以在外部使用，以检索模型的聊天模板，从而更好地跟踪生成。

类型：PreTrainedTokenizer 的实例方法
返回值：string - 聊天模板字符串。

参数	类型	默认	描述
options	`Object`		一个可选对象，包含以下属性
[options.chat_template]	`string`	`null`	用于此转换的 Jinja 模板或模板名称。通常不需要为此参数传递任何内容，因为默认情况下将使用模型的模板。
[options.tools]	`Array.<Object>`		模型可以访问的工具（可调用函数）列表。如果模板不支持函数调用，则此参数将不起作用。每个工具都应作为 JSON Schema 传递，其中给出工具的名称、描述和参数类型。有关更多信息，请参阅我们的聊天模板指南。

preTrainedTokenizer.apply_chat_template(conversation, options) ⇒ <code> string </code> | <code> Tensor </code> | <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> BatchEncoding </code>

将包含 "role" 和 "content" 键的消息对象列表转换为 token ID 列表。此方法旨在与聊天模型一起使用，并将读取 tokenizer 的 chat_template 属性，以确定转换时要使用的格式和控制 token。

有关更多信息，请参阅此处。

示例： 将聊天模板应用于对话。

import { AutoTokenizer } from "@huggingface/transformers";

const tokenizer = await AutoTokenizer.from_pretrained("Xenova/mistral-tokenizer-v1");

const chat = [
  { "role": "user", "content": "Hello, how are you?" },
  { "role": "assistant", "content": "I'm doing great. How can I help you today?" },
  { "role": "user", "content": "I'd like to show off how chat templating works!" },
]

const text = tokenizer.apply_chat_template(chat, { tokenize: false });
// "<s>[INST] Hello, how are you? [/INST]I'm doing great. How can I help you today?</s> [INST] I'd like to show off how chat templating works! [/INST]"

const input_ids = tokenizer.apply_chat_template(chat, { tokenize: true, return_tensor: false });
// [1, 733, 16289, 28793, 22557, 28725, 910, 460, 368, 28804, 733, 28748, 16289, 28793, 28737, 28742, 28719, 2548, 1598, 28723, 1602, 541, 315, 1316, 368, 3154, 28804, 2, 28705, 733, 16289, 28793, 315, 28742, 28715, 737, 298, 1347, 805, 910, 10706, 5752, 1077, 3791, 28808, 733, 28748, 16289, 28793]

类型：PreTrainedTokenizer 的实例方法
返回值：string | Tensor | Array<number> | Array<Array<number>> | BatchEncoding - token 化输出。

参数	类型	默认	描述
conversation	`Array.<Message>`		消息对象列表，包含 `"role"` 和 `"content"` 键，表示到目前为止的聊天历史记录。
options	`Object`		一个可选对象，包含以下属性
[options.chat_template]	`string`	`null`	用于此转换的 Jinja 模板。如果未传递此模板，则将使用模型的聊天模板。
[options.tools]	`Array.<Object>`		模型可以访问的工具（可调用函数）列表。如果模板不支持函数调用，则此参数将不起作用。每个工具都应作为 JSON Schema 传递，其中给出工具的名称、描述和参数类型。有关更多信息，请参阅我们的聊天模板指南。
[options.documents]	`*`		表示文档的字典列表，如果模型正在执行 RAG（检索增强生成），则模型可以访问这些文档。如果模板不支持 RAG，则此参数将不起作用。我们建议每个文档都应该是一个包含“title”和“text”键的字典。有关使用聊天模板传递文档的示例，请参阅聊天模板指南的 RAG 部分。
[options.add_generation_prompt]	`boolean`	`false`	是否以指示助手消息开始的 token 结束提示。当您想从模型生成响应时，这很有用。请注意，此参数将传递给聊天模板，因此必须在模板中支持此参数才能生效。
[options.tokenize]	`boolean`	`true`	是否 token 化输出。如果为 false，则输出将为字符串。
[options.padding]	`boolean`	`false`	是否将序列填充到最大长度。如果 tokenize 为 false，则无效。
[options.truncation]	`boolean`	`false`	是否将序列截断到最大长度。如果 tokenize 为 false，则无效。
[options.max_length]	`number`		用于填充或截断的最大长度（以 token 为单位）。如果 tokenize 为 false，则无效。如果未指定，则 tokenizer 的 `max_length` 属性将用作默认值。
[options.return_tensor]	`boolean`	`true`	是否将输出作为 Tensor 或数组返回。如果 tokenize 为 false，则无效。
[options.return_dict]	`boolean`	`true`	是否返回带有命名输出的字典。如果 tokenize 为 false，则无效。
[options.tokenizer_kwargs]	`Object`	`{}`	要传递给 tokenizer 的其他选项。

PreTrainedTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>

从给定的 pretrained_model_name_or_path 加载预训练的 tokenizer。

类型：PreTrainedTokenizer 的静态方法
返回值：Promise.<PreTrainedTokenizer> - PreTrainedTokenizer 类的新实例。
抛出:

Error 如果在 `pretrained_model_name_or_path` 中找不到 tokenizer.json 或 tokenizer_config.json 文件，则抛出错误。

参数	类型	描述
pretrained_model_name_or_path	`string`	预训练 tokenizer 的路径。
options	`PretrainedTokenizerOptions`	用于加载 tokenizer 的其他选项。

tokenizers.BertTokenizer ⇐ <code> PreTrainedTokenizer </code>

BertTokenizer 是一个用于为 BERT 模型 token 化文本的类。

类型：tokenizers 的静态类
继承自：PreTrainedTokenizer

tokenizers.AlbertTokenizer ⇐ <code> PreTrainedTokenizer </code>

Albert tokenizer

类型：tokenizers 的静态类
继承自：PreTrainedTokenizer

tokenizers.NllbTokenizer

NllbTokenizer 类用于为 NLLB（“No Language Left Behind”）模型 token 化文本。

No Language Left Behind (NLLB) 是首个同类 AI 突破性项目，该项目开源了能够在 200 多种语言对之间直接进行高质量翻译的模型，包括阿斯图里亚斯语、卢干达语、乌尔都语等低资源语言。其旨在帮助人们与任何人、在任何地方进行交流，无论他们的语言偏好如何。有关更多信息，请查看他们的论文。

有关支持的语言列表（及其语言代码），

类型：tokenizers 的静态类
参见：https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200

nllbTokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>

用于为 NllbTokenizer 构建翻译输入的辅助函数。

类型: NllbTokenizer 的实例方法
返回: Object - 要传递给模型的对象。

参数	类型	描述
raw_inputs	`string` \| `Array<string>`	要 token 化的文本。
tokenizer_options	`Object`	要发送给分词器的选项
generate_kwargs	`Object`	生成选项。

tokenizers.M2M100Tokenizer

M2M100Tokenizer 类用于为 M2M100（“多对多”）模型分词文本。

M2M100 是一个为多对多语言翻译训练的多语言编码器-解码器（seq-to-seq）模型。它在论文中被介绍，并首次在此仓库中发布。

有关支持的语言列表（及其语言代码），

类型：tokenizers 的静态类
参见: https://huggingface.co/facebook/m2m100_418M#languages-covered

m2M100Tokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>

用于为 M2M100Tokenizer 构建翻译输入的辅助函数。

类型: M2M100Tokenizer 的实例方法
返回: Object - 要传递给模型的对象。

参数	类型	描述
raw_inputs	`string` \| `Array<string>`	要 token 化的文本。
tokenizer_options	`Object`	要发送给分词器的选项
generate_kwargs	`Object`	生成选项。

tokenizers.WhisperTokenizer ⇐ <code> PreTrainedTokenizer </code>

WhisperTokenizer 分词器

类型：tokenizers 的静态类
继承自：PreTrainedTokenizer

.WhisperTokenizer ⇐ PreTrainedTokenizer
- ._decode_asr(sequences, options) ⇒ *
- .decode() : *

whisperTokenizer._decode_asr(sequences, options) ⇒ <code> * </code>

解码自动语音识别 (ASR) 序列。

类型: WhisperTokenizer 的实例方法
返回: * - 解码后的序列。

参数	类型	描述
sequences	`*`	要解码的序列。
options	`Object`	用于解码的选项。

whisperTokenizer.decode() : <code> * </code>

类型: WhisperTokenizer 的实例方法

tokenizers.MarianTokenizer

类型：tokenizers 的静态类
待办事项

Hugging Face 的 “fast” 分词器库 (https://github.com/huggingface/tokenizers) 尚不支持此模型。因此，此实现（基于 fast 分词器）可能会产生略微不准确的结果。

.MarianTokenizer
- new MarianTokenizer(tokenizerJSON, tokenizerConfig)
- ._encode_text(text) ⇒ Array

new MarianTokenizer(tokenizerJSON, tokenizerConfig)

创建一个新的 MarianTokenizer 实例。

参数	类型	描述
tokenizerJSON	`Object`	tokenizer 的 JSON。
tokenizerConfig	`Object`	tokenizer 的配置。

marianTokenizer._encode_text(text) ⇒ <code> Array </code>

编码单个文本。由于必须先删除语言代码，然后才能使用 sentencepiece 模型进行编码，因此必须覆盖此方法。

类型: MarianTokenizer 的实例方法
返回: Array - 编码后的 token。
参见: https://github.com/huggingface/transformers/blob/12d51db243a00726a548a43cc333390ebae731e3/src/transformers/models/marian/tokenization_marian.py#L204-L213

参数	类型	描述
text	`string` \| `null`	要编码的文本。

tokenizers.AutoTokenizer

辅助类，用于使用 from_pretrained 函数实例化预训练的分词器。选择的分词器类由分词器配置中指定的类型决定。

类型：tokenizers 的静态类

.AutoTokenizer
- new AutoTokenizer()
- .from_pretrained(pretrained_model_name_or_path, options) ⇒ Promise.<PreTrainedTokenizer>

new AutoTokenizer()

示例

const tokenizer = await AutoTokenizer.from_pretrained('Xenova/bert-base-uncased');

AutoTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>

从预训练模型实例化库中的一个分词器类。

要实例化的分词器类是根据配置对象的 tokenizer_class 属性选择的（可以作为参数传递，也可以从 pretrained_model_name_or_path 加载，如果可能的话）

类型: AutoTokenizer 的静态方法
返回: Promise.<PreTrainedTokenizer> - PreTrainedTokenizer 类的新实例。

参数类型描述

pretrained_model_name_or_path

参数	类型	描述
pretrained_model_name_or_path	`string`	预训练模型的名称或路径。可以是一个字符串，即托管在 huggingface.co 上的模型仓库内的预训练分词器的模型 ID。有效的模型 ID 可以位于根级别，例如 `bert-base-uncased`，或者在用户或组织名称下命名空间，例如 `dbmdz/bert-base-german-cased`。包含分词器文件的目录的路径，例如 `./my_model_directory/`。
options	`PretrainedTokenizerOptions`	用于加载 tokenizer 的其他选项。

string

预训练模型的名称或路径。可以是

一个字符串，即托管在 huggingface.co 上的模型仓库内的预训练分词器的模型 ID。有效的模型 ID 可以位于根级别，例如 bert-base-uncased，或者在用户或组织名称下命名空间，例如 dbmdz/bert-base-german-cased。
包含分词器文件的目录的路径，例如 ./my_model_directory/。

options

PretrainedTokenizerOptions

用于加载 tokenizer 的其他选项。

tokenizers.is_chinese_char(cp) ⇒ <code> boolean </code>

检查给定的 Unicode 代码点是否代表 CJK（中文、日文或韩文）字符。

“中文字符”定义为 CJK Unicode 区块中的任何内容：https://en.wikipedia.org/wiki/CJK_Unified_Ideographs_(Unicode_block)

请注意，CJK Unicode 区块并非所有日文和韩文字符，尽管其名称如此。现代韩文韩文字母是一个不同的区块，日文平假名和片假名也是如此。这些字母表用于书写空格分隔的单词，因此它们不会被特殊对待，而是像所有其他语言一样处理。

类型: tokenizers 的静态方法
返回: boolean - 如果代码点代表 CJK 字符，则为 True，否则为 False。

参数	类型	描述
cp	`number` \| `bigint`	要检查的 Unicode 代码点。

tokenizers~AddedToken

表示用户在现有模型词汇表之上添加的 token。AddedToken 可以配置为指定它们在各种情况下的行为，例如

它们是否应该只匹配单个单词
是否在其左侧或右侧包含任何空格

类型: tokenizers 的内部类

new AddedToken(config)

创建 AddedToken 的新实例。

参数	类型	默认	描述
config	`Object`		添加的 token 配置对象。
config.content	`string`		添加的 token 的内容。
config.id	`number`		添加的 token 的 ID。
[config.single_word]	`boolean`	`false`	此 token 是否必须是单个单词或可以拆分单词。
[config.lstrip]	`boolean`	`false`	此 token 是否应剥离其左侧的空格。
[config.rstrip]	`boolean`	`false`	此 token 是否应剥离其右侧的空格。
[config.normalized]	`boolean`	`false`	是否应规范化此 token。
[config.special]	`boolean`	`false`	此 token 是否特殊。

tokenizers~WordPieceTokenizer ⇐ <code> TokenizerModel </code>

TokenizerModel 的子类，它使用 WordPiece 编码来编码 token。

类型: tokenizers 的内部类
继承自: TokenizerModel

~WordPieceTokenizer ⇐ TokenizerModel
- new WordPieceTokenizer(config)
- .tokens_to_ids : Map.<string, number>
- .unk_token_id : number
- .unk_token : string
- .max_input_chars_per_word : number
- .vocab : Array.<string>
- .encode(tokens) ⇒ Array.<string>

new WordPieceTokenizer(config)

参数	类型	默认	描述
config	`Object`		配置对象。
config.vocab	`Object`		令牌到 ID 的映射。
config.unk_token	`string`		未知 token 字符串。
config.continuing_subword_prefix	`string`		用于继续子词的前缀。
[config.max_input_chars_per_word]	`number`	`100`	每个单词的最大字符数。

wordPieceTokenizer.tokens_to_ids : <code> Map. < string, number > </code>

令牌到 ID 的映射。

类型: WordPieceTokenizer 的实例属性

wordPieceTokenizer.unk_token_id : <code> number </code>

未知 token 的 ID。

类型: WordPieceTokenizer 的实例属性

wordPieceTokenizer.unk_token : <code> string </code>

未知 token 字符串。

类型: WordPieceTokenizer 的实例属性

wordPieceTokenizer.max_input_chars_per_word : <code> number </code>

每个单词允许的最大字符数。

类型: WordPieceTokenizer 的实例属性

wordPieceTokenizer.vocab : <code> Array. < string > </code>

token 数组。

类型: WordPieceTokenizer 的实例属性

wordPieceTokenizer.encode(tokens) ⇒ <code> Array. < string > </code>

使用 WordPiece 编码对 token 数组进行编码。

类型: WordPieceTokenizer 的实例方法
返回: Array.<string> - 编码后的 token 数组。

参数	类型	描述
tokens	`Array.<string>`	要编码的令牌。

tokenizers~Unigram ⇐ <code> TokenizerModel </code>

表示 Unigram 分词器模型的类。

类型: tokenizers 的内部类
继承自: TokenizerModel

~Unigram ⇐ TokenizerModel
- new Unigram(config, moreConfig)
- .scores : Array.<number>
- .populateNodes(lattice)
- .tokenize(normalized) ⇒ Array.<string>
- .encode(tokens) ⇒ Array.<string>

new Unigram(config, moreConfig)

创建一个新的 Unigram 分词器模型。

参数	类型	描述
config	`Object`	Unigram 模型的配置对象。
config.unk_id	`number`	未知 token 的 ID
config.vocab	`*`	一个 2D 数组，表示 token 到分数的映射。
moreConfig	`Object`	Unigram 模型的附加配置对象。

unigram.scores : <code> Array. < number > </code>

Kind: Unigram 的实例属性

unigram.populateNodes(lattice)

填充 lattice 节点。

Kind: Unigram 的实例方法

参数	类型	描述
lattice	`TokenLattice`	要填充节点的 token lattice。

unigram.tokenize(normalized) ⇒ <code> Array. < string > </code>

使用 unigram 模型将 token 数组编码为 subtoken 数组。

Kind: Unigram 的实例方法
Returns: Array.<string> - 通过使用 unigram 模型编码输入 token 获得的 subtoken 数组。

参数	类型	描述
normalized	`string`	标准化的字符串。

unigram.encode(tokens) ⇒ <code> Array. < string > </code>

使用 Unigram 编码对 token 数组进行编码。

Kind: Unigram 的实例方法
返回: Array.<string> - 编码后的 token 数组。

参数	类型	描述
tokens	`Array.<string>`	要编码的令牌。

tokenizers~BPE ⇐ <code> TokenizerModel </code>

BPE 类，用于将文本编码为 Byte-Pair-Encoding (BPE) token。

类型: tokenizers 的内部类
继承自: TokenizerModel

~BPE ⇐ TokenizerModel
- new BPE(config)
- .tokens_to_ids : Map.<string, number>
- .merges : *
  - .config.merges : *
- .cache : Map.<string, Array<string>>
- .bpe(token) ⇒ Array.<string>
- .encode(tokens) ⇒ Array.<string>

new BPE(config)

创建 BPE 实例。

参数	类型	默认	描述
config	`Object`		BPE 的配置对象。
config.vocab	`Object`		令牌到 ID 的映射。
config.merges	`*`		BPE 合并的字符串数组。
config.unk_token	`string`		用于词汇表外单词的未知 token。
config.end_of_word_suffix	`string`		放置在每个单词末尾的后缀。
[config.continuing_subword_suffix]	`string`		插入在单词之间的后缀。
[config.byte_fallback]	`boolean`	`false`	是否使用 spm 字节回退技巧（默认为 False）
[config.ignore_merges]	`boolean`	`false`	在使用合并之前是否匹配词汇表中的 token。

bpE.tokens_to_ids : <code> Map. < string, number > </code>

Kind: BPE 的实例属性

bpE.merges : <code> * </code>

Kind: BPE 的实例属性

merges.config.merges : <code> * </code>

Kind: merges 的静态属性

bpE.cache : <code> Map. < string, Array < string > > </code>

Kind: BPE 的实例属性

bpE.bpe(token) ⇒ <code> Array. < string > </code>

将 Byte-Pair-Encoding (BPE) 应用于给定的 token。高效的基于堆的优先级队列实现，改编自 https://github.com/belladoreai/llama-tokenizer-js。

Kind: BPE 的实例方法
Returns: Array.<string> - BPE 编码后的 token。

参数	类型	描述
token	`string`	要编码的 token。

bpE.encode(tokens) ⇒ <code> Array. < string > </code>

使用 BPE 算法编码输入的 token 序列，并返回生成的 subword token。

Kind: BPE 的实例方法
Returns: Array.<string> - 将 BPE 算法应用于输入的 token 序列后生成的 subword token。

参数	类型	描述
tokens	`Array.<string>`	要编码的输入 token 序列。

tokenizers~LegacyTokenizerModel

用于仅具有词汇表的 tokenizer 的旧式 tokenizer 类。

类型: tokenizers 的内部类

~LegacyTokenizerModel
- new LegacyTokenizerModel(config, moreConfig)
- .tokens_to_ids : Map.<string, number>

new LegacyTokenizerModel(config, moreConfig)

创建 LegacyTokenizerModel 实例。

参数	类型	描述
config	`Object`	LegacyTokenizerModel 的配置对象。
config.vocab	`Object`	token 到 id 的（可能是嵌套的）映射。
moreConfig	`Object`	LegacyTokenizerModel 模型的附加配置对象。

legacyTokenizerModel.tokens_to_ids : <code> Map. < string, number > </code>

Kind: LegacyTokenizerModel 的实例属性

tokenizers~Normalizer

文本标准化的基类。

Kind: tokenizers 的内部抽象类

~Normalizer
- new Normalizer(config)
- 实例
  - .normalize(text) ⇒ string
  - ._call(text) ⇒ string
- 静态
  - .fromConfig(config) ⇒ Normalizer

new Normalizer(config)

参数	类型	描述
config	`Object`	normalizer 的配置对象。

normalizer.normalize(text) ⇒ <code> string </code>

标准化输入的文本。

Kind: Normalizer 的实例抽象方法
Returns: string - 标准化后的文本。
抛出:

Error 如果此方法未在子类中实现。

参数	类型	描述
text	`string`	要标准化的文本。

normalizer._call(text) ⇒ <code> string </code>

别名，指向 Normalizer#normalize。

Kind: Normalizer 的实例方法
Returns: string - 标准化后的文本。

参数	类型	描述
text	`string`	要标准化的文本。

Normalizer.fromConfig(config) ⇒ <code> Normalizer </code>

用于从配置对象创建 normalizer 的工厂方法。

Kind: Normalizer 的静态方法
Returns: Normalizer - Normalizer 对象。
抛出:

Error 如果在配置中指定了未知的 Normalizer 类型。

参数	类型	描述
config	`Object`	normalizer 的配置对象。

tokenizers~Replace ⇐ <code> Normalizer </code>

Replace normalizer，用于将模式的出现替换为给定的字符串或正则表达式。

类型: tokenizers 的内部类
Extends: Normalizer

replace.normalize(text) ⇒ <code> string </code>

通过将模式替换为内容来标准化输入的文本。

Kind: Replace 的实例方法
Returns: string - 将模式替换为内容后标准化后的文本。

参数	类型	描述
text	`string`	要标准化的输入文本。

tokenizers~UnicodeNormalizer ⇐ <code> Normalizer </code>

一个 normalizer，用于将 Unicode 标准化应用于输入文本。

Kind: tokenizers 的内部抽象类
Extends: Normalizer

~UnicodeNormalizer ⇐ Normalizer
- .form : string
- .normalize(text) ⇒ string

unicodeNormalizer.form : <code> string </code>

要应用的 Unicode 标准化形式。应为以下之一：'NFC'、'NFD'、'NFKC' 或 'NFKD'。

Kind: UnicodeNormalizer 的实例属性

unicodeNormalizer.normalize(text) ⇒ <code> string </code>

通过应用 Unicode 标准化来标准化输入的文本。

Kind: UnicodeNormalizer 的实例方法
Returns: string - 标准化后的文本。

参数	类型	描述
text	`string`	要标准化的输入文本。

tokenizers~NFC ⇐ <code> UnicodeNormalizer </code>

一个 normalizer，用于将 Unicode 标准化形式 C (NFC) 应用于输入文本。规范分解，后跟规范组合。

类型: tokenizers 的内部类
Extends: UnicodeNormalizer

tokenizers~NFD ⇐ <code> UnicodeNormalizer </code>

一个 normalizer，用于将 Unicode 标准化形式 D (NFD) 应用于输入文本。规范分解。

类型: tokenizers 的内部类
Extends: UnicodeNormalizer

tokenizers~NFKC ⇐ <code> UnicodeNormalizer </code>

一个 normalizer，用于将 Unicode 标准化形式 KC (NFKC) 应用于输入文本。兼容性分解，后跟规范组合。

类型: tokenizers 的内部类
Extends: UnicodeNormalizer

tokenizers~NFKD ⇐ <code> UnicodeNormalizer </code>

一个将 Unicode 标准化形式 KD (NFKD) 应用于输入文本的 Normalizer。兼容性分解。

类型: tokenizers 的内部类
Extends: UnicodeNormalizer

tokenizers~StripNormalizer

一个从输入文本中去除前导和/或尾随空格的 Normalizer。

类型: tokenizers 的内部类

stripNormalizer.normalize(text) ⇒ <code> string </code>

从输入文本中去除前导和/或尾随空格。

类型：StripNormalizer 的实例方法
Returns: string - 标准化后的文本。

参数	类型	描述
text	`string`	输入文本。

tokenizers~StripAccents ⇐ <code> Normalizer </code>

StripAccents normalizer 从文本中移除所有重音符号。

类型: tokenizers 的内部类
Extends: Normalizer

stripAccents.normalize(text) ⇒ <code> string </code>

从文本中移除所有重音符号。

类型：StripAccents 的实例方法
返回值：string - 已标准化的无重音文本。

参数	类型	描述
text	`string`	输入文本。

tokenizers~Lowercase ⇐ <code> Normalizer </code>

一个将输入字符串转换为小写的 Normalizer。

类型: tokenizers 的内部类
Extends: Normalizer

lowercase.normalize(text) ⇒ <code> string </code>

将输入字符串转换为小写。

类型：Lowercase 的实例方法
Returns: string - 标准化后的文本。

参数	类型	描述
text	`string`	要标准化的文本。

tokenizers~Prepend ⇐ <code> Normalizer </code>

一个将字符串前置到输入字符串的 Normalizer。

类型: tokenizers 的内部类
Extends: Normalizer

prepend.normalize(text) ⇒ <code> string </code>

前置输入字符串。

类型：Prepend 的实例方法
Returns: string - 标准化后的文本。

参数	类型	描述
text	`string`	要标准化的文本。

tokenizers~NormalizerSequence ⇐ <code> Normalizer </code>

一个应用 Normalizer 序列的 Normalizer。

类型: tokenizers 的内部类
Extends: Normalizer

~NormalizerSequence ⇐ Normalizer
- new NormalizerSequence(config)
- .normalize(text) ⇒ string

new NormalizerSequence(config)

创建一个 NormalizerSequence 的新实例。

参数	类型	描述
config	`Object`	配置对象。
config.normalizers	`Array.<Object>`	Normalizer 配置对象的数组。

normalizerSequence.normalize(text) ⇒ <code> string </code>

将 Normalizer 序列应用于输入文本。

类型：NormalizerSequence 的实例方法
Returns: string - 标准化后的文本。

参数	类型	描述
text	`string`	要标准化的文本。

tokenizers~BertNormalizer ⇐ <code> Normalizer </code>

一个表示 BERT 标记化中使用的 normalizer 的类。

类型: tokenizers 的内部类
Extends: Normalizer

~BertNormalizer ⇐ Normalizer
- ._tokenize_chinese_chars(text) ⇒ string
- .stripAccents(text) ⇒ string
- .normalize(text) ⇒ string

bertNormalizer._tokenize_chinese_chars(text) ⇒ <code> string </code>

在输入文本中的任何 CJK（中文、日文或韩文）字符周围添加空格。

类型：BertNormalizer 的实例方法
返回值：string - 在 CJK 字符周围添加空格的已标记化文本。

参数	类型	描述
text	`string`	要标记化的输入文本。

bertNormalizer.stripAccents(text) ⇒ <code> string </code>

从给定的文本中去除重音符号。

类型：BertNormalizer 的实例方法
返回值：string - 已去除重音符号的文本。

参数	类型	描述
text	`string`	要去除重音符号的文本。

bertNormalizer.normalize(text) ⇒ <code> string </code>

根据配置标准化给定的文本。

类型：BertNormalizer 的实例方法
Returns: string - 标准化后的文本。

参数	类型	描述
text	`string`	要标准化的文本。

tokenizers~PreTokenizer ⇐ <code> Callable </code>

一个可调用类，表示标记化中使用的预分词器。子类应实现 pre_tokenize_text 方法来定义特定的预分词逻辑。

类型: tokenizers 的内部类
继承自：Callable

~PreTokenizer ⇐ Callable
- 实例
  - .pre_tokenize_text(text, [options]) ⇒ Array.<string>
  - .pre_tokenize(text, [options]) ⇒ Array.<string>
  - ._call(text, [options]) ⇒ Array.<string>
- 静态
  - .fromConfig(config) ⇒ PreTokenizer

preTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

子类应实现的方法，用于定义特定的预分词逻辑。

类型：PreTokenizer 的实例抽象方法
返回值：Array.<string> - 预分词文本。
抛出:

Error 如果该方法未在子类中实现。

参数	类型	描述
text	`string`	要预分词的文本。
[options]	`Object`	预分词逻辑的附加选项。

preTokenizer.pre_tokenize(text, [options]) ⇒ <code> Array. < string > </code>

将给定的文本标记化为预标记。

类型：PreTokenizer 的实例方法
返回值：Array.<string> - 预标记数组。

参数	类型	描述
text	`string` \| `Array<string>`	要预分词的文本或文本数组。
[options]	`Object`	预分词逻辑的附加选项。

preTokenizer._call(text, [options]) ⇒ <code> Array. < string > </code>

别名：PreTokenizer#pre_tokenize。

类型：PreTokenizer 的实例方法
覆盖：_call
返回值：Array.<string> - 预标记数组。

参数	类型	描述
text	`string` \| `Array<string>`	要预分词的文本或文本数组。
[options]	`Object`	预分词逻辑的附加选项。

PreTokenizer.fromConfig(config) ⇒ <code> PreTokenizer </code>

工厂方法，根据提供的配置返回 PreTokenizer 子类的实例。

类型：PreTokenizer 的静态方法
返回值：PreTokenizer - PreTokenizer 子类的实例。
抛出:

Error 如果提供的配置对象与任何已知的预分词器都不对应。

参数	类型	描述
config	`Object`	预分词器的配置对象。

tokenizers~BertPreTokenizer ⇐ <code> PreTokenizer </code>

类型: tokenizers 的内部类
继承自：PreTokenizer

~BertPreTokenizer ⇐ PreTokenizer
- new BertPreTokenizer(config)
- .pre_tokenize_text(text, [options]) ⇒ Array.<string>

new BertPreTokenizer(config)

一个 PreTokenizer，它使用类似于 BERT 原始实现中使用的基本标记化方案将文本拆分为 wordpiece。

参数	类型	描述
config	`Object`	配置对象。

bertPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

使用 BERT 预分词方案标记化单个文本。

类型：BertPreTokenizer 的实例方法
返回值：Array.<string> - 标记数组。

参数	类型	描述
text	`string`	要 token 化的文本。
[options]	`Object`	预分词逻辑的附加选项。

tokenizers~ByteLevelPreTokenizer ⇐ <code> PreTokenizer </code>

一个将文本拆分为字节对编码 (BPE) 子词的预分词器。

类型: tokenizers 的内部类
继承自：PreTokenizer

~ByteLevelPreTokenizer ⇐ PreTokenizer
- new ByteLevelPreTokenizer(config)
- .add_prefix_space : boolean
- .trim_offsets : boolean
- .use_regex : boolean
- .pre_tokenize_text(text, [options]) ⇒ Array.<string>

new ByteLevelPreTokenizer(config)

创建 ByteLevelPreTokenizer 类的新实例。

参数	类型	描述
config	`Object`	配置对象。

byteLevelPreTokenizer.add_prefix_space : <code> boolean </code>

是否在第一个单词前添加前导空格。这允许像对待任何其他单词一样对待前导词。

类型：ByteLevelPreTokenizer 的实例属性

byteLevelPreTokenizer.trim_offsets : <code> boolean </code>

后处理步骤是否应修剪偏移量以避免包含空格。

类型：ByteLevelPreTokenizer 的实例属性
待办事项

在预分词步骤中使用此项。

byteLevelPreTokenizer.use_regex : <code> boolean </code>

是否使用标准的 GPT2 正则表达式进行空格拆分。如果您想使用自己的拆分，请将其设置为 False。默认为 true。

类型：ByteLevelPreTokenizer 的实例属性

byteLevelPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

使用字节级标记化对单段文本进行标记化。

类型：ByteLevelPreTokenizer 的实例方法
返回值：Array.<string> - 标记数组。

参数	类型	描述
text	`string`	要 token 化的文本。
[options]	`Object`	预分词逻辑的附加选项。

tokenizers~SplitPreTokenizer ⇐ <code> PreTokenizer </code>

使用给定的模式拆分文本。

类型: tokenizers 的内部类
继承自：PreTokenizer

~SplitPreTokenizer ⇐ PreTokenizer
- new SplitPreTokenizer(config)
- .pre_tokenize_text(text, [options]) ⇒ Array.<string>

new SplitPreTokenizer(config)

参数	类型	描述
config	`Object`	预分词器的配置选项。
config.pattern	`Object`	用于拆分文本的模式。可以是字符串或正则表达式对象。
config.pattern.String	`string` \| `undefined`	用于拆分的字符串。仅当模式为字符串时定义。
config.pattern.Regex	`string` \| `undefined`	用于拆分的正则表达式。仅当模式为正则表达式时定义。
config.behavior	`SplitDelimiterBehavior`	拆分时使用的行为。
config.invert	`boolean`	是否拆分 (invert=false) 或匹配 (invert=true) 模式。

splitPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过使用给定的模式拆分文本来对文本进行分词。

Kind: SplitPreTokenizer 的实例方法
返回值：Array.<string> - 标记数组。

参数	类型	描述
text	`string`	要 token 化的文本。
[options]	`Object`	预分词逻辑的附加选项。

tokenizers~PunctuationPreTokenizer ⇐ <code> PreTokenizer </code>

基于标点符号拆分文本。

类型: tokenizers 的内部类
继承自：PreTokenizer

~PunctuationPreTokenizer ⇐ PreTokenizer
- new PunctuationPreTokenizer(config)
- .pre_tokenize_text(text, [options]) ⇒ Array.<string>

new PunctuationPreTokenizer(config)

参数	类型	描述
config	`Object`	预分词器的配置选项。
config.behavior	`SplitDelimiterBehavior`	拆分时使用的行为。

punctuationPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过使用给定的模式拆分文本来对文本进行分词。

Kind: PunctuationPreTokenizer 的实例方法
返回值：Array.<string> - 标记数组。

参数	类型	描述
text	`string`	要 token 化的文本。
[options]	`Object`	预分词逻辑的附加选项。

tokenizers~DigitsPreTokenizer ⇐ <code> PreTokenizer </code>

基于数字拆分文本。

类型: tokenizers 的内部类
继承自：PreTokenizer

~DigitsPreTokenizer ⇐ PreTokenizer
- new DigitsPreTokenizer(config)
- .pre_tokenize_text(text, [options]) ⇒ Array.<string>

new DigitsPreTokenizer(config)

参数	类型	描述
config	`Object`	预分词器的配置选项。
config.individual_digits	`boolean`	是否按单个数字拆分。

digitsPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过使用给定的模式拆分文本来对文本进行分词。

Kind: DigitsPreTokenizer 的实例方法
返回值：Array.<string> - 标记数组。

参数	类型	描述
text	`string`	要 token 化的文本。
[options]	`Object`	预分词逻辑的附加选项。

tokenizers~PostProcessor ⇐ <code> Callable </code>

类型: tokenizers 的内部类
继承自：Callable

~PostProcessor ⇐ Callable
- new PostProcessor(config)
- 实例
  - .post_process(tokens, ...args) ⇒ PostProcessedOutput
  - ._call(tokens, ...args) ⇒ PostProcessedOutput
- 静态
  - .fromConfig(config) ⇒ PostProcessor

new PostProcessor(config)

参数	类型	描述
config	`Object`	后处理器的配置。

postProcessor.post_process(tokens, ...args) ⇒ <code> PostProcessedOutput </code>

子类中要实现的方法，用于对给定的 token 应用后处理。

Kind: PostProcessor 的实例方法
Returns: PostProcessedOutput - 后处理后的 token。
抛出:

Error 如果该方法未在子类中实现。

参数	类型	描述
tokens	`Array`	要进行后处理的输入 token。
...args	`*`	后处理逻辑所需的附加参数。

postProcessor._call(tokens, ...args) ⇒ <code> PostProcessedOutput </code>

PostProcessor#post_process 的别名。

Kind: PostProcessor 的实例方法
覆盖：_call
Returns: PostProcessedOutput - 后处理后的 token。

参数	类型	描述
tokens	`Array`	要进行后处理的文本或文本数组。
...args	`*`	后处理逻辑所需的附加参数。

PostProcessor.fromConfig(config) ⇒ <code> PostProcessor </code>

用于从配置对象创建 PostProcessor 对象的工厂方法。

Kind: PostProcessor 的静态方法
Returns: PostProcessor - 从给定配置创建的 PostProcessor 对象。
抛出:

Error 如果遇到未知的 PostProcessor 类型。

参数	类型	描述
config	`Object`	表示 PostProcessor 的配置对象。

tokenizers~BertProcessing

一种后处理器，用于在输入的开头和结尾添加特殊 token。

类型: tokenizers 的内部类

~BertProcessing
- new BertProcessing(config)
- .post_process(tokens, [tokens_pair]) ⇒ PostProcessedOutput

new BertProcessing(config)

参数	类型	描述
config	`Object`	后处理器的配置。
config.cls	`Array.<string>`	要添加到输入开头的特殊 token。
config.sep	`Array.<string>`	要添加到输入结尾的特殊 token。

bertProcessing.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

在输入的开头和结尾添加特殊 token。

Kind: BertProcessing 的实例方法
Returns: PostProcessedOutput - 后处理后的 token，特殊 token 已添加到开头和结尾。

参数	类型	默认	描述
tokens	`Array.<string>`		输入的 token。
[tokens_pair]	`Array.<string>`		可选的第二组输入 token。

tokenizers~TemplateProcessing ⇐ <code> PostProcessor </code>

后处理器，用于将模板中的特殊 token 替换为实际 token。

类型: tokenizers 的内部类
Extends: PostProcessor

~TemplateProcessing ⇐ PostProcessor
- new TemplateProcessing(config)
- .post_process(tokens, [tokens_pair]) ⇒ PostProcessedOutput

new TemplateProcessing(config)

创建 TemplateProcessing 的新实例。

参数	类型	描述
config	`Object`	后处理器的配置选项。
config.single	`Array`	单个 token 序列的模板。
config.pair	`Array`	一对 token 序列的模板。

templateProcessing.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

将模板中的特殊 token 替换为实际 token。

Kind: TemplateProcessing 的实例方法
Returns: PostProcessedOutput - 一个对象，其中包含 token 列表，特殊 token 已替换为实际 token。

参数	类型	默认	描述
tokens	`Array.<string>`		第一个序列的 token 列表。
[tokens_pair]	`Array.<string>`		第二个序列的 token 列表（可选）。

tokenizers~ByteLevelPostProcessor ⇐ <code> PostProcessor </code>

一种 PostProcessor，按原样返回给定的 token。

类型: tokenizers 的内部类
Extends: PostProcessor

byteLevelPostProcessor.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

后处理给定的 token。

Kind: ByteLevelPostProcessor 的实例方法
Returns: PostProcessedOutput - 一个对象，其中包含后处理后的 token。

参数	类型	默认	描述
tokens	`Array.<string>`		第一个序列的 token 列表。
[tokens_pair]	`Array.<string>`		第二个序列的 token 列表（可选）。

tokenizers~PostProcessorSequence

一种后处理器，按顺序应用多个后处理器。

类型: tokenizers 的内部类

~PostProcessorSequence
- new PostProcessorSequence(config)
- .post_process(tokens, [tokens_pair]) ⇒ PostProcessedOutput

new PostProcessorSequence(config)

创建 PostProcessorSequence 的新实例。

参数	类型	描述
config	`Object`	配置对象。
config.processors	`Array.<Object>`	要应用的后处理器列表。

postProcessorSequence.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

后处理给定的 token。

Kind: PostProcessorSequence 的实例方法
Returns: PostProcessedOutput - 一个对象，其中包含后处理后的 token。

参数	类型	默认	描述
tokens	`Array.<string>`		第一个序列的 token 列表。
[tokens_pair]	`Array.<string>`		第二个序列的 token 列表（可选）。

tokenizers~Decoder ⇐ <code> Callable </code>

token 解码器的基类。

类型: tokenizers 的内部类
继承自：Callable

~Decoder ⇐ Callable
- new Decoder(config)
- 实例
  - .added_tokens : Array.<AddedToken>
  - ._call(tokens) ⇒ string
  - .decode(tokens) ⇒ string
  - .decode_chain(tokens) ⇒ Array.<string>
- 静态
  - .fromConfig(config) ⇒ Decoder

new Decoder(config)

创建 Decoder 的实例。

参数	类型	描述
config	`Object`	配置对象。

decoder.added_tokens : <code> Array. < AddedToken > </code>

Kind: Decoder 的实例属性

decoder._call(tokens) ⇒ <code> string </code>

调用 decode 方法。

Kind: Decoder 的实例方法
覆盖：_call
返回值：string - 解码后的字符串。

参数	类型	描述
tokens	`Array.<string>`	token 列表。

decoder.decode(tokens) ⇒ <code> string </code>

解码 token 列表。

Kind: Decoder 的实例方法
返回值：string - 解码后的字符串。

参数	类型	描述
tokens	`Array.<string>`	token 列表。

decoder.decode_chain(tokens) ⇒ <code> Array. < string > </code>

将解码器应用于 token 列表。

Kind: Decoder 的实例方法
Returns: Array.<string> - 解码后的 token 列表。
抛出:

Error 如果 `decode_chain` 方法未在子类中实现。

参数	类型	描述
tokens	`Array.<string>`	token 列表。

Decoder.fromConfig(config) ⇒ <code> Decoder </code>

基于提供的配置创建解码器实例。

Kind: Decoder 的静态方法
Returns: Decoder - 一个解码器实例。
抛出:

Error 如果提供了未知的解码器类型。

参数	类型	描述
config	`Object`	配置对象。

tokenizers~FuseDecoder

Fuse 简单地将所有 tokens 融合为一个大的字符串。它通常是最后的解码步骤，但此解码器的存在是为了应对某些解码器需要在该步骤之后执行的情况

类型: tokenizers 的内部类

fuseDecoder.decode_chain() : <code> * </code>

Kind: FuseDecoder 的实例方法

tokenizers~WordPieceDecoder ⇐ <code> Decoder </code>

一个将 WordPiece tokens 列表解码为单个字符串的解码器。

类型: tokenizers 的内部类
Extends: Decoder

~WordPieceDecoder ⇐ Decoder
- new WordPieceDecoder(config)
- .decode_chain() : *

new WordPieceDecoder(config)

创建一个新的 WordPieceDecoder 实例。

参数	类型	描述
config	`Object`	配置对象。
config.prefix	`string`	用于 WordPiece 编码的前缀。
config.cleanup	`boolean`	是否清理解码后的字符串。

wordPieceDecoder.decode_chain() : <code> * </code>

Kind: WordPieceDecoder 的实例方法

tokenizers~ByteLevelDecoder ⇐ <code> Decoder </code>

用于 tokenization 输出的字节级解码器。继承自 Decoder 类。

类型: tokenizers 的内部类
Extends: Decoder

~ByteLevelDecoder ⇐ Decoder
- new ByteLevelDecoder(config)
- .convert_tokens_to_string(tokens) ⇒ string
- .decode_chain() : *

new ByteLevelDecoder(config)

创建 ByteLevelDecoder 对象。

参数	类型	描述
config	`Object`	配置对象。

byteLevelDecoder.convert_tokens_to_string(tokens) ⇒ <code> string </code>

通过解码每个字节，将 tokens 数组转换为字符串。

Kind: ByteLevelDecoder 的实例方法
返回值：string - 解码后的字符串。

参数	类型	描述
tokens	`Array.<string>`	要解码的 tokens 数组。

byteLevelDecoder.decode_chain() : <code> * </code>

Kind: ByteLevelDecoder 的实例方法

tokenizers~CTCDecoder

CTC (Connectionist Temporal Classification) 解码器。请参阅 https://github.com/huggingface/tokenizers/blob/bb38f390a61883fc2f29d659af696f428d1cda6b/tokenizers/src/decoders/ctc.rs

类型: tokenizers 的内部类

~CTCDecoder
- .convert_tokens_to_string(tokens) ⇒ string
- .decode_chain() : *

ctcDecoder.convert_tokens_to_string(tokens) ⇒ <code> string </code>

将连接时序分类 (CTC) 输出 tokens 转换为单个字符串。

Kind: CTCDecoder 的实例方法
返回值：string - 解码后的字符串。

参数	类型	描述
tokens	`Array.<string>`	要解码的 tokens 数组。

ctcDecoder.decode_chain() : <code> * </code>

Kind: CTCDecoder 的实例方法

tokenizers~DecoderSequence ⇐ <code> Decoder </code>

应用一系列解码器。

类型: tokenizers 的内部类
Extends: Decoder

~DecoderSequence ⇐ Decoder
- new DecoderSequence(config)
- .decode_chain() : *

new DecoderSequence(config)

创建一个新的 DecoderSequence 实例。

参数	类型	描述
config	`Object`	配置对象。
config.decoders	`Array.<Object>`	要应用的解码器列表。

decoderSequence.decode_chain() : <code> * </code>

Kind: DecoderSequence 的实例方法

tokenizers~MetaspacePreTokenizer ⇐ <code> PreTokenizer </code>

此 PreTokenizer 将空格替换为给定的替换字符，如果请求，则添加前缀空格，并返回 tokens 列表。

类型: tokenizers 的内部类
继承自：PreTokenizer

~MetaspacePreTokenizer ⇐ PreTokenizer
- new MetaspacePreTokenizer(config)
- .pre_tokenize_text(text, [options]) ⇒ Array.<string>

new MetaspacePreTokenizer(config)

参数	类型	默认	描述
config	`Object`		MetaspacePreTokenizer 的配置对象。
config.add_prefix_space	`boolean`		是否向第一个 token 添加前缀空格。
config.replacement	`string`		用于替换空格的字符。
[config.str_rep]	`string`	`"config.replacement"`	替换字符的可选字符串表示形式。
[config.prepend_scheme]	`'first'` \| `'never'` \| `'always'`	`'always'`	metaspace 前置方案。

metaspacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

此方法接受一个字符串，用替换字符替换空格，如果请求，则添加前缀空格，并返回新的 tokens 列表。

Kind: MetaspacePreTokenizer 的实例方法
Returns: Array.<string> - 预 tokenized 的新 tokens 列表。

参数	类型	描述
text	`string`	要预分词的文本。
[options]	`Object`	预 tokenization 的选项。
[options.section_index]	`number`	要预 tokenized 的 section 的索引。

tokenizers~MetaspaceDecoder ⇐ <code> Decoder </code>

MetaspaceDecoder 类扩展了 Decoder 类，并解码 Metaspace tokenization。

类型: tokenizers 的内部类
Extends: Decoder

~MetaspaceDecoder ⇐ Decoder
- new MetaspaceDecoder(config)
- .decode_chain() : *

new MetaspaceDecoder(config)

构造一个新的 MetaspaceDecoder 对象。

参数	类型	描述
config	`Object`	MetaspaceDecoder 的配置对象。
config.add_prefix_space	`boolean`	是否向解码后的字符串添加前缀空格。
config.replacement	`string`	用于替换空格的字符串。

metaspaceDecoder.decode_chain() : <code> * </code>

Kind: MetaspaceDecoder 的实例方法

tokenizers~Precompiled ⇐ <code> Normalizer </code>

一个应用预编译 charsmap 的 normalizer。这对于在 C++ 中应用复杂 normalizations 并将其公开给 JavaScript 非常有用。

类型: tokenizers 的内部类
Extends: Normalizer

~Precompiled ⇐ Normalizer
- new Precompiled(config)
- .normalize(text) ⇒ string

new Precompiled(config)

创建 Precompiled normalizer 的新实例。

参数	类型	描述
config	`Object`	Precompiled normalizer 的配置对象。
config.precompiled_charsmap	`Object`	预编译 charsmap 对象。

precompiled.normalize(text) ⇒ <code> string </code>

通过应用预编译 charsmap 来 normalizes 给定的文本。

Kind: Precompiled 的实例方法
Returns: string - 标准化后的文本。

参数	类型	描述
text	`string`	要标准化的文本。

tokenizers~PreTokenizerSequence ⇐ <code> PreTokenizer </code>

一个将一系列 pre-tokenizers 应用于输入文本的 pre-tokenizer。

类型: tokenizers 的内部类
继承自：PreTokenizer

~PreTokenizerSequence ⇐ PreTokenizer
- new PreTokenizerSequence(config)
- .pre_tokenize_text(text, [options]) ⇒ Array.<string>

new PreTokenizerSequence(config)

创建 PreTokenizerSequence 的实例。

参数	类型	描述
config	`Object`	pre-tokenizer sequence 的配置对象。
config.pretokenizers	`Array.<Object>`	pre-tokenizer 配置的数组。

preTokenizerSequence.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

依次将 sequence 中的每个 pre-tokenizer 应用于输入文本。

Kind: PreTokenizerSequence 的实例方法
返回值：Array.<string> - 预分词文本。

参数	类型	描述
text	`string`	要预分词的文本。
[options]	`Object`	预分词逻辑的附加选项。

tokenizers~WhitespacePreTokenizer

在单词边界上拆分（使用以下正则表达式：\w+|[^\w\s]+）。

类型: tokenizers 的内部类

~WhitespacePreTokenizer
- new WhitespacePreTokenizer(config)
- .pre_tokenize_text(text, [options]) ⇒ Array.<string>

new WhitespacePreTokenizer(config)

创建 WhitespacePreTokenizer 的实例。

参数	类型	描述
config	`Object`	pre-tokenizer 的配置对象。

whitespacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过在单词边界上拆分输入文本来预 tokenizes 输入文本。

Kind: WhitespacePreTokenizer 的实例方法
Returns: Array.<string> - 通过在空格上拆分输入文本而生成的 tokens 数组。

参数	类型	描述
text	`string`	要预 tokenized 的文本。
[options]	`Object`	预分词逻辑的附加选项。

tokenizers~WhitespaceSplit ⇐ <code> PreTokenizer </code>

将文本字符串按空格字符拆分为单独的标记。

类型: tokenizers 的内部类
继承自：PreTokenizer

~WhitespaceSplit ⇐ PreTokenizer
- new WhitespaceSplit(config)
- .pre_tokenize_text(text, [options]) ⇒ Array.<string>

new WhitespaceSplit(config)

创建 WhitespaceSplit 的实例。

参数	类型	描述
config	`Object`	pre-tokenizer 的配置对象。

whitespaceSplit.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过在空格字符上拆分输入文本来对其进行预标记化。

Kind: 实例方法，属于 WhitespaceSplit
Returns: Array.<string> - 通过在空格上拆分输入文本而生成的 tokens 数组。

参数	类型	描述
text	`string`	要预 tokenized 的文本。
[options]	`Object`	预分词逻辑的附加选项。

tokenizers~ReplacePreTokenizer

类型: tokenizers 的内部类

~ReplacePreTokenizer
- new ReplacePreTokenizer(config)
- .pre_tokenize_text(text, [options]) ⇒ Array.<string>

new ReplacePreTokenizer(config)

参数	类型	描述
config	`Object`	预分词器的配置选项。
config.pattern	`Object`	用于拆分文本的模式。可以是字符串或正则表达式对象。
config.content	`string`	用于替换模式的内容。

replacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

通过替换某些字符来对输入文本进行预标记化。

Kind: 实例方法，属于 ReplacePreTokenizer
Returns: Array.<string> - 通过替换某些字符生成的标记数组。

参数	类型	描述
text	`string`	要预 tokenized 的文本。
[options]	`Object`	预分词逻辑的附加选项。

tokenizers~BYTES_TO_UNICODE ⇒ <code> Object </code>

返回 utf-8 字节列表以及到 unicode 字符串的映射。特别是避免映射到 BPE 代码无法处理的空格/控制字符。

Kind: 内部常量，属于 tokenizers
Returns: Object - 具有 utf-8 字节键和 unicode 字符串值的对象。

tokenizers~loadTokenizer(pretrained_model_name_or_path, options) ⇒ <code> Promise. < Array < any > > </code>

从指定路径加载分词器。

Kind: 内部方法，属于 tokenizers
Returns: Promise.<Array<any>> - 一个 Promise，它解析为有关已加载分词器的信息。

参数	类型	描述
pretrained_model_name_or_path	`string`	分词器目录的路径。
options	`PretrainedTokenizerOptions`	用于加载 tokenizer 的其他选项。

tokenizers~regexSplit(text, regex) ⇒ <code> Array. < string > </code>

辅助函数，用于在正则表达式上拆分字符串，但保留分隔符。这是必需的，因为 JavaScript 的 .split() 方法不保留分隔符，并且包装在捕获组中会导致现有捕获组出现问题（由于嵌套）。

Kind: 内部方法，属于 tokenizers
Returns: Array.<string> - 拆分后的字符串。

参数	类型	描述
text	`string`	要拆分的文本。
regex	`RegExp`	用于拆分的正则表达式。

tokenizers~createPattern(pattern, invert) ⇒ <code> RegExp </code> | <code> null </code>

辅助方法，用于从配置对象构造模式。

Kind: 内部方法，属于 tokenizers
Returns: RegExp | null - 编译后的模式。

参数	类型	默认	描述
pattern	`Object`		模式对象。
invert	`boolean`	`true`	是否反转模式。

tokenizers~objectToMap(obj) ⇒ <code> Map. < string, any > </code>

辅助函数，用于将 Object 转换为 Map

Kind: 内部方法，属于 tokenizers
Returns: Map.<string, any> - Map。

参数	类型	描述
obj	`Object`	要转换的对象。

tokenizers~prepareTensorForDecode(tensor) ⇒ <code> Array. < number > </code>

辅助函数，用于在解码之前将张量转换为列表。

Kind: 内部方法，属于 tokenizers
Returns: Array.<number> - 作为列表的张量。

参数	类型	描述
tensor	`Tensor`	要转换的张量。

tokenizers~clean_up_tokenization(text) ⇒ <code> string </code>

清理简单的英语分词人工产物列表，例如标点符号前的空格和缩写形式

Kind: 内部方法，属于 tokenizers
Returns: string - 清理后的文本。

参数	类型	描述
text	`string`	要清理的文本。

tokenizers~remove_accents(text) ⇒ <code> string </code>

辅助函数，用于从字符串中删除重音符号。

Kind: 内部方法，属于 tokenizers
返回值：string - 已去除重音符号的文本。

参数	类型	描述
text	`string`	要从中删除重音符号的文本。

tokenizers~lowercase_and_remove_accent(text) ⇒ <code> string </code>

辅助函数，用于将字符串转换为小写并删除重音符号。

Kind: 内部方法，属于 tokenizers
Returns: string - 转换为小写并删除重音符号的文本。

参数	类型	描述
text	`string`	要转换为小写并删除重音符号的文本。

tokenizers~whitespace_split(text) ⇒ <code> Array. < string > </code>

在空格上拆分字符串。

Kind: 内部方法，属于 tokenizers
Returns: Array.<string> - 拆分后的字符串。

参数	类型	描述
text	`string`	要拆分的文本。

tokenizers~PretrainedTokenizerOptions : <code> Object </code>

额外的特定于分词器的属性。

Kind: 内部类型定义，属于 tokenizers
属性

名称	类型	默认	描述
[legacy]	`boolean`	`false`	是否应使用分词器的 `legacy` 行为。

tokenizers~BPENode : <code> Object </code>

Kind: 内部类型定义，属于 tokenizers
属性

名称	类型	描述
token	`string`	与节点关联的标记
bias	`number`	节点的定位偏差。
[score]	`number`	节点的得分。
[prev]	`BPENode`	链接列表中的上一个节点。
[next]	`BPENode`	链接列表中的下一个节点。

tokenizers~SplitDelimiterBehavior : <code> ’ removed ’ </code> | <code> ’ isolated ’ </code> | <code> ’ mergedWithPrevious ’ </code> | <code> ’ mergedWithNext ’ </code> | <code> ’ contiguous ’ </code>

Kind: 内部类型定义，属于 tokenizers

tokenizers~PostProcessedOutput : <code> Object </code>

Kind: 内部类型定义，属于 tokenizers
属性

名称	类型	描述
tokens	`Array.<string>`	后处理器生成的标记列表。
[token_type_ids]	`Array.<number>`	后处理器生成的标记类型 ID 列表。

tokenizers~EncodingSingle : <code> Object </code>

Kind: 内部类型定义，属于 tokenizers
属性

名称	类型	描述
input_ids	`Array.<number>`	要馈送到模型的标记 ID 列表。
attention_mask	`Array.<number>`	要馈送到模型的标记类型 ID 列表
[token_type_ids]	`Array.<number>`	指定模型应关注哪些标记的索引列表

tokenizers~Message : <code> Object </code>

Kind: 内部类型定义，属于 tokenizers
属性

名称	类型	描述
role	`string`	消息的角色（例如，“user”、“assistant”或“system”）。
content	`string`	消息的内容。

tokenizers~BatchEncoding : <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> Tensor </code>

保存分词器调用函数的输出。

Kind: 内部类型定义，属于 tokenizers
属性

名称	类型	描述
input_ids	`BatchEncodingItem`	要馈送到模型的标记 ID 列表。
attention_mask	`BatchEncodingItem`	指定模型应关注哪些标记的索引列表。
[token_type_ids]	`BatchEncodingItem`	要馈送到模型的标记类型 ID 列表。

< > 在 GitHub 上更新

←模型处理器→

Transformers.js

分词器

tokenizers.TokenizerModel ⇐ Callable

new TokenizerModel(config)

tokenizerModel.vocab : Array. < string >

tokenizerModel.tokens_to_ids : Map. < string, number >

tokenizerModel.fuse_unk : boolean

tokenizerModel._call(tokens) ⇒ Array. < string >

tokenizerModel.encode(tokens) ⇒ Array. < string >

tokenizerModel.convert_tokens_to_ids(tokens) ⇒ Array. < number >

tokenizerModel.convert_ids_to_tokens(ids) ⇒ <code> Array. < string > </code>

TokenizerModel.fromConfig(config, ...args) ⇒ <code> TokenizerModel </code>

tokenizers.PreTrainedTokenizer

new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)

preTrainedTokenizer.added_tokens : <code> Array. < AddedToken > </code>

preTrainedTokenizer.added_tokens_map : <code> Map. < string, AddedToken > </code>

preTrainedTokenizer.remove_space : <code> boolean </code>

preTrainedTokenizer._call(text, options) ⇒ <code> BatchEncoding </code>

preTrainedTokenizer._encode_text(text) ⇒ <code> Array < string > </code> | <code> null </code>

preTrainedTokenizer._tokenize_helper(text, options) ⇒ <code> * </code>

preTrainedTokenizer.tokenize(text, options) ⇒ <code> Array. < string > </code>

preTrainedTokenizer.encode(text, options) ⇒ <code> Array. < number > </code>

preTrainedTokenizer.batch_decode(batch, decode_args) ⇒ <code> Array. < string > </code>

preTrainedTokenizer.decode(token_ids, [decode_args]) ⇒ <code> string </code>

preTrainedTokenizer.decode_single(token_ids, decode_args) ⇒ <code> string </code>

preTrainedTokenizer.get_chat_template(options) ⇒ <code> string </code>

preTrainedTokenizer.apply_chat_template(conversation, options) ⇒ <code> string </code> | <code> Tensor </code> | <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> BatchEncoding </code>

PreTrainedTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>

tokenizers.BertTokenizer ⇐ <code> PreTrainedTokenizer </code>

tokenizers.AlbertTokenizer ⇐ <code> PreTrainedTokenizer </code>

tokenizers.NllbTokenizer

nllbTokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>

tokenizers.M2M100Tokenizer

m2M100Tokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>

tokenizers.WhisperTokenizer ⇐ <code> PreTrainedTokenizer </code>

whisperTokenizer._decode_asr(sequences, options) ⇒ <code> * </code>

whisperTokenizer.decode() : <code> * </code>

tokenizers.MarianTokenizer

new MarianTokenizer(tokenizerJSON, tokenizerConfig)

marianTokenizer._encode_text(text) ⇒ <code> Array </code>

tokenizers.AutoTokenizer

new AutoTokenizer()

AutoTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>

tokenizers.is_chinese_char(cp) ⇒ <code> boolean </code>

tokenizers~AddedToken

new AddedToken(config)

tokenizers~WordPieceTokenizer ⇐ <code> TokenizerModel </code>

new WordPieceTokenizer(config)

wordPieceTokenizer.tokens_to_ids : <code> Map. < string, number > </code>

wordPieceTokenizer.unk_token_id : <code> number </code>

wordPieceTokenizer.unk_token : <code> string </code>

wordPieceTokenizer.max_input_chars_per_word : <code> number </code>

wordPieceTokenizer.vocab : <code> Array. < string > </code>

wordPieceTokenizer.encode(tokens) ⇒ <code> Array. < string > </code>

tokenizers~Unigram ⇐ <code> TokenizerModel </code>

new Unigram(config, moreConfig)

unigram.scores : <code> Array. < number > </code>

unigram.populateNodes(lattice)

unigram.tokenize(normalized) ⇒ <code> Array. < string > </code>

unigram.encode(tokens) ⇒ <code> Array. < string > </code>

tokenizers~BPE ⇐ <code> TokenizerModel </code>

new BPE(config)

bpE.tokens_to_ids : <code> Map. < string, number > </code>

bpE.merges : <code> * </code>

merges.config.merges : <code> * </code>

bpE.cache : <code> Map. < string, Array < string > > </code>

bpE.bpe(token) ⇒ <code> Array. < string > </code>

bpE.encode(tokens) ⇒ <code> Array. < string > </code>

tokenizers~LegacyTokenizerModel

new LegacyTokenizerModel(config, moreConfig)

legacyTokenizerModel.tokens_to_ids : <code> Map. < string, number > </code>

tokenizers~Normalizer

new Normalizer(config)

normalizer.normalize(text) ⇒ <code> string </code>

normalizer._call(text) ⇒ <code> string </code>

Normalizer.fromConfig(config) ⇒ <code> Normalizer </code>

tokenizers~Replace ⇐ <code> Normalizer </code>

replace.normalize(text) ⇒ <code> string </code>

tokenizers~UnicodeNormalizer ⇐ <code> Normalizer </code>

unicodeNormalizer.form : <code> string </code>

tokenizers.TokenizerModel ⇐ `Callable`

tokenizerModel.vocab : `Array. < string >`

tokenizerModel.tokens_to_ids : `Map. < string, number >`

tokenizerModel.fuse_unk : `boolean`

tokenizerModel._call(tokens) ⇒ `Array. < string >`

tokenizerModel.encode(tokens) ⇒ `Array. < string >`

tokenizerModel.convert_tokens_to_ids(tokens) ⇒ `Array. < number >`