Transformers.js 文档

处理器

Transformers.js

您正在查看 main 版本，该版本需要从源代码安装。如果您想要常规的 npm 安装，请查看最新的稳定版本 (v3.0.0)。

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

处理器

处理器用于准备模型的输入（例如，文本、图像或音频）。

示例： 使用 WhisperProcessor 准备模型的音频输入。

import { AutoProcessor, read_audio } from '@huggingface/transformers';

const processor = await AutoProcessor.from_pretrained('openai/whisper-tiny.en');
const audio = await read_audio('https://huggingface.co/datasets/Narsil/asr_dummy/resolve/main/mlk.flac', 16000);
const { input_features } = await processor(audio);
// Tensor {
//   data: Float32Array(240000) [0.4752984642982483, 0.5597258806228638, 0.56434166431427, ...],
//   dims: [1, 80, 3000],
//   type: 'float32',
//   size: 240000,
// }

处理器
- 静态
  - .Processor
    - new Processor(config, components)
    - 实例
      - .image_processor ⇒ *
      - .tokenizer ⇒ PreTrainedTokenizer | undefined
      - .feature_extractor ⇒ *
      - .apply_chat_template(messages, options) ⇒ *
      - .batch_decode(...args) ⇒ *
      - .decode(...args) ⇒ *
      - ._call(input, ...args) ⇒ Promise.<any>
    - 静态
      - .from_pretrained(pretrained_model_name_or_path, options) ⇒ Promise.<Processor>
- 内部
  - ~PreTrainedTokenizer : Object

processors.Processor

表示一个从输入中提取特征的处理器。

类型：processors 的静态类

.Processor
- new Processor(config, components)
- 实例
  - .image_processor ⇒ *
  - .tokenizer ⇒ PreTrainedTokenizer | undefined
  - .feature_extractor ⇒ *
  - .apply_chat_template(messages, options) ⇒ *
  - .batch_decode(...args) ⇒ *
  - .decode(...args) ⇒ *
  - ._call(input, ...args) ⇒ Promise.<any>
- 静态
  - .from_pretrained(pretrained_model_name_or_path, options) ⇒ Promise.<Processor>

new Processor(config, components)

使用给定组件创建一个新的 Processor

参数	类型
config	`Object`
components	`Record.<string, Object>`

processor.image_processor ⇒ `*`

类型：Processor 的实例属性
返回值：* - 处理器的图像处理器（如果存在）。

processor.tokenizer ⇒ `PreTrainedTokenizer` | `undefined`

类型：Processor 的实例属性
返回值：PreTrainedTokenizer | undefined - 处理器的分词器（如果存在）。

processor.feature_extractor ⇒ `*`

类型：Processor 的实例属性
返回值：* - 处理器的特征提取器（如果存在）。

processor.apply_chat_template(messages, options) ⇒ `*`

类型：Processor 的实例方法

参数	类型
messages	`*`
options	`*`

processor.batch_decode(...args) ⇒ `*`

类型：Processor 的实例方法

参数	类型
...args	`*`

processor.decode(...args) ⇒ `*`

类型：Processor 的实例方法

参数	类型
...args	`*`

processor._call(input, ...args) ⇒ `Promise. < any >`

使用给定的输入调用 feature_extractor 函数。

类型：Processor 的实例方法
返回值：Promise.<any> - 一个 Promise，它解析为提取的特征。

参数	类型	描述
input	`any`	要从中提取特征的输入。
...args	`any`	附加参数。

Processor.from_pretrained(pretrained_model_name_or_path, options) ⇒ `Promise. < Processor >`

从预训练模型实例化库中的一个处理器类。

要实例化的处理器类是根据配置对象的 image_processor_type（或 feature_extractor_type；旧版）属性选择的（可以作为参数传递，也可以从 pretrained_model_name_or_path 加载，如果可能）

类型：Processor 的静态方法
返回值：Promise.<Processor> - Processor 类的新实例。

参数类型描述

pretrained_model_name_or_path

参数	类型	描述
pretrained_model_name_or_path	`string`	预训练模型的名称或路径。可以是一个字符串，即托管在 huggingface.co 模型仓库中的预训练处理器的模型 ID。有效的模型 ID 可以位于根级别，例如 `bert-base-uncased`，或者命名空间在用户或组织名称下，例如 `dbmdz/bert-base-german-cased`。一个指向包含处理器文件的目录的路径，例如 `./my_model_directory/`。
options	`PretrainedProcessorOptions`	用于加载处理器的其他选项。

string

预训练模型的名称或路径。可以是

一个字符串，即托管在 huggingface.co 模型仓库中的预训练处理器的模型 ID。有效的模型 ID 可以位于根级别，例如 bert-base-uncased，或者命名空间在用户或组织名称下，例如 dbmdz/bert-base-german-cased。
一个指向包含处理器文件的目录的路径，例如 ./my_model_directory/。

options

PretrainedProcessorOptions

用于加载处理器的其他选项。

processors~PreTrainedTokenizer : `Object`

其他处理器特定的属性。

类型：processors 的内部类型定义

< > 在 GitHub 上更新

←分词器配置→

Transformers.js

处理器

processors.Processor

new Processor(config, components)

processor.image_processor ⇒ *

processor.tokenizer ⇒ PreTrainedTokenizer | undefined

processor.feature_extractor ⇒ *

processor.apply_chat_template(messages, options) ⇒ *

processor.batch_decode(...args) ⇒ *

processor.decode(...args) ⇒ *

processor._call(input, ...args) ⇒ Promise. < any >

Processor.from_pretrained(pretrained_model_name_or_path, options) ⇒ Promise. < Processor >

processors~PreTrainedTokenizer : Object

processor.image_processor ⇒ `*`

processor.tokenizer ⇒ `PreTrainedTokenizer` | `undefined`

processor.feature_extractor ⇒ `*`

processor.apply_chat_template(messages, options) ⇒ `*`

processor.batch_decode(...args) ⇒ `*`

processor.decode(...args) ⇒ `*`

processor._call(input, ...args) ⇒ `Promise. < any >`

Processor.from_pretrained(pretrained_model_name_or_path, options) ⇒ `Promise. < Processor >`

processors~PreTrainedTokenizer : `Object`