Transformers文档

管道工具

Hugging Face's logo
加入Hugging Face社区

并获得增强的文档体验

开始使用

流程工具

本页面列出了库提供的所有流程工具函数。

其中许多只有在研究库中模型的代码时才有用。

参数处理

class transformers.pipelines.ArgumentHandler

< >

( )

每个Pipeline处理参数的基本接口。

transformers.pipelines.ZeroShotClassificationArgumentHandler

< >

( )

通过对每个可能的标签转换为NLI前提/假设对来处理零样本文本分类的参数。

transformers.pipelines.QuestionAnsweringArgumentHandler

< >

( )

问答Pipeline需要用户提供多个参数(即问题 & 背景信息),以映射到内部 SquadExample

问答参数处理器管理所有可能的参数,从命令行提供的参数创建 SquadExample

数据格式

transformers.PipelineDataFormat

< >

( output_path: 可选 input_path: 可选 column: 可选 overwrite: bool = False )

参数

  • output_path (str) — 存储输出数据的位置。
  • input_path (str) — 查找输入数据的位置。
  • column (str) — 需要读取的列。
  • overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path

所有支持的管道数据格式的基类,包括读取和写入功能。当前支持的数据格式包括

  • JSON
  • CSV
  • stdin/stdout(管道)

PipelineDataFormat 还包含一些与多列操作相关的工具,例如通过 dataset_kwarg_1=dataset_column_1 格式的数据集列到管道关键字参数的映射。

from_str

< >

( format: str output_path: Optional input_path: Optional column: Optional overwrite = False ) PipelineDataFormat

参数

  • format (str) — 所需管道的格式。可接受的值是 "json""csv""pipe"
  • output_path (str, 可选) — 存储输出数据的位置。
  • input_path (str, 可选) —查找输入数据的位置。
  • column (str, 可选) —要读取的列。
  • overwrite (bool, 可选,默认为False) —是否要覆盖output_path

返回值

PipelineDataFormat

正确的数据格式。

根据format参数创建正确子类的PipelineDataFormat实例。

保存

< >

( data: Union )

参数

  • data (dictdict 的列表) — 要存储的数据。

以当前 PipelineDataFormat 的表示形式保存提供的数据对象。

save_binary

< >

( data: Union ) str

参数

  • data (dict 或字典列表) — 要存储的数据。

返回值

str

保存数据的位置。

将提供的数据对象以pickle格式保存为磁盘上的二进制数据。

class transformers.CsvPipelineDataFormat

< >

( output_path: Optional input_path: Optional column: Optional overwrite = False )

参数

  • output_path (str) — 存储输出数据的路径。
  • input_path (str) — 查找输入数据的位置。
  • column (str) — 要读取的列。
  • overwrite (bool, 可选,默认值为 False) — 是否要覆盖 output_path

支持使用CSV数据格式的管道。

保存

< >

( 数据: 列表 )

参数

  • 数据 (列表[字典]) — 要存储的数据。

以当前 PipelineDataFormat 的表示形式保存提供的数据对象。

transformers.JsonPipelineDataFormat

< >

( output_path: Optional input_path: Optional column: Optional overwrite = False )

参数

  • output_path (字符串) — 指定保存输出数据的路径。
  • input_path (字符串) — 指定查找输入数据的路径。
  • column (str) — 要读取的列。
  • overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path

支持使用JSON文件格式的流水线。

保存

< >

( data: dict )

参数

  • 数据 (字典) — 要存储的数据。

将提供的数据对象保存到json文件中。

transformers.PipedPipelineDataFormat

< >

( output_path: 可选 input_path: 可选 column: 可选 overwrite: bool = False )

参数

  • output_path (字符串) — 存储输出数据的位置。
  • input_path (str) — 查找输入数据的位置。
  • column (str) — 要读取的列。
  • overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path

从管道输入读取数据到python进程。对于多列数据,列之间应由

如果提供了列,则输出将是一个字典,格式为 {列_x: 值_x}

保存

< >

( data: dict )

参数

  • 数据 (字典) — 要存储的数据。

打印数据。

工具

transformers.pipelines.PipelineException

< >

( 任务: str 模型: str 原因: str )

参数

  • task (str) — 管道的任务。
  • model (str) — 管道使用的模型。
  • reason (str) — 显示的错误信息。

当处理 调用 时,由 管道 抛出。

< > 在GitHub上更新