Transformers 文档

管道实用工具

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

管道实用工具

此页面列出了库为管道提供的所有实用函数。

如果您正在研究库中模型的代码,那么其中大多数工具才有用。

参数处理

class transformers.pipelines.ArgumentHandler

< >

( )

用于处理每个 Pipeline 参数的基本接口。

class transformers.pipelines.ZeroShotClassificationArgumentHandler

< >

( )

通过将每个可能的标签转换为 NLI 前提/假设对来处理零样本文本分类的参数。

class transformers.pipelines.QuestionAnsweringArgumentHandler

< >

( )

QuestionAnsweringPipeline 需要用户提供多个参数(即问题和上下文)以映射到内部 SquadExample

QuestionAnsweringArgumentHandler 管理从命令行提供的参数创建 SquadExample 的所有可能性。

数据格式

class transformers.PipelineDataFormat

< >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite: bool = False )

参数

  • output_path (str) — 保存输出数据的位置。
  • input_path (str) — 查找输入数据的位置。
  • column (str) — 要读取的列。
  • overwrite (bool, optional, 默认为 False) — 是否覆盖 output_path

所有管道支持的数据格式(用于读取和写入)的基类。 目前支持的数据格式包括

  • JSON
  • CSV
  • stdin/stdout (管道)

PipelineDataFormat 还包括一些用于处理多列的实用工具,例如通过 dataset_kwarg_1=dataset_column_1 格式将数据集列映射到管道关键字参数。

from_str

< >

( format: str output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False ) PipelineDataFormat

参数

  • format (str) — 所需管道的格式。 可接受的值为 "json""csv""pipe"
  • output_path (str, optional) — 保存输出数据的位置。
  • input_path (str, optional) — 查找输入数据的位置。
  • column (str, optional) — 要读取的列。
  • overwrite (bool, optional, 默认为 False) — 是否覆盖 output_path

返回

PipelineDataFormat

正确的数据格式。

根据 format 创建 PipelineDataFormat 的正确子类的实例。

save

< >

( data: typing.Union[dict, typing.List[dict]] )

参数

  • data (dictdict 列表) — 要存储的数据。

使用当前 PipelineDataFormat 的表示形式保存提供的数据对象。

save_binary

< >

( data: typing.Union[dict, typing.List[dict]] ) str

参数

  • data (dictdict 列表) — 要存储的数据。

返回

str

数据保存到的路径。

将提供的数据对象另存为磁盘上的 pickle 格式的二进制数据。

class transformers.CsvPipelineDataFormat

< >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False )

参数

  • output_path (str) — 保存输出数据的位置。
  • input_path (str) — 在哪里查找输入数据。
  • column (str) — 要读取的列。
  • overwrite (bool, optional, defaults to False) — 是否覆盖 output_path

支持使用 CSV 数据格式的 pipeline。

save

< >

( data: typing.List[dict] )

参数

  • data (List[dict]) — 要存储的数据。

使用当前 PipelineDataFormat 的表示形式保存提供的数据对象。

class transformers.JsonPipelineDataFormat

< >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False )

参数

  • output_path (str) — 保存输出数据的位置。
  • input_path (str) — 在哪里查找输入数据。
  • column (str) — 要读取的列。
  • overwrite (bool, optional, defaults to False) — 是否覆盖 output_path

支持使用 JSON 文件格式的 pipeline。

save

< >

( data: dict )

参数

  • data (dict) — 要存储的数据。

将所提供的数据对象保存在 json 文件中。

class transformers.PipedPipelineDataFormat

< >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite: bool = False )

参数

  • output_path (str) — 保存输出数据的位置。
  • input_path (str) — 在哪里查找输入数据。
  • column (str) — 要读取的列。
  • overwrite (bool, optional, defaults to False) — 是否覆盖 output_path

从管道输入读取数据到 python 进程。对于多列数据,列应以 分隔

如果提供了列,则输出将是一个字典,格式为 {column_x: value_x}

save

< >

( data: dict )

参数

  • data (dict) — 要存储的数据。

打印数据。

实用工具

class transformers.pipelines.PipelineException

< >

( task: str model: str reason: str )

参数

  • task (str) — pipeline 的任务。
  • model (str) — pipeline 使用的模型。
  • reason (str) — 要显示的错误消息。

当处理 call 时,Pipeline 引发此异常。

< > Update on GitHub