管道工具

本页列出了库中所有为管道提供的实用函数。

其中大部分只有在研究库中模型的代码时才有用。

参数处理

class transformers.pipelines.ArgumentHandler

< 来源 >

( )

用于处理每个管道参数的基本接口。

class transformers.pipelines.ZeroShotClassificationArgumentHandler

< 来源 >

( )

通过将每个可能的标签转换为 NLI 前提/假设对来处理零样本文本分类的参数。

class transformers.pipelines.QuestionAnsweringArgumentHandler

< 来源 >

( )

问答管道需要用户提供多个参数（即问题和上下文），以映射到内部的 SquadExample。

QuestionAnsweringArgumentHandler 管理所有从命令行提供的参数创建 SquadExample 的可能方法。

数据格式

class transformers.PipelineDataFormat

< 来源 >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite: bool = False )

参数

output_path (str) — 输出数据保存位置。
input_path (str) — 输入数据查找位置。
column (str) — 要读取的列。
overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path。

所有管道支持的数据格式（读写）的基础类。目前支持的数据格式包括：

JSON
CSV
stdin/stdout (管道)

PipelineDataFormat 还包括一些处理多列的工具，例如通过 dataset_kwarg_1=dataset_column_1 格式从数据集列映射到管道关键字参数。

from_str

< 来源 >

( format: str output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False ) → PipelineDataFormat

参数

format (str) — 期望管道的格式。可接受的值为 "json"、"csv" 或 "pipe"。
output_path (str, 可选) — 输出数据保存位置。
input_path (str, 可选) — 输入数据查找位置。
column (str, 可选) — 要读取的列。
overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path。

管道数据格式。

根据 format 创建正确的 PipelineDataFormat 子类实例。

保存

< 来源 >

( data: typing.Union[dict, list[dict]] )

data (dict 或 dict 列表) — 要存储的数据。

参数

使用当前 PipelineDataFormat 的表示形式保存提供的数据对象。

保存二进制文件

< 来源 >

( data: typing.Union[dict, list[dict]] ) → str

data (dict 或 dict 列表) — 要存储的数据。

参数

数据已保存的路径。

字符串

将提供的数据对象以 pickle 格式的二进制数据保存到磁盘。

class transformers.CsvPipelineDataFormat

< 来源 >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False )

output_path (str) — 输出数据保存位置。

参数

input_path (str) — 输入数据查找位置。
column (str) — 要读取的列。
overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path。
支持使用 CSV 数据格式的管道。

< 来源 >

( data: list )

data (list[dict]) — 要存储的数据。

参数

class transformers.JsonPipelineDataFormat

保存二进制文件

< 来源 >

output_path (str) — 输出数据保存位置。

参数

input_path (str) — 输入数据查找位置。
column (str) — 要读取的列。
overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path。
支持使用 JSON 文件格式的管道。

< 来源 >

( data: dict )

data (dict) — 要存储的数据。

参数

将提供的数据对象保存为 JSON 文件。

class transformers.PipedPipelineDataFormat

< 来源 >

output_path (str) — 输出数据保存位置。

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite: bool = False )

参数

input_path (str) — 输入数据查找位置。
column (str) — 要读取的列。
overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path。
从管道输入读取数据到 Python 进程。对于多列数据，列应以

如果提供了列，则输出将是一个字典，格式为 {column_x: value_x}

< 来源 >

( data: typing.Union[dict, list[dict]] ) → None

data (dict) — 要存储的数据。

参数

data (dict) — 要存储的数据。

打印数据。

实用工具

class transformers.pipelines.PipelineException

< 来源 >

( task: str model: str reason: str )

参数

task (str) — 管道的任务。
model (str) — 管道使用的模型。
reason (str) — 要显示的错误消息。

由 Pipeline 在处理 call 时引发。

< > 在 GitHub 上更新

Transformers

管道工具

参数处理

class transformers.pipelines.ArgumentHandler

class transformers.pipelines.ZeroShotClassificationArgumentHandler

class transformers.pipelines.QuestionAnsweringArgumentHandler

数据格式

class transformers.PipelineDataFormat

from_str

实用工具

class transformers.pipelines.PipelineException