流程工具
本页面列出了库提供的所有流程工具函数。
其中许多只有在研究库中模型的代码时才有用。
参数处理
通过对每个可能的标签转换为NLI前提/假设对来处理零样本文本分类的参数。
问答Pipeline需要用户提供多个参数(即问题 & 背景信息),以映射到内部 SquadExample
。
问答参数处理器管理所有可能的参数,从命令行提供的参数创建 SquadExample
。
数据格式
类 transformers.PipelineDataFormat
< 源 >( output_path: 可选 input_path: 可选 column: 可选 overwrite: bool = False )
所有支持的管道数据格式的基类,包括读取和写入功能。当前支持的数据格式包括
- JSON
- CSV
- stdin/stdout(管道)
PipelineDataFormat
还包含一些与多列操作相关的工具,例如通过 dataset_kwarg_1=dataset_column_1
格式的数据集列到管道关键字参数的映射。
from_str
< source >( format: str output_path: Optional input_path: Optional column: Optional overwrite = False ) → PipelineDataFormat
根据format
参数创建正确子类的PipelineDataFormat
实例。
以当前 PipelineDataFormat 的表示形式保存提供的数据对象。
将提供的数据对象以pickle格式保存为磁盘上的二进制数据。
class transformers.CsvPipelineDataFormat
< source >( output_path: Optional input_path: Optional column: Optional overwrite = False )
支持使用CSV数据格式的管道。
以当前 PipelineDataFormat 的表示形式保存提供的数据对象。
类 transformers.JsonPipelineDataFormat
< 源 >( output_path: Optional input_path: Optional column: Optional overwrite = False )
支持使用JSON文件格式的流水线。
将提供的数据对象保存到json文件中。
类 transformers.PipedPipelineDataFormat
< 来源 >( output_path: 可选 input_path: 可选 column: 可选 overwrite: bool = False )
从管道输入读取数据到python进程。对于多列数据,列之间应由
如果提供了列,则输出将是一个字典,格式为 {列_x: 值_x}
打印数据。