SetFit 文档
实用函数
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
实用函数
setfit.get_templated_dataset
< 来源 >( dataset: typing.Optional[datasets.arrow_dataset.Dataset] = None candidate_labels: typing.Optional[typing.List[str]] = None reference_dataset: typing.Optional[str] = None template: str = 'This sentence is {}' sample_size: int = 2 text_column: str = 'text' label_column: str = 'label' multi_label: bool = False label_names_column: str = 'label_text' ) → Dataset
参数
- dataset (
Dataset
, 可选) — 要添加模板化示例的数据集。 - candidate_labels (
List[str]
, 可选) — 要馈送到模板中以构建示例的候选标签列表。 - reference_dataset (
str
, 可选) — 如果未提供candidate_labels
,则从中获取标签的数据集。 - template (
str
, 可选, 默认为"This sentence is {}"
) — 用于将每个标签转换为合成训练示例的模板。此模板必须包含一个 {},以便将候选标签插入到模板中。例如,默认模板是“This sentence is {}.”。对于候选标签“sports”,这将生成一个示例“This sentence is sports”。 - sample_size (
int
, 可选, 默认为 2) — 为每个候选标签创建的示例数量。 - text_column (
str
, 可选, 默认为"text"
) — 包含示例文本的列的名称。 - label_column (
str
, 可选, 默认为"label"
) —dataset
中包含示例标签的列的名称。 - multi_label (
bool
, 可选, 默认为False
) — 是否可以有多个候选标签为真。 - label_names_column (
str
, 可选, 默认为“label_text”) —reference_dataset
中标签列的名称,在标签列没有 ClassLabel 特征时使用。
返回
数据集
添加了模板化示例的输入数据集的副本。
引发
ValueError
ValueError
— 如果输入数据集不为空且提供的一个或两个列名缺失。
为参考数据集或参考标签创建模板化示例。
如果提供了 candidate_labels
,则使用它生成模板。否则,使用从 reference_dataset
加载的标签。
如果提供了输入数据集,则将示例添加到其中,否则创建一个新数据集。假设输入数据集有一个名为 text_column
的文本列和一个名为 label_column
的标签列,其中包含独热或多热编码的标签序列。
setfit.sample_dataset
< 来源 >( dataset: Dataset label_column: str = 'label' num_samples: int = 8 seed: int = 42 )
对数据集进行采样,以使每个类别(如果可能)具有相同数量的样本。