实用函数

setfit.get_templated_dataset

( dataset: typing.Optional[datasets.arrow_dataset.Dataset] = None candidate_labels: typing.Optional[typing.List[str]] = None reference_dataset: typing.Optional[str] = None template: str = 'This sentence is {}' sample_size: int = 2 text_column: str = 'text' label_column: str = 'label' multi_label: bool = False label_names_column: str = 'label_text' ) → Dataset

参数

dataset (Dataset, 可选) — 要添加模板化示例的数据集。
candidate_labels (List[str], 可选) — 要馈送到模板中以构建示例的候选标签列表。
reference_dataset (str, 可选) — 如果未提供 candidate_labels，则从中获取标签的数据集。
template (str, 可选, 默认为 "This sentence is {}") — 用于将每个标签转换为合成训练示例的模板。此模板必须包含一个 {}，以便将候选标签插入到模板中。例如，默认模板是“This sentence is {}.”。对于候选标签“sports”，这将生成一个示例“This sentence is sports”。
sample_size (int, 可选, 默认为 2) — 为每个候选标签创建的示例数量。
text_column (str, 可选, 默认为 "text") — 包含示例文本的列的名称。
label_column (str, 可选, 默认为 "label") — dataset 中包含示例标签的列的名称。
multi_label (bool, 可选, 默认为 False) — 是否可以有多个候选标签为真。
label_names_column (str, 可选, 默认为“label_text”) — reference_dataset 中标签列的名称，在标签列没有 ClassLabel 特征时使用。

数据集

添加了模板化示例的输入数据集的副本。

引发

ValueError

ValueError — 如果输入数据集不为空且提供的一个或两个列名缺失。

为参考数据集或参考标签创建模板化示例。

如果提供了 candidate_labels，则使用它生成模板。否则，使用从 reference_dataset 加载的标签。

如果提供了输入数据集，则将示例添加到其中，否则创建一个新数据集。假设输入数据集有一个名为 text_column 的文本列和一个名为 label_column 的标签列，其中包含独热或多热编码的标签序列。

setfit.sample_dataset

< 来源 >

( dataset: Dataset label_column: str = 'label' num_samples: int = 8 seed: int = 42 )

对数据集进行采样，以使每个类别（如果可能）具有相同数量的样本。

< > 在 GitHub 上更新

SetFit

实用函数

setfit.get_templated_dataset

setfit.sample_dataset