SetFit 文档

实用函数

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

实用函数

setfit.get_templated_dataset

< >

( dataset: typing.Optional[datasets.arrow_dataset.Dataset] = None candidate_labels: typing.Optional[typing.List[str]] = None reference_dataset: typing.Optional[str] = None template: str = 'This sentence is {}' sample_size: int = 2 text_column: str = 'text' label_column: str = 'label' multi_label: bool = False label_names_column: str = 'label_text' ) Dataset

参数

  • dataset (Dataset, 可选) — 要添加模板化示例的数据集。
  • candidate_labels (List[str], 可选) — 要馈送到模板中以构建示例的候选标签列表。
  • reference_dataset (str, 可选) — 如果未提供 candidate_labels,则从中获取标签的数据集。
  • template (str, 可选, 默认为 "This sentence is {}") — 用于将每个标签转换为合成训练示例的模板。此模板必须包含一个 {},以便将候选标签插入到模板中。例如,默认模板是“This sentence is {}.”。对于候选标签“sports”,这将生成一个示例“This sentence is sports”。
  • sample_size (int, 可选, 默认为 2) — 为每个候选标签创建的示例数量。
  • text_column (str, 可选, 默认为 "text") — 包含示例文本的列的名称。
  • label_column (str, 可选, 默认为 "label") — dataset 中包含示例标签的列的名称。
  • multi_label (bool, 可选, 默认为 False) — 是否可以有多个候选标签为真。
  • label_names_column (str, 可选, 默认为“label_text”) — reference_dataset 中标签列的名称,在标签列没有 ClassLabel 特征时使用。

返回

数据集

添加了模板化示例的输入数据集的副本。

引发

ValueError

  • ValueError — 如果输入数据集不为空且提供的一个或两个列名缺失。

为参考数据集或参考标签创建模板化示例。

如果提供了 candidate_labels,则使用它生成模板。否则,使用从 reference_dataset 加载的标签。

如果提供了输入数据集,则将示例添加到其中,否则创建一个新数据集。假设输入数据集有一个名为 text_column 的文本列和一个名为 label_column 的标签列,其中包含独热或多热编码的标签序列。

setfit.sample_dataset

< >

( dataset: Dataset label_column: str = 'label' num_samples: int = 8 seed: int = 42 )

对数据集进行采样,以使每个类别(如果可能)具有相同数量的样本。

< > 在 GitHub 上更新