SetFit 文档

实用工具函数

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

实用工具函数

setfit.get_templated_dataset

< >

( dataset: typing.Optional[datasets.arrow_dataset.Dataset] = None candidate_labels: typing.Optional[typing.List[str]] = None reference_dataset: typing.Optional[str] = None template: str = 'This sentence is {}' sample_size: int = 2 text_column: str = 'text' label_column: str = 'label' multi_label: bool = False label_names_column: str = 'label_text' ) Dataset

参数

  • dataset (Dataset, 可选) — 要添加模板示例的 Dataset。
  • candidate_labels (List[str], 可选) — 要馈送到模板以构建示例的候选标签列表。
  • reference_dataset (str, 可选) — 如果未提供 candidate_labels,则从中获取标签的数据集。
  • template (str, 可选, 默认为 "This sentence is {}") — 用于将每个标签转换为合成训练示例的模板。此模板必须包含一个 {},以便将候选标签插入到模板中。例如,默认模板是 “This sentence is {}。”。对于候选标签 “sports”,这将生成示例 “This sentence is sports”。
  • sample_size (int, 可选, 默认为 2) — 每个候选标签要生成的示例数量。
  • text_column (str, 可选, 默认为 "text") — 包含示例文本的列的名称。
  • label_column (str, 可选, 默认为 "label") — dataset 中包含示例标签的列的名称。
  • multi_label (bool, 可选, 默认为 False) — 是否可以存在多个候选标签为真。
  • label_names_column (str, 可选, 默认为 “label_text”) — reference_dataset 中的标签列的名称,用于在标签列没有 ClassLabel 特征的情况下。

返回值

Dataset

输入 Dataset 的副本,其中添加了模板示例。

Raises

ValueError

  • ValueError — 如果输入 Dataset 不为空,并且缺少提供的列名中的一个或两个。

为参考数据集或参考标签创建模板示例。

如果提供了 candidate_labels,则使用它来生成模板。否则,使用从 reference_dataset 加载的标签。

如果提供了输入 Dataset,则将示例添加到其中,否则创建一个新的 Dataset。假定输入 Dataset 具有名为 text_column 的文本列和名为 label_column 的标签列,其中包含 one-hot 或 multi-hot 编码的标签序列。

setfit.sample_dataset

< >

( dataset: Dataset label_column: str = 'label' num_samples: int = 8 seed: int = 42 )

对 Dataset 进行抽样,以创建每个类别的相等数量的样本(如果可能)。

< > 更新 在 GitHub 上