SetFit 文档
实用工具函数
并获得增强的文档体验
开始使用
实用工具函数
setfit.get_templated_dataset
< source >( dataset: typing.Optional[datasets.arrow_dataset.Dataset] = None candidate_labels: typing.Optional[typing.List[str]] = None reference_dataset: typing.Optional[str] = None template: str = 'This sentence is {}' sample_size: int = 2 text_column: str = 'text' label_column: str = 'label' multi_label: bool = False label_names_column: str = 'label_text' ) → Dataset
参数
- dataset (
Dataset
, 可选) — 要添加模板示例的 Dataset。 - candidate_labels (
List[str]
, 可选) — 要馈送到模板以构建示例的候选标签列表。 - reference_dataset (
str
, 可选) — 如果未提供candidate_labels
,则从中获取标签的数据集。 - template (
str
, 可选, 默认为"This sentence is {}"
) — 用于将每个标签转换为合成训练示例的模板。此模板必须包含一个 {},以便将候选标签插入到模板中。例如,默认模板是 “This sentence is {}。”。对于候选标签 “sports”,这将生成示例 “This sentence is sports”。 - sample_size (
int
, 可选, 默认为 2) — 每个候选标签要生成的示例数量。 - text_column (
str
, 可选, 默认为"text"
) — 包含示例文本的列的名称。 - label_column (
str
, 可选, 默认为"label"
) —dataset
中包含示例标签的列的名称。 - multi_label (
bool
, 可选, 默认为False
) — 是否可以存在多个候选标签为真。 - label_names_column (
str
, 可选, 默认为 “label_text”) —reference_dataset
中的标签列的名称,用于在标签列没有 ClassLabel 特征的情况下。
返回值
Dataset
输入 Dataset 的副本,其中添加了模板示例。
Raises
ValueError
ValueError
— 如果输入 Dataset 不为空,并且缺少提供的列名中的一个或两个。
为参考数据集或参考标签创建模板示例。
如果提供了 candidate_labels
,则使用它来生成模板。否则,使用从 reference_dataset
加载的标签。
如果提供了输入 Dataset,则将示例添加到其中,否则创建一个新的 Dataset。假定输入 Dataset 具有名为 text_column
的文本列和名为 label_column
的标签列,其中包含 one-hot 或 multi-hot 编码的标签序列。
setfit.sample_dataset
< source >( dataset: Dataset label_column: str = 'label' num_samples: int = 8 seed: int = 42 )
对 Dataset 进行抽样,以创建每个类别的相等数量的样本(如果可能)。