SetFit 文档

训练器类

SetFit

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

训练器类

TrainingArguments

类 setfit.TrainingArguments

< 源 >

( output_dir: str = 'checkpoints' batch_size: Union[int, Tuple[int, int]] = (16, 2) num_epochs: Union[int, Tuple[int, int]] = (1, 16) max_steps: int = -1 sampling_strategy: str = 'oversampling' num_iterations: Optional[int] = None body_learning_rate: Union[float, Tuple[float, float]] = (2e-05, 1e-05) head_learning_rate: float = 0.01 loss: Callable = <class 'sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss'> distance_metric: Callable = <function BatchHardTripletLossDistanceFunction.cosine_distance at 0x7f2cdea71ea0> margin: float = 0.25 end_to_end: bool = False use_amp: bool = False warmup_proportion: float = 0.1 l2_weight: Optional[float] = 0.01 max_length: Optional[int] = None samples_per_label: int = 2 show_progress_bar: bool = True seed: int = 42 report_to: str = 'all' run_name: Optional[str] = None logging_dir: Optional[str] = None logging_strategy: str = 'steps' logging_first_step: bool = True logging_steps: int = 50 eval_strategy: str = 'no' evaluation_strategy: Optional[str] = None eval_steps: Optional[int] = None eval_delay: int = 0 eval_max_steps: int = -1 save_strategy: str = 'steps' save_steps: int = 500 save_total_limit: Optional[int] = 1 load_best_model_at_end: bool = False metric_for_best_model: Optional[str] = 'embedding_loss' greater_is_better: bool = False )

参数

output_dir (str, 默认为 "checkpoints") — 模型预测和检查点将被写入的输出目录。
batch_size (Union[int, Tuple[int, int]], 默认为 (16, 2)) — 分别设置嵌入和分类器训练阶段的批量大小，如果提供整数则设置两者。请注意，分类器的批量大小仅在可微分 PyTorch 头中使用。
num_epochs (Union[int, Tuple[int, int]], 默认为 (1, 16)) — 分别设置嵌入和分类器训练阶段的 epoch 数，如果提供整数则设置两者。请注意，分类器的 epoch 数仅在可微分 PyTorch 头中使用。
max_steps (int, 默认为 -1) — 如果设置为正数，则为要执行的训练总步数。覆盖 num_epochs。当所有数据耗尽时，训练可能会在达到设定的步数之前停止。
sampling_strategy (str, 默认为 "oversampling") — 训练中如何抽取对的采样策略。可能的值有：
- "oversampling"：抽取偶数个正/负句子对，直到每个句子对都被抽取。
- "undersampling"：抽取最少数量的正/负句子对，直到少数类中的每个句子对都被抽取。
- "unique"：抽取所有句子对组合（可能导致正/负句子对数量不平衡）。
默认设置为"oversampling"，确保所有句子对至少被抽取一次。或者，设置num_iterations将覆盖此参数并确定生成的句子对的数量。
num_iterations (int, 可选) — 如果未设置，sampling_strategy将决定要生成的句子对的数量。此参数设置生成句子对的迭代次数，并与Setfit 兼容。如果使用三元组损失，此参数将被忽略。它仅与CosineSimilarityLoss一起使用。
head_learning_rate (float, 默认为 1e-2) — 设置分类器训练阶段的头部学习率。仅与可微分 PyTorch 头一起使用。
distance_metric (Callable, 默认为 BatchHardTripletLossDistanceFunction.cosine_distance) — 返回两个嵌入之间距离的函数。它用于三元组损失，对于CosineSimilarityLoss和SupConLoss则被忽略。
end_to_end (bool, 默认为 False) — 如果为 True，则在分类器训练阶段对整个模型进行端到端训练。否则，冻结SentenceTransformer主体并仅训练头部。仅与可微分 PyTorch 头一起使用。
warmup_proportion (float, 默认为 0.1) — 预热占总训练步数的比例。必须大于或等于 0.0 且小于或等于 1.0。
l2_weight (float, 可选) — 可选的 l2 权重，用于模型主体和头部，在分类器训练阶段如果使用可微分 PyTorch 头，则将其传递给 AdamW 优化器。
max_length (int, 可选) — 标记器可以生成的最大令牌长度。如果未提供，将使用SentenceTransformer主体的最大长度。
samples_per_label (int, 默认为 2) — 每个标签连续、随机且唯一的样本数。这仅与三元组损失相关，对于CosineSimilarityLoss则被忽略。批量大小应为 samples_per_label 的倍数。
seed (int, 默认为 42) — 将在训练开始时设置的随机种子。为了确保跨运行的可复现性，如果模型有一些随机初始化的参数，请使用Trainer的model_init参数来实例化模型。
"azure_ml"、"comet_ml"、"mlflow"、"neptune"、"tensorboard"、"clearml" 和 "wandb"。使用 "all" 报告给所有已安装的集成，"none" 表示不集成。
和 mlflow 日志记录。
日志目录。默认为 *runs/CURRENT_DATETIME_HOSTNAME*。
- "no": 训练期间不进行日志记录。
- "epoch": 在每个 epoch 结束时进行日志记录。
- "steps": 每 logging_steps 进行日志记录。
logging_steps (int, 默认为 50) — 如果logging_strategy="steps"，两次日志之间更新步数。
- "no": 训练期间不进行评估。
- "steps": 每 eval_steps 进行评估（并记录）。
- "epoch": 在每个 epoch 结束时进行评估。
logging_steps相同的值。
eval_delay (float, 可选) — 在进行第一次评估之前等待的 epoch 或步数，具体取决于 eval_strategy。
eval_max_steps (int, 默认为 -1) — 如果设置为正数，则为要执行的评估总步数。当所有数据耗尽时，评估可能会在达到设定的步数之前停止。
- "no": 训练期间不保存。
- "epoch": 在每个 epoch 结束时保存。
- "steps": 每 save_steps 保存。
save_total_limit (int, 可选, 默认为 1) — 如果传入值，将限制检查点总数。删除output_dir中较旧的检查点。请注意，如果eval_strategy不是"no"，则始终保留最佳模型。
load_best_model_at_end (bool, 可选, 默认为 False) — 训练结束时是否加载训练期间找到的最佳模型。

当设置为True时，参数save_strategy需要与eval_strategy相同，如果是“steps”，则save_steps必须是eval_steps的整数倍。

TrainingArguments 是与训练循环本身相关的参数子集。请注意，SetFit 的训练在幕后包含两个阶段：微调嵌入和训练分类头。因此，某些训练参数可以是元组，其中两个值分别用于两个阶段。第二个值通常仅在使用use_differentiable_head=True加载模型时才使用。

to_dict

< 源 >

( ) → Dict[str, Any]

Dict[str, Any]

此数据类的字典变体。

将此实例转换为字典。

from_dict

< 源 >

( arguments: Dict[str, Any] ignore_extra: bool = False ) → TrainingArguments

参数

返回

TrainingArguments

实例化的 TrainingArguments 实例。

从字典初始化 TrainingArguments 实例。

复制

< 源 >

( )

创建此 TrainingArguments 实例的浅拷贝。

更新

< 源 >

( arguments: Dict[str, Any] ignore_extra: bool = False )

SetFit

训练器类

TrainingArguments

类 setfit.TrainingArguments

to_dict

from_dict

复制

更新

类 setfit.Trainer

add_callback

apply_hyperparameters

评估

hyperparameter_search

pop_callback

push_to_hub

remove_callback

train

train_classifier

train_embeddings

DistillationTrainer

class setfit.DistillationTrainer

add_callback

apply_hyperparameters

评估

hyperparameter_search

pop_callback

push_to_hub

remove_callback

train

train_classifier

train_embeddings

AbsaTrainer

class setfit.AbsaTrainer

add_callback

评估

pop_callback

push_to_hub

remove_callback

train

train_aspect

train_polarity