表格分类/回归

使用 AutoTrain，您可以轻松地训练一个模型来对表格数据进行分类或回归。您需要做的就是从模型列表中选择一个模型并上传您的数据集。参数调整是自动完成的。

模型

以下模型可用于表格分类/回归。

xgboost
random_forest
ridge
logistic_regression
svm
extra_trees
gradient_boosting
adaboost
decision_tree
knn

数据格式

id,category1,category2,feature1,target
1,A,X,0.3373961604172684,1
2,B,Z,0.6481718720511972,0
3,A,Y,0.36824153984054797,1
4,B,Z,0.9571551589530464,1
5,B,Z,0.14035078041264515,1
6,C,X,0.8700872583584364,1
7,A,Y,0.4736080452737105,0
8,C,Y,0.8009107519796442,1
9,A,Y,0.5204774795512048,0
10,A,Y,0.6788795301189603,0
.
.
.

列

您的 CSV 数据集必须包含两列： id 和 target。

参数

class autotrain.trainers.tabular.params.TabularParams

< 源码 >

( data_path: str = None model: str = 'xgboost' username: typing.Optional[str] = None seed: int = 42 train_split: str = 'train' valid_split: typing.Optional[str] = None project_name: str = 'project-name' token: typing.Optional[str] = None push_to_hub: bool = False id_column: str = 'id' target_columns: typing.Union[typing.List[str], str] = ['target'] categorical_columns: typing.Optional[typing.List[str]] = None numerical_columns: typing.Optional[typing.List[str]] = None task: str = 'classification' num_trials: int = 10 time_limit: int = 600 categorical_imputer: typing.Optional[str] = None numerical_imputer: typing.Optional[str] = None numeric_scaler: typing.Optional[str] = None )

参数

data_path (str) — 数据集的路径。
model (str) — 要使用的模型的名称。默认为“xgboost”。
username (Optional[str]) — Hugging Face 用户名。
seed (int) — 用于可复现性的随机种子。默认为 42。
train_split (str) — 训练数据拆分的名称。默认为“train”。
valid_split (Optional[str]) — 验证数据拆分的名称。
project_name (str) — 输出目录的名称。默认为“project-name”。
token (Optional[str]) — 用于身份验证的 Hub 令牌。
push_to_hub (bool) — 是否将模型推送到 Hub。默认为 False。
id_column (str) — ID 列的名称。默认为“id”。
target_columns (Union[List[str], str]) — 数据集中的目标列。默认为 [“target”]。
categorical_columns (Optional[List[str]]) — 分类列的列表。
numerical_columns (Optional[List[str]]) — 数值列的列表。
task (str) — 任务类型（例如，“classification”）。默认为“classification”。
num_trials (int) — 超参数优化的试验次数。默认为 10。
time_limit (int) — 训练时间限制（以秒为单位）。默认为 600。
categorical_imputer (Optional[str]) — 分类列的插补策略。
numerical_imputer (Optional[str]) — 数值列的插补策略。
numeric_scaler (Optional[str]) — 数值列的缩放策略。

TabularParams 是用于表格数据训练参数的配置类。

< > 在 GitHub 上更新