您正在查看 主分支 版本,需要从源代码安装。如果您想使用常规的 pip 安装,请查看最新的稳定版本(v0.8.24)。
表格分类/回归
使用 AutoTrain,您可以轻松地训练模型对表格数据进行分类或回归。您只需从模型列表中选择并上传您的数据集即可。参数调整会自动完成。
模型
以下模型可用于表格分类/回归。
- xgboost
- random_forest
- ridge
- logistic_regression
- svm
- extra_trees
- gradient_boosting
- adaboost
- decision_tree
- knn
数据格式
id,category1,category2,feature1,target
1,A,X,0.3373961604172684,1
2,B,Z,0.6481718720511972,0
3,A,Y,0.36824153984054797,1
4,B,Z,0.9571551589530464,1
5,B,Z,0.14035078041264515,1
6,C,X,0.8700872583584364,1
7,A,Y,0.4736080452737105,0
8,C,Y,0.8009107519796442,1
9,A,Y,0.5204774795512048,0
10,A,Y,0.6788795301189603,0
.
.
.
列
您的 CSV 数据集必须包含两列:id
和 target
。
参数
类 autotrain.trainers.tabular.params.TabularParams
< 源代码 >( data_path: str = None model: str = 'xgboost' username: Optional = None seed: int = 42 train_split: str = 'train' valid_split: Optional = None project_name: str = 'project-name' token: Optional = None push_to_hub: bool = False id_column: str = 'id' target_columns: Union = ['target'] categorical_columns: Optional = None numerical_columns: Optional = None task: str = 'classification' num_trials: int = 10 time_limit: int = 600 categorical_imputer: Optional = None numerical_imputer: Optional = None numeric_scaler: Optional = None )
参数
- data_path (str) — 数据集路径。
- model (str) — 要使用的模型名称。默认为“xgboost”。
- username (Optional[str]) — Hugging Face 用户名。
- seed (int) — 用于重现结果的随机种子。默认为 42。
- train_split (str) — 训练数据集的名称。默认为“train”。
- valid_split (Optional[str]) — 验证数据集的名称。
- project_name (str) — 输出目录的名称。默认为“project-name”。
- token (Optional[str]) — 用于身份验证的 Hub 令牌。
- push_to_hub (bool) — 是否将模型推送到 Hub。默认为 False。
- id_column (str) — ID 列的名称。默认为“id”。
- target_columns (Union[List[str], str]) — 数据集中目标列。默认为[“target”]。
- categorical_columns (Optional[List[str]]) — 类别特征列的列表。
- numerical_columns (Optional[List[str]]) — 数值特征列的列表。
- task (str) — 任务类型(例如,“分类”)。默认为“分类”。
- num_trials (int) — 超参数优化的试验次数。默认为10。
- time_limit (int) — 训练时间限制(秒)。默认为600。
- categorical_imputer (Optional[str]) — 类别特征列的缺失值填充策略。
- numerical_imputer (Optional[str]) — 数值特征列的缺失值填充策略。
- numeric_scaler (Optional[str]) — 数值特征列的缩放策略。
TabularParams 是一个用于表格数据训练参数的配置类。