AutoTrain 文档
常见问题
并获得增强的文档体验
开始使用
常见问题解答
我的数据和模型安全吗?
是的,您的数据和模型是安全的。AutoTrain 使用 Hugging Face Hub 存储您的数据和模型。您所有的数据和模型都会作为私有存储库上传到您的 Hugging Face 帐户,并且只有您本人可以访问。请在此处阅读更多关于安全性的信息:这里。
你们会把我的数据上传到 Hugging Face Hub 吗?
如果您使用本地后端或在同一个 Space 中进行训练,AutoTrain 不会将您的数据集上传到 Hub。如果您正在使用 DGX Cloud 或使用本地 CLI 在 Hugging Face 的基础设施上进行训练等功能,AutoTrain 会将您的数据集推送到 Hub。
训练完成后,您可以安全地从 Hub 中删除数据集。如果上传,数据集将作为私有存储库存储在您的 Hugging Face 帐户中,只有您和训练过程可以访问。训练完成后,它将不再被使用。
我的训练 Space 在训练中途无故暂停
AutoTrain 训练 Space 在训练完成(或失败)后会自动暂停。这样做是为了节省资源和成本。如果您的训练失败,您仍然可以查看 Space 日志,找出问题所在。注意:如果您重新启动 Space,将无法检索到日志。
Space 暂停的另一个原因是 Space 的休眠时间触发。如果您的训练任务运行时间较长,必须将休眠时间设置为一个更高的值。无论如何,训练完成后 Space 都会自动暂停,从而为您节省成本。
我收到错误“Your installed package nvidia-ml-py is corrupted. Skip patch functions”
这个错误可以安全地忽略。它来自 `nvitop` 库的警告,不会影响 AutoTrain 的功能。
使用用户界面时我收到 409 冲突错误
当您尝试创建一个与现有项目同名的项目时,会发生此错误。要解决此错误,您可以删除现有项目或创建一个不同名称的新项目。
当您试图在同一个 Space 或本地环境中已有模型正在训练时,再次训练一个模型,也可能发生此错误。
我想使用的模型没有出现在模型选择下拉菜单中。
如果您想使用的模型在模型选择下拉菜单中不可用,您可以在 Space 设置的环境变量 `AUTOTRAIN_CUSTOM_MODELS` 中添加它。例如,如果您想添加 `xxx/yyy` 模型,请转到 Space 设置,创建一个名为 `AUTOTRAIN_CUSTOM_MODELS` 的变量,并将其值设置为 `xxx/yyy`。
您也可以将模型名称作为 URL 中的查询参数传递。例如,如果您想使用 `xxx/yyy` 模型,可以使用 URL `https://huggingface.co/spaces/your_autotrain_space?custom_models=xxx/yyy`。
我该如何本地使用 AutoTrain?
通过安装 AutoTrain Advanced pypi 包可以在本地使用 AutoTrain。您可以在 *本地使用 AutoTrain* 部分阅读更多信息。
我可以在 Colab 上运行 AutoTrain 吗?
要在 Colab 上启动 UI,您只需点击以下链接即可。
请注意,要在 Colab 上运行该应用,您需要一个 ngrok 令牌。您可以在 ngrok 免费注册获取。这是因为 Colab 不允许直接将端口暴露到互联网。
要在 Colab 上改用 CLI,您可以按照与本地使用 AutoTrain 相同的说明操作。
AutoTrain 有 Docker 镜像吗?
是的,AutoTrain 有 Docker 镜像。您可以在 Docker Hub 上找到 Docker 镜像:这里。
是否支持 Windows?
不幸的是,AutoTrain 目前不正式支持 Windows。您可以尝试使用 WSL(Windows Subsystem for Linux)在 Windows 上运行 AutoTrain,或使用 Docker 镜像。
“—project-name”参数不能设置为目录
--project-name
参数不应是路径,它将在运行 autotrain 命令的位置创建。此参数必须是字母数字,并且可以包含连字符。
我收到 config.json not found 错误
这意味着您训练了一个适配器模型(peft=true),它不会生成 config.json。但这并不重要,模型仍然可以通过 AutoModelForCausalLM 或 Inference Endpoints 加载。如果您想将权重与基础模型合并,您可以使用 `autotrain tools`。请在杂项部分阅读相关内容。
AutoTrain 是否支持多 GPU 训练?
是的,AutoTrain 支持多 GPU 训练。AutoTrain 会自行判断用户是否在多 GPU 设置上运行命令,如果 GPU 数量大于 1 且小于 4,则使用多 GPU ddp;如果 GPU 数量大于等于 4,则使用 deepspeed。
我该如何使用具有多个配置的 Hub 数据集?
如果您的 Hub 数据集有多个配置,您可以使用 `train_split` 参数来指定配置和拆分。例如,在这个数据集这里,有多个配置:`pair`、`pair-class`、`pair-score` 和 `triplet`。
如果我想使用 `pair-class` 配置的 `train` 拆分,我可以在 UI 或 CLI / 配置中将 `pair-class:train` 写作 `train_split`。
下面显示了一个示例配置
data:
path: sentence-transformers/all-nli
train_split: pair-class:train
valid_split: pair-class:test
column_mapping:
sentence1_column: premise
sentence2_column: hypothesis
target_column: label