常见问题

我的数据和模型安全吗？

是的，您的数据和模型是安全的。AutoTrain 使用 Hugging Face Hub 存储您的数据和模型。您的所有数据和模型都作为私有仓库上传到您的 Hugging Face 帐户，并且只有您才能访问。阅读更多关于安全性的信息此处。

你们会将我的数据上传到 Hugging Face Hub 吗？

如果您使用本地后端或在同一 Space 中训练，AutoTrain 不会将您的数据集上传到 Hub。如果您使用 DGX Cloud 或使用本地 CLI 在 Hugging Face 的基础设施上进行训练等功能，AutoTrain 会将您的数据集推送到 Hub。

训练完成后，您可以安全地从 Hub 中删除数据集。如果上传，数据集将作为私有仓库存储在您的 Hugging Face 帐户中，并且只有您和训练过程可以访问。训练完成后，它将不再被使用。

我的训练 Space 在训练过程中无故暂停

AutoTrain 训练 Spaces 将在训练完成（或失败）后自动暂停。这样做是为了节省资源和成本。如果您的训练失败，您仍然可以查看 Space 日志并找出问题所在。注意：如果您重启 Space，您将无法检索日志。

Space 暂停的另一个原因是 Space 的睡眠时间到了。如果您有长时间运行的训练作业，您必须将睡眠时间设置为更高的值。无论如何，Space 会在训练完成后自行暂停，从而为您节省成本。

我收到错误提示：Your installed package nvidia-ml-py is corrupted. Skip patch functions

这个错误可以安全地忽略。这是来自 nvitop 库的警告，不会影响 AutoTrain 的功能。

我在使用 UI 时收到 409 冲突错误

当您尝试创建一个与现有项目同名的项目时，会发生此错误。要解决此错误，您可以删除现有项目，或创建一个具有不同名称的新项目。

当您尝试在同一 Space 或本地训练模型，而此时已经有一个模型正在训练时，也可能发生此错误。

我想要使用的模型没有在模型选择下拉列表中显示。

如果您想要使用的模型在模型选择下拉列表中不可用，您可以将其添加到 Space 设置中的环境变量 AUTOTRAIN_CUSTOM_MODELS 中。例如，如果您想添加 xxx/yyy 模型，请转到 Space 设置，创建一个名为 AUTOTRAIN_CUSTOM_MODELS 的变量，并将值设置为 xxx/yyy。

您还可以将模型名称作为 URL 中的查询参数传递。例如，如果您想使用 xxx/yyy 模型，您可以使用 URL https://huggingface.co/spaces/your_autotrain_space?custom_models=xxx/yyy。

我如何在本地使用 AutoTrain？

AutoTrain 可以通过安装 AutoTrain Advanced pypi 包在本地使用。您可以在本地使用 AutoTrain 部分阅读更多内容。

我可以在 Colab 上运行 AutoTrain 吗？

要在 Colab 上启动 UI，您只需点击以下链接

请注意，要在 Colab 上运行该应用程序，您需要一个 ngrok 令牌。您可以在 ngrok 上免费注册获取一个。这是因为 Colab 不允许直接将端口暴露给互联网。

要在 Colab 上使用 CLI，您可以按照与本地使用 AutoTrain 相同的说明进行操作。

AutoTrain 有 Docker 镜像吗？

是的，AutoTrain 有 Docker 镜像。您可以在 Docker Hub 上找到 Docker 镜像此处。

是否支持 Windows？

不幸的是，AutoTrain 目前尚未正式支持 Windows。您可以尝试使用 WSL（Windows Subsystem for Linux）在 Windows 上运行 AutoTrain 或使用 Docker 镜像。

“—project-name” 参数不能设置为目录

--project-name 参数不应为路径。它将在运行 autotrain 命令的位置创建。此参数必须是字母数字，并且可以包含连字符。

我收到 config.json 文件未找到的错误

这意味着您训练了一个适配器模型 (peft=true)，该模型不会生成 config.json 文件。但这没关系，该模型仍然可以使用 AutoModelForCausalLM 或 Inference endpoints 加载。如果您想将权重与基础模型合并，可以使用 autotrain tools。请在其他部分阅读相关内容。

Autotrain 是否支持多 GPU 训练？

是的，autotrain 支持多 GPU 训练。AutoTrain 将自行判断用户是否在多 GPU 设置上运行命令，如果 GPU 数量大于 1 且小于 4，则使用多 GPU ddp，如果 GPU 数量大于或等于 4，则使用 deepspeed。

如何使用具有多个配置的 Hub 数据集？

如果您的 Hub 数据集有多个配置，您可以使用 train_split 参数来指定配置和拆分。例如，在这个数据集此处中，有多个配置：pair、pair-class、pair-score 和 triplet。

如果我想使用 pair-class 配置的 train 拆分，我可以在 UI 或 CLI / 配置文件中使用 pair-class:train 作为 train_split。

下面显示了一个示例配置

data:
  path: sentence-transformers/all-nli
  train_split: pair-class:train
  valid_split: pair-class:test
  column_mapping:
    sentence1_column: premise
    sentence2_column: hypothesis
    target_column: label

< > 在 GitHub 上更新