AutoTrain 文档

常见问题

您正在查看 主分支 版本,需要从源代码安装。如果您想要使用常规的 pip 安装,请查看最新的稳定版本(v0.8.24)。
Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

常见问题

我的数据和模型安全吗?

是的,您的数据和模型是安全的。AutoTrain 使用 Hugging Face Hub 来存储您的数据和模型。所有数据和模型都作为私有存储库上传到您的 Hugging Face 帐户,并且只有您可以访问。在此处了解更多关于安全性的信息

您是否将我的数据上传到 Hugging Face Hub?

如果您使用本地后端或在同一空间中进行训练,AutoTrain 不会将您的数据集上传到 Hub。如果您使用以下功能,AutoTrain 将会将您的数据集推送到 Hub:DGX Cloud 或使用本地 CLI 在 Hugging Face 的基础设施上进行训练。

训练完成后,您可以安全地从 Hub 中删除数据集。如果上传了,数据集将作为私有存储库存储在您的 Hugging Face 帐户中,并且只有您和训练过程可以访问。训练完成后,它将不再使用。

我的训练空间在训练中途无故暂停

AutoTrain 训练空间在训练完成(或失败)后会自动暂停。这样做是为了节省资源和成本。如果您的训练失败,您仍然可以查看空间日志并找出问题所在。请注意:如果您重新启动空间,将无法检索日志。

空间暂停的另一个原因可能是空间的睡眠时间到了。如果您有一个长时间运行的训练作业,则必须将睡眠时间设置为更高的值。无论如何,训练完成后,空间会自动暂停,从而节省您的成本。

我收到错误“您安装的 nvidia-ml-py 软件包已损坏。跳过补丁函数”

此错误可以安全地忽略。它是来自 nvitop 库的警告,不会影响 AutoTrain 的功能。

我在使用 UI 时收到 409 冲突错误

当您尝试创建与现有项目同名的项目时,会出现此错误。要解决此错误,您可以删除现有项目或使用不同的名称创建新项目。

当您尝试训练模型时,如果同一空间或本地已存在正在训练的模型,也可能出现此错误。

我想要使用的模型在模型选择下拉列表中没有显示。

如果要使用的模型在模型选择下拉列表中不可用,可以在空间设置中的环境变量AUTOTRAIN_CUSTOM_MODELS中添加它。例如,如果要添加xxx/yyy模型,请转到空间设置,创建一个名为AUTOTRAIN_CUSTOM_MODELS的变量,并将值设置为xxx/yyy

您也可以将模型名称作为查询参数传递到URL中。例如,如果要使用xxx/yyy模型,可以使用URL https://huggingface.co/spaces/your_autotrain_space?custom_models=xxx/yyy

如何在本地使用AutoTrain?

通过安装AutoTrain Advanced pypi包,可以在本地使用AutoTrain。您可以在“在本地使用AutoTrain”部分中了解更多信息。

我可以在Colab上运行AutoTrain吗?

要在Colab上启动UI,只需点击以下链接即可

Open In Colab

请注意,要在Colab上运行应用程序,您需要一个ngrok令牌。您可以在ngrok上免费注册获取一个。这是因为Colab不允许直接将端口暴露到互联网。

要在Colab上改用CLI,您可以按照在本地使用AutoTrain的相同说明操作。

AutoTrain是否有Docker镜像?

是的,AutoTrain有一个Docker镜像。您可以在Docker Hub上找到该镜像,点击此处

是否支持Windows?

很遗憾,AutoTrain目前尚不支持Windows。您可以尝试使用WSL(Windows Subsystem for Linux)在Windows上运行AutoTrain或使用Docker镜像。

“—project-name” 参数不能设置为目录

--project-name 参数不应是路径。它将在运行 autotrain 命令的位置创建。此参数必须是字母数字,并且可以包含连字符。

我遇到了 config.json 未找到错误

这意味着您训练了一个适配器模型(peft=true),它不会生成 config.json。但这没关系,模型仍然可以使用 AutoModelForCausalLM 或推理端点加载。如果要将权重与基础模型合并,可以使用autotrain tools。请在其他信息部分阅读相关内容。

Autotrain是否支持多GPU训练?

是的,autotrain 支持多 GPU 训练。AutoTrain 将自行确定用户是否在多 GPU 设置上运行命令,如果 GPU 数量大于 1 且小于 4,则将使用多 GPU ddp,如果 GPU 数量大于或等于 4,则将使用 deepspeed。

如何使用具有多个配置的 Hub 数据集?

如果您的 Hub 数据集有多个配置,可以使用train_split参数同时指定配置和拆分。例如,在此数据集此处,有多个配置:pairpair-classpair-scoretriplet

如果我想使用pair-class配置的train拆分,可以在UI或CLI/配置中将pair-class:train作为train_split

下面显示了一个示例配置

data:
  path: sentence-transformers/all-nli
  train_split: pair-class:train
  valid_split: pair-class:test
  column_mapping:
    sentence1_column: premise
    sentence2_column: hypothesis
    target_column: label
< > 在 GitHub 上更新