常见问题
我的数据和模型安全吗?
是的,您的数据和模型是安全的。AutoTrain 使用 Hugging Face Hub 来存储您的数据和模型。所有数据和模型都作为私有存储库上传到您的 Hugging Face 帐户,并且只有您可以访问。在此处了解更多关于安全性的信息。
您是否将我的数据上传到 Hugging Face Hub?
如果您使用本地后端或在同一空间中进行训练,AutoTrain 不会将您的数据集上传到 Hub。如果您使用以下功能,AutoTrain 将会将您的数据集推送到 Hub:DGX Cloud 或使用本地 CLI 在 Hugging Face 的基础设施上进行训练。
训练完成后,您可以安全地从 Hub 中删除数据集。如果上传了,数据集将作为私有存储库存储在您的 Hugging Face 帐户中,并且只有您和训练过程可以访问。训练完成后,它将不再使用。
我的训练空间在训练中途无故暂停
AutoTrain 训练空间在训练完成(或失败)后会自动暂停。这样做是为了节省资源和成本。如果您的训练失败,您仍然可以查看空间日志并找出问题所在。请注意:如果您重新启动空间,将无法检索日志。
空间暂停的另一个原因可能是空间的睡眠时间到了。如果您有一个长时间运行的训练作业,则必须将睡眠时间设置为更高的值。无论如何,训练完成后,空间会自动暂停,从而节省您的成本。
我收到错误“您安装的 nvidia-ml-py 软件包已损坏。跳过补丁函数”
此错误可以安全地忽略。它是来自 nvitop
库的警告,不会影响 AutoTrain 的功能。
我在使用 UI 时收到 409 冲突错误
当您尝试创建与现有项目同名的项目时,会出现此错误。要解决此错误,您可以删除现有项目或使用不同的名称创建新项目。
当您尝试训练模型时,如果同一空间或本地已存在正在训练的模型,也可能出现此错误。
我想要使用的模型在模型选择下拉列表中没有显示。
如果要使用的模型在模型选择下拉列表中不可用,可以在空间设置中的环境变量AUTOTRAIN_CUSTOM_MODELS
中添加它。例如,如果要添加xxx/yyy
模型,请转到空间设置,创建一个名为AUTOTRAIN_CUSTOM_MODELS
的变量,并将值设置为xxx/yyy
。
您也可以将模型名称作为查询参数传递到URL中。例如,如果要使用xxx/yyy
模型,可以使用URL https://huggingface.co/spaces/your_autotrain_space?custom_models=xxx/yyy
。
如何在本地使用AutoTrain?
通过安装AutoTrain Advanced pypi包,可以在本地使用AutoTrain。您可以在“在本地使用AutoTrain”部分中了解更多信息。
我可以在Colab上运行AutoTrain吗?
要在Colab上启动UI,只需点击以下链接即可
请注意,要在Colab上运行应用程序,您需要一个ngrok令牌。您可以在ngrok上免费注册获取一个。这是因为Colab不允许直接将端口暴露到互联网。
要在Colab上改用CLI,您可以按照在本地使用AutoTrain的相同说明操作。
AutoTrain是否有Docker镜像?
是的,AutoTrain有一个Docker镜像。您可以在Docker Hub上找到该镜像,点击此处。
是否支持Windows?
很遗憾,AutoTrain目前尚不支持Windows。您可以尝试使用WSL(Windows Subsystem for Linux)在Windows上运行AutoTrain或使用Docker镜像。
“—project-name” 参数不能设置为目录
--project-name
参数不应是路径。它将在运行 autotrain 命令的位置创建。此参数必须是字母数字,并且可以包含连字符。
我遇到了 config.json 未找到错误
这意味着您训练了一个适配器模型(peft=true),它不会生成 config.json。但这没关系,模型仍然可以使用 AutoModelForCausalLM 或推理端点加载。如果要将权重与基础模型合并,可以使用autotrain tools
。请在其他信息部分阅读相关内容。
Autotrain是否支持多GPU训练?
是的,autotrain 支持多 GPU 训练。AutoTrain 将自行确定用户是否在多 GPU 设置上运行命令,如果 GPU 数量大于 1 且小于 4,则将使用多 GPU ddp,如果 GPU 数量大于或等于 4,则将使用 deepspeed。
如何使用具有多个配置的 Hub 数据集?
如果您的 Hub 数据集有多个配置,可以使用train_split
参数同时指定配置和拆分。例如,在此数据集此处,有多个配置:pair
、pair-class
、pair-score
和triplet
。
如果我想使用pair-class
配置的train
拆分,可以在UI或CLI/配置中将pair-class:train
作为train_split
。
下面显示了一个示例配置
data:
path: sentence-transformers/all-nli
train_split: pair-class:train
valid_split: pair-class:test
column_mapping:
sentence1_column: premise
sentence2_column: hypothesis
target_column: label