Hub 文档

🟧 Label Studio 在 Spaces 上

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

🟧 Label Studio 在 Spaces 上

Label Studio 是一个 开源数据标注平台,用于标注、注释和探索多种不同的数据类型。此外,Label Studio 还包括一个强大的 机器学习界面,可用于新的模型训练、主动学习、监督学习和许多其他训练技术。

本指南将教您如何在 Hugging Face Hub 中部署 Label Studio 以进行数据标注和注释。您可以将 Label Studio 的默认配置用作完全托管在 Hub 上的独立应用程序(使用 Docker 进行演示和评估),或者您可以连接自己的数据库和云存储来托管完全功能的、可用于生产环境的应用程序(托管在 Spaces 上)。

⚡️ 在 Spaces 上部署 Label Studio

您只需点击几下即可在 Spaces 上部署 Label Studio

Spaces 要求您定义

  • 一个 所有者:您的个人帐户或您所属的组织。

  • 一个 Space 名称:您正在创建 Space 的帐户内的 Space 名称。

  • 可见性私有(如果您希望 Space 仅对您或您的组织可见)或公开(如果您希望其他用户或使用 Label Studio API 的应用程序可见,建议使用此选项)。

🚀 使用默认配置

默认情况下,Label Studio 在 Spaces 中安装时会使用本地存储作为应用程序数据库,以存储配置、帐户凭据和项目信息。标注任务和数据项也保存在本地存储中。

Hugging Face Spaces 中的存储是临时的,您在默认配置中存储的数据可能会在 Space 重启或重置时丢失。因此,我们强烈建议您仅将默认配置用于测试和演示目的。

启动 Label Studio 后,您将看到标准登录屏幕。您可以首先使用您的电子邮件地址创建一个新帐户,并使用您的新凭据登录。定期登录后,Label Studio 会警告您存储是临时的,如果您的 Space 重新启动,数据可能会丢失。您还会看到来自 Heidi(友好的 Label Studio 吉祥物)的提示,创建一个新项目以开始标注您的数据。要开始使用,请查看 Label Studio “从零到一”教程,其中包含关于如何为情感分析构建标注界面的指南。

🛠️ 配置生产就绪的 Label Studio 实例

要使您的 Space 达到生产就绪状态,您需要进行三项配置更改

  • 禁用不受限制的新帐户创建。

  • 通过附加外部数据库来启用持久性。

  • 附加云存储以进行标注任务。

禁用不受限制的新帐户创建

Label Studio 的默认配置允许任何人只要拥有您的应用程序 URL 就可以不受限制地创建新帐户。您可以通过将以下配置密钥添加到您的 Space 设置限制注册

  • LABEL_STUDIO_DISABLE_SIGNUP_WITHOUT_LINK:将此值设置为 true 将禁用不受限制的帐户创建。

  • LABEL_STUDIO_USERNAME:这是您将用作 Label Studio Space 中第一个用户的帐户用户名。它应该是一个有效的电子邮件地址。

  • LABEL_STUDIO_PASSWORD:将与第一个用户帐户关联的密码。

重启 Space 以应用这些设置。将禁用从登录屏幕创建新帐户的功能。要创建新帐户,您需要在 Label Studio 应用程序的 Organization 设置中邀请新用户。

启用配置持久性

默认情况下,此 Space 使用 SQLite 将所有项目配置和数据注释存储在本地存储中。如果 Space 被重置,Space 中的所有配置和注释数据将丢失。您可以通过将外部 Postgres 数据库连接到您的 space 来启用配置持久性,从而保证所有项目和注释设置都被保留。

设置以下密钥变量以匹配您自己托管的 Postgres 实例。我们强烈建议将这些设置为密钥,以防止在您的 space 定义中向公众泄露有关您的数据库服务的信息。

  • DJANGO_DB:将其设置为 default

  • POSTGRE_NAME:将其设置为 Postgres 数据库的名称。

  • POSTGRE_USER:将其设置为 Postgres 用户名。

  • POSTGRE_PASSWORD:将其设置为您的 Postgres 用户的密码。

  • POSTGRE_HOST:将其设置为您的 Postgres 数据库正在运行的主机。

  • POSTGRE_PORT:将其设置为您的 Postgres 数据库正在运行的端口。

  • STORAGE_PERSISTENCE:将其设置为 1 以移除有关临时存储的警告。

重启 Space 以应用这些设置。有关用户、项目和注释的信息将存储在数据库中,并在 space 重新启动或重置时由 Label Studio 重新加载。

启用云存储

默认情况下,此 Space 唯一启用的数据存储是本地存储。如果 Space 重置,所有数据都将丢失。要启用永久存储,您必须启用云存储连接器。选择合适的云连接器并为其配置密钥。

Amazon S3

  • STORAGE_TYPE: 将此项设置为 s3

  • STORAGE_AWS_ACCESS_KEY_ID: <YOUR_ACCESS_KEY_ID>

  • STORAGE_AWS_SECRET_ACCESS_KEY: <YOUR_SECRET_ACCESS_KEY>

  • STORAGE_AWS_BUCKET_NAME: <YOUR_BUCKET_NAME>

  • STORAGE_AWS_REGION_NAME: <YOUR_BUCKET_REGION>

  • STORAGE_AWS_FOLDER: 将此项设置为空字符串。

Google Cloud Storage

  • STORAGE_TYPE: 将此项设置为 gcs

  • STORAGE_GCS_BUCKET_NAME: <YOUR_BUCKET_NAME>

  • STORAGE_GCS_PROJECT_ID: <YOUR_PROJECT_ID>

  • STORAGE_GCS_FOLDER: 将此项设置为空字符串。

  • GOOGLE_APPLICATION_CREDENTIALS: 将此项设置为 /opt/heartex/secrets/key.json

Azure Blob Storage

  • STORAGE_TYPE: 将此项设置为 azure

  • STORAGE_AZURE_ACCOUNT_NAME: <YOUR_STORAGE_ACCOUNT>

  • STORAGE_AZURE_ACCOUNT_KEY: <YOUR_STORAGE_KEY>

  • STORAGE_AZURE_CONTAINER_NAME: <YOUR_CONTAINER_NAME>

  • STORAGE_AZURE_FOLDER: 将此项设置为空字符串。

🤗 接下来步骤、反馈和支持

要开始使用 Label Studio,请查看 Label Studio “从零到一”教程,其中引导您完成情感分析标注项目的示例。您可以在 Label Studio 主页上找到关于 Label Studio 和 Label Studio 社区的完整资源集。这包括完整文档、用于尝试不同标注界面的交互式 Playground,以及加入 Label Studio Slack 社区的链接。

< > 在 GitHub 上更新