Hub 文档

🟧 Label Studio 在 Spaces 上

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

🟧 Spaces 上的 Label Studio

Label Studio 是一个用于标记、注释和探索多种不同数据类型的开源数据标注平台。此外,Label Studio 还包含一个强大的机器学习界面,可用于新模型训练、主动学习、监督学习以及许多其他训练技术。

本指南将教您如何在 Hugging Face Hub 中部署 Label Studio 以进行数据标记和注释。您可以使用 Label Studio 的默认配置作为完全托管在 Hub 上的自包含应用程序(使用 Docker 进行演示和评估),也可以连接您自己的数据库和云存储以托管托管在 Spaces 上的功能齐全的生产就绪应用程序。

⚡️ 在 Spaces 上部署 Label Studio

您只需点击几下即可在 Spaces 上部署 Label Studio

Spaces 需要您定义

  • **所有者**: 您的个人帐户或您所属的组织。

  • **Space 名称**: 您创建 Space 所在帐户中的 Space 名称。

  • **可见性**: 如果您希望 Space 仅对您或您的组织可见,则为私有;如果希望其他用户或使用 Label Studio API 的应用程序可见,则为公开(建议)。

🚀 使用默认配置

默认情况下,Label Studio 在 Spaces 中安装时使用本地存储作为应用程序数据库,以存储配置、帐户凭据和项目信息。标记任务和数据项也保存在本地存储中。

Hugging Face Spaces 中的存储是短暂的,您在默认配置中存储的数据可能会在 Space 重启或重置时丢失。因此,我们强烈建议您仅将默认配置用于测试和演示目的。

启动 Label Studio 后,将显示标准登录屏幕。您可以使用您的电子邮件地址创建一个新帐户,并使用您的新凭据登录。登录后,Label Studio 会定期警告您存储是短暂的,如果您的 Space 重新启动,数据可能会丢失。您还将收到来自 Heidi(乐于助人的 Label Studio 吉祥物)的提示,以创建一个新项目来开始标记您的数据。要开始使用,请查看 Label Studio 的“从零到一”教程,其中包含有关如何构建用于情感分析的注释界面的指南。

🛠️ 配置 Label Studio 的生产就绪实例

要使您的 Space 达到生产就绪状态,您需要进行三个配置更改

  • 禁用不受限制的新帐户创建。

  • 通过连接外部数据库启用持久化。

  • 为标记任务连接云存储。

禁用无限制创建新账户

Label Studio 的默认配置允许任何拥有应用程序 URL 的用户无限制地创建新账户。您可以通过将以下配置密钥添加到您的 Space **设置** 中来限制注册

  • LABEL_STUDIO_DISABLE_SIGNUP_WITHOUT_LINK:将此值设置为 true 将禁用无限制账户创建。

  • LABEL_STUDIO_USERNAME:这是您将在 Label Studio Space 中用作第一个用户的账户用户名。它应为有效的电子邮件地址。

  • LABEL_STUDIO_PASSWORD:与第一个用户账户关联的密码。

重新启动 Space 以应用这些设置。从登录屏幕创建新账户的功能将被禁用。要创建新账户,您需要在 Label Studio 应用程序的 组织 设置中邀请新用户。

启用配置持久化

默认情况下,此 Space 将所有项目配置和数据注释存储在使用 SQLite 的本地存储中。如果 Space 重置,Space 中的所有配置和注释数据都将丢失。您可以通过将外部 Postgres 数据库连接到您的 Space来启用配置持久化,从而确保所有项目和注释设置都得到保留。

设置以下秘密变量以匹配您自己的 Postgres 托管实例。我们强烈建议将这些变量设置为秘密,以防止在您的 Space 定义中将有关数据库服务的信息泄露给公众。

  • DJANGO_DB:将其设置为 default

  • POSTGRE_NAME:将其设置为 Postgres 数据库的名称。

  • POSTGRE_USER:将其设置为 Postgres 用户名。

  • POSTGRE_PASSWORD:将其设置为 Postgres 用户的密码。

  • POSTGRE_HOST:将其设置为运行 Postgres 数据库的主机。

  • POSTGRE_PORT:将其设置为运行 Pogtgres 数据库的端口。

  • STORAGE_PERSISTENCE:将其设置为 1 以删除有关短暂存储的警告。

重新启动 Space 以应用这些设置。有关用户、项目和注释的信息将存储在数据库中,如果 Space 重新启动或重置,Label Studio 将重新加载这些信息。

启用云存储

默认情况下,此 Space 启用的唯一数据存储是本地存储。如果 Space 重置,所有数据都将丢失。要启用永久存储,您必须启用云存储连接器。选择合适的云连接器并配置其密钥。

Amazon S3

  • STORAGE_TYPE:将其设置为 s3

  • STORAGE_AWS_ACCESS_KEY_ID<YOUR_ACCESS_KEY_ID>

  • STORAGE_AWS_SECRET_ACCESS_KEY<YOUR_SECRET_ACCESS_KEY>

  • STORAGE_AWS_BUCKET_NAME<YOUR_BUCKET_NAME>

  • STORAGE_AWS_REGION_NAME<YOUR_BUCKET_REGION>

  • STORAGE_AWS_FOLDER:将其设置为空字符串。

Google Cloud Storage

  • STORAGE_TYPE:将其设置为 gcs

  • STORAGE_GCS_BUCKET_NAME<YOUR_BUCKET_NAME>

  • STORAGE_GCS_PROJECT_ID<YOUR_PROJECT_ID>

  • STORAGE_GCS_FOLDER:将其设置为空字符串。

  • GOOGLE_APPLICATION_CREDENTIALS:将其设置为 /opt/heartex/secrets/key.json

Azure Blob Storage

  • STORAGE_TYPE:将其设置为 azure

  • STORAGE_AZURE_ACCOUNT_NAME<YOUR_STORAGE_ACCOUNT>

  • STORAGE_AZURE_ACCOUNT_KEY<YOUR_STORAGE_KEY>

  • STORAGE_AZURE_CONTAINER_NAME<YOUR_CONTAINER_NAME>

  • STORAGE_AZURE_FOLDER:将其设置为空字符串。

🤗 下一步、反馈和支持

要开始使用 Label Studio,请查看 Label Studio 的“从零到一”教程,该教程将引导您完成一个示例情感分析标注项目。您可以在Label Studio 主页上找到有关 Label Studio 和 Label Studio 社区的完整资源集。这包括完整文档、用于尝试不同标注界面的交互式游乐场,以及加入Label Studio Slack 社区的链接。

< > 更新 on GitHub