🟧 Spaces 上的 Label Studio
Label Studio 是一个用于标记、注释和探索多种不同数据类型的开源数据标注平台。此外,Label Studio 还包含一个强大的机器学习界面,可用于新模型训练、主动学习、监督学习以及许多其他训练技术。
本指南将教您如何在 Hugging Face Hub 中部署 Label Studio 以进行数据标记和注释。您可以使用 Label Studio 的默认配置作为完全托管在 Hub 上的自包含应用程序(使用 Docker 进行演示和评估),也可以连接您自己的数据库和云存储以托管托管在 Spaces 上的功能齐全的生产就绪应用程序。
⚡️ 在 Spaces 上部署 Label Studio
您只需点击几下即可在 Spaces 上部署 Label Studio
Spaces 需要您定义
**所有者**: 您的个人帐户或您所属的组织。
**Space 名称**: 您创建 Space 所在帐户中的 Space 名称。
**可见性**: 如果您希望 Space 仅对您或您的组织可见,则为私有;如果希望其他用户或使用 Label Studio API 的应用程序可见,则为公开(建议)。
🚀 使用默认配置
默认情况下,Label Studio 在 Spaces 中安装时使用本地存储作为应用程序数据库,以存储配置、帐户凭据和项目信息。标记任务和数据项也保存在本地存储中。
启动 Label Studio 后,将显示标准登录屏幕。您可以使用您的电子邮件地址创建一个新帐户,并使用您的新凭据登录。登录后,Label Studio 会定期警告您存储是短暂的,如果您的 Space 重新启动,数据可能会丢失。您还将收到来自 Heidi(乐于助人的 Label Studio 吉祥物)的提示,以创建一个新项目来开始标记您的数据。要开始使用,请查看 Label Studio 的“从零到一”教程,其中包含有关如何构建用于情感分析的注释界面的指南。
🛠️ 配置 Label Studio 的生产就绪实例
要使您的 Space 达到生产就绪状态,您需要进行三个配置更改
禁用不受限制的新帐户创建。
通过连接外部数据库启用持久化。
为标记任务连接云存储。
禁用无限制创建新账户
Label Studio 的默认配置允许任何拥有应用程序 URL 的用户无限制地创建新账户。您可以通过将以下配置密钥添加到您的 Space **设置** 中来限制注册。
LABEL_STUDIO_DISABLE_SIGNUP_WITHOUT_LINK
:将此值设置为true
将禁用无限制账户创建。LABEL_STUDIO_USERNAME
:这是您将在 Label Studio Space 中用作第一个用户的账户用户名。它应为有效的电子邮件地址。LABEL_STUDIO_PASSWORD
:与第一个用户账户关联的密码。
重新启动 Space 以应用这些设置。从登录屏幕创建新账户的功能将被禁用。要创建新账户,您需要在 Label Studio 应用程序的 组织
设置中邀请新用户。
启用配置持久化
默认情况下,此 Space 将所有项目配置和数据注释存储在使用 SQLite 的本地存储中。如果 Space 重置,Space 中的所有配置和注释数据都将丢失。您可以通过将外部 Postgres 数据库连接到您的 Space来启用配置持久化,从而确保所有项目和注释设置都得到保留。
设置以下秘密变量以匹配您自己的 Postgres 托管实例。我们强烈建议将这些变量设置为秘密,以防止在您的 Space 定义中将有关数据库服务的信息泄露给公众。
DJANGO_DB
:将其设置为default
。POSTGRE_NAME
:将其设置为 Postgres 数据库的名称。POSTGRE_USER
:将其设置为 Postgres 用户名。POSTGRE_PASSWORD
:将其设置为 Postgres 用户的密码。POSTGRE_HOST
:将其设置为运行 Postgres 数据库的主机。POSTGRE_PORT
:将其设置为运行 Pogtgres 数据库的端口。STORAGE_PERSISTENCE
:将其设置为1
以删除有关短暂存储的警告。
重新启动 Space 以应用这些设置。有关用户、项目和注释的信息将存储在数据库中,如果 Space 重新启动或重置,Label Studio 将重新加载这些信息。
启用云存储
默认情况下,此 Space 启用的唯一数据存储是本地存储。如果 Space 重置,所有数据都将丢失。要启用永久存储,您必须启用云存储连接器。选择合适的云连接器并配置其密钥。
Amazon S3
STORAGE_TYPE
:将其设置为s3
。STORAGE_AWS_ACCESS_KEY_ID
:<YOUR_ACCESS_KEY_ID>
STORAGE_AWS_SECRET_ACCESS_KEY
:<YOUR_SECRET_ACCESS_KEY>
STORAGE_AWS_BUCKET_NAME
:<YOUR_BUCKET_NAME>
STORAGE_AWS_REGION_NAME
:<YOUR_BUCKET_REGION>
STORAGE_AWS_FOLDER
:将其设置为空字符串。
Google Cloud Storage
STORAGE_TYPE
:将其设置为gcs
。STORAGE_GCS_BUCKET_NAME
:<YOUR_BUCKET_NAME>
STORAGE_GCS_PROJECT_ID
:<YOUR_PROJECT_ID>
STORAGE_GCS_FOLDER
:将其设置为空字符串。GOOGLE_APPLICATION_CREDENTIALS
:将其设置为/opt/heartex/secrets/key.json
。
Azure Blob Storage
STORAGE_TYPE
:将其设置为azure
。STORAGE_AZURE_ACCOUNT_NAME
:<YOUR_STORAGE_ACCOUNT>
STORAGE_AZURE_ACCOUNT_KEY
:<YOUR_STORAGE_KEY>
STORAGE_AZURE_CONTAINER_NAME
:<YOUR_CONTAINER_NAME>
STORAGE_AZURE_FOLDER
:将其设置为空字符串。
🤗 下一步、反馈和支持
要开始使用 Label Studio,请查看 Label Studio 的“从零到一”教程,该教程将引导您完成一个示例情感分析标注项目。您可以在Label Studio 主页上找到有关 Label Studio 和 Label Studio 社区的完整资源集。这包括完整文档、用于尝试不同标注界面的交互式游乐场,以及加入Label Studio Slack 社区的链接。
< > 更新 on GitHub