Hub 文档
受限数据集
并获得增强的文档体验
开始使用
受限数据集
为了更好地控制数据集的使用方式,Hub 允许数据集作者为其数据集启用**访问请求**。启用后,用户必须同意与数据集作者共享其联系信息(用户名和电子邮件地址)才能访问数据集文件。数据集作者可以通过附加字段配置此请求。启用访问请求的数据集称为**受限数据集**。访问请求始终授予给单个用户,而不是整个组织。受限数据集的常见用例是在广泛发布之前提供对早期研究数据集的访问权限。
作为数据集作者管理受限数据集
要启用访问请求,请转到数据集设置页面。默认情况下,数据集不受限制。点击右上角的**启用访问请求**。


默认情况下,当用户请求访问数据集时,访问权限会自动授予给该用户。这被称为**自动批准**。在此模式下,任何用户在与您共享其个人信息后,都可以访问您的数据集。


如果您想手动批准哪些用户可以访问您的数据集,则必须将其设置为**手动批准**。在这种情况下,您会看到更多选项
- “**添加访问权限**”允许您搜索用户并授予他们访问权限,即使他们没有请求。
- “**通知频率**”允许您配置何时收到新用户请求访问的通知。可以设置为每天一次或实时。默认情况下,电子邮件会发送到您的主要电子邮件地址。对于组织托管的数据集,电子邮件默认发送给组织的前 5 名管理员。在两种情况下(用户或组织),您都可以在“**通知电子邮件**”字段中设置不同的电子邮件地址。


审查访问请求
启用访问请求后,您可以完全控制谁可以访问您的数据集,无论审批模式是手动还是自动。您可以从 UI 或通过 API 审查和管理请求。
从 UI
您可以通过单击**查看访问请求**按钮,从数据集设置页面查看谁有权访问您的受限数据集。这将打开一个包含 3 个用户列表的模态框
- **待处理**:等待批准以访问您数据集的用户列表。除非您选择了**手动批准**,否则此列表为空。您可以**接受**或**拒绝**该请求。如果请求被拒绝,则用户无法访问您的数据集,也无法再次请求访问。
- **已接受**:有权访问您数据集的完整用户列表。您可以随时选择**拒绝**任何用户的访问权限,无论批准模式是手动还是自动。您还可以**取消**批准,这将把用户移动到*待处理*列表。
- **已拒绝**:您手动拒绝的用户列表。这些用户无法访问您的数据集。如果他们访问您的数据集存储库,他们将看到一条消息:“您访问此存储库的请求已被存储库作者拒绝”。


通过 API
您可以使用 API 自动化访问请求的批准。您必须传递一个对受限存储库具有 `write` 访问权限的 `token`。要生成令牌,请转到您的用户设置。
方法 | URI | 描述 | 标头 | 有效负载 |
---|---|---|---|---|
GET | /api/datasets/{repo_id}/user-access-request/pending | 检索待处理请求列表。 | {"authorization": "Bearer $token"} | |
GET | /api/datasets/{repo_id}/user-access-request/accepted | 检索已接受请求列表。 | {"authorization": "Bearer $token"} | |
GET | /api/datasets/{repo_id}/user-access-request/rejected | 检索已拒绝请求列表。 | {"authorization": "Bearer $token"} | |
POST | /api/datasets/{repo_id}/user-access-request/handle | 将给定访问请求的状态更改为 `status`。 | {"authorization": "Bearer $token"} | {"status": "accepted"/"rejected"/"pending", "user": "username", "rejectionReason": "可选的拒绝原因,对用户可见(最多 200 个字符)。"}} |
POST | /api/datasets/{repo_id}/user-access-request/grant | 允许特定用户访问您的存储库。 | {"authorization": "Bearer $token"} | {"user": "username"} |
上述 HTTP 端点的基本 URL 是 `https://huggingface.co`。
**新功能!**这些端点现在已正式支持我们的 Python 客户端 `huggingface_hub`。使用 `list_pending_access_requests`、`list_accepted_access_requests` 和 `list_rejected_access_requests` 列出您数据集的访问请求。您还可以使用 `accept_access_request`、`cancel_access_request`、`reject_access_request` 接受、取消和拒绝访问请求。最后,您可以使用 `grant_access` 授予用户访问权限。
下载访问报告
您可以使用**下载用户访问报告**按钮下载受限数据集的所有访问请求报告。单击它以下载包含用户列表的 JSON 文件。每个条目都有
- **用户**:用户 ID。示例:*julien-c*。
- **全名**:Hub 上用户的姓名。示例:*Julien Chaumond*。
- **状态**:请求状态。可以是 `“pending”`、`“accepted”` 或 `“rejected”`。
- **电子邮件**:用户的电子邮件。
- **时间**:用户最初提出请求的日期时间。
自定义请求信息
默认情况下,访问您受限数据集的用户将被要求通过点击**同意并发送访问存储库请求**按钮来分享他们的联系信息(电子邮件和用户名)。


如果您想请求更多用户信息以提供访问权限,您可以配置其他字段。此信息将从**设置**选项卡中访问。为此,请在您的数据集卡片元数据中添加一个 `extra_gated_fields` 属性,其中包含键/值对列表。*键*是字段的名称,*值*是其类型或包含 `type` 字段的对象。字段类型列表是
- `text`:单行文本字段。
- `checkbox`:复选框字段。
- `date_picker`:日期选择器字段。
- `country`:国家下拉列表。国家列表基于 ISO 3166-1 alpha-2 标准。
- `select`:带有选项列表的下拉菜单。选项列表在 `options` 字段中定义。示例:`options: ["option 1", "option 2", {label: "option3", value: "opt3"}]`。
最后,您还可以使用 `extra_gated_prompt` 额外字段个性化显示给用户的消息。
这是一个自定义请求表单的示例,其中要求用户提供其公司名称和国家/地区,并确认该数据集仅用于非商业用途。
---
extra_gated_prompt: "You agree to not use the dataset to conduct experiments that cause harm to human subjects."
extra_gated_fields:
Company: text
Country: country
Specific date: date_picker
I want to use this dataset for:
type: select
options:
- Research
- Education
- label: Other
value: other
I agree to use this dataset for non-commercial use ONLY: checkbox
---
在某些情况下,您可能还希望修改网关标题、描述和按钮中的默认文本。对于这些用例,您可以像这样修改 `extra_gated_heading`、`extra_gated_description` 和 `extra_gated_button_content`
---
extra_gated_heading: "Acknowledge license to accept the repository"
extra_gated_description: "Our team may take 2-3 days to process your request"
extra_gated_button_content: "Acknowledge license"
---
作为组织(企业中心)管理受限数据集
企业中心订阅者可以创建网关组集合,以一次性授予(或拒绝)对集合中所有模型和数据集的访问权限。
有关网关组集合的更多信息,请参阅我们的专用文档。
作为用户访问受限数据集
作为用户,如果您想使用受限数据集,则需要请求访问权限。这意味着您必须登录 Hugging Face 用户帐户。
只能通过浏览器请求访问。转到 Hub 上的数据集,系统将提示您共享您的信息


单击**同意**,即表示您同意与数据集作者共享您的用户名和电子邮件地址。在某些情况下,可能会要求提供其他字段。为了帮助数据集作者决定是否授予您访问权限,请尽量完整填写表格。
一旦访问请求发出,有两种可能性。如果审批机制是自动的,您将立即获得数据集文件的访问权限。否则,请求必须由作者手动批准,这可能需要更多时间。
数据集作者对数据集访问拥有完全控制权。特别是,他们可以随时决定阻止您访问数据集,恕不另行通知,无论审批机制如何或您的请求是否已获批准。
下载文件
要从受限数据集下载文件,您需要进行身份验证。在浏览器中,只要您登录了您的帐户,这都是自动的。如果您正在使用脚本,您需要提供一个用户令牌。在 Hugging Face Python 生态系统(`transformers`、`diffusers`、`datasets` 等)中,您可以使用`huggingface_hub` 库登录您的机器,并在终端中运行
hf auth login
或者,您可以使用笔记本或脚本中的 `login()` 进行编程登录
>>> from huggingface_hub import login
>>> login()
您还可以直接在脚本中为库中的大多数加载方法(`from_pretrained`、`hf_hub_download`、`load_dataset` 等)提供 `token` 参数。
有关如何登录的更多详细信息,请查看登录指南。
< > 在 GitHub 上更新