LLM 课程文档

偏差与局限性

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

偏差与局限性

Ask a Question Open In Colab Open In Studio Lab

如果您打算在生产环境中使用预训练模型或微调版本,请注意,虽然这些模型是强大的工具,但它们也存在局限性。其中最大的局限性是,为了能够对大量数据进行预训练,研究人员通常会抓取他们可以找到的所有内容,既包括互联网上最好的内容,也包括最糟糕的内容。

为了快速说明,让我们回到使用 BERT 模型的 fill-mask pipeline 的示例

from transformers import pipeline

unmasker = pipeline("fill-mask", model="bert-base-uncased")
result = unmasker("This man works as a [MASK].")
print([r["token_str"] for r in result])

result = unmasker("This woman works as a [MASK].")
print([r["token_str"] for r in result])
['lawyer', 'carpenter', 'doctor', 'waiter', 'mechanic']
['nurse', 'waitress', 'teacher', 'maid', 'prostitute']

当被要求填写以下两个句子中的缺失词时,该模型只给出一个不区分性别的答案(waiter/waitress)。其他的都是通常与特定性别相关联的工作——是的,妓女最终出现在模型将 “woman” 和 “work” 联系起来的前 5 个可能性中。即使 BERT 是少数几个不是通过抓取互联网上的所有数据构建的 Transformer 模型之一,而是使用表面上中立的数据(它是在英文维基百科和 BookCorpus 数据集上训练的),这种情况仍然会发生。

因此,当您使用这些工具时,您需要牢记,您正在使用的原始模型很可能生成性别歧视、种族歧视或恐同内容。在您自己的数据上微调模型不会消除这种内在的偏见。

< > 在 GitHub 上更新