Transformers 文档

RoBERTa

Transformers

加入 Hugging Face 社区

并获取增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

RoBERTa

## 概述

RoBERTa 模型在 RoBERTa: 一种稳健优化的 BERT 预训练方法中提出，作者为 Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。它基于 Google 于 2018 年发布的 BERT 模型。

它建立在 BERT 的基础上，并修改了关键的超参数，移除了下一句子的预训练目标，并使用更大的 mini-batches 和学习率进行训练。

论文的摘要如下：

语言模型预训练带来了显著的性能提升，但不同方法之间的仔细比较具有挑战性。训练在计算上非常昂贵，通常在不同大小的私有数据集上完成，并且正如我们将展示的那样，超参数的选择对最终结果有显著影响。我们提出了 BERT 预训练（Devlin et al., 2019）的复制研究，该研究仔细衡量了许多关键超参数和训练数据大小的影响。我们发现 BERT 明显训练不足，并且可以匹配或超过之后发布的每个模型的性能。我们最好的模型在 GLUE、RACE 和 SQuAD 上实现了最先进的结果。这些结果突出了先前被忽视的设计选择的重要性，并对最近报告的改进来源提出了疑问。我们发布了我们的模型和代码。

此模型由 julien-c 贡献。原始代码可以在这里找到。

使用技巧

此实现与 BertModel 相同，只是对嵌入进行了细微调整，并为 RoBERTa 预训练模型进行了设置。
RoBERTa 具有与 BERT 相同的架构，但使用字节级 BPE 作为分词器（与 GPT-2 相同），并使用不同的预训练方案。
RoBERTa 没有 token_type_ids，因此您无需指示哪个 token 属于哪个段。只需使用分隔符 token tokenizer.sep_token (或 </s>) 分隔您的段即可。
RoBERTa 类似于 BERT，但具有更好的预训练技术
- 动态掩码：token 在每个 epoch 中以不同的方式被掩盖，而 BERT 只执行一次。
- 句子打包：句子被打包在一起以达到 512 个 token（因此句子的顺序可能跨越多个文档）。
- 更大的批次：训练使用更大的批次。
- 字节级 BPE 词汇表：使用 BPE，以字节为子单元而不是字符，以适应 Unicode 字符。
CamemBERT 是 RoBERTa 的包装器。有关使用示例，请参阅其模型页面。

资源

Hugging Face 官方和社区（🌎 表示）资源列表，可帮助您开始使用 RoBERTa。如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将对其进行审核！该资源最好能展示一些新的东西，而不是重复现有的资源。

文本分类

一篇关于使用 RoBERTa 和 Inference API 在 Twitter 上开始进行情感分析的博客。
一篇关于使用 RoBERTa 的 Kili 和 Hugging Face AutoTrain 进行观点分类的博客。
一本关于如何微调 RoBERTa 以进行情感分析的笔记本。 🌎
此示例脚本和笔记本支持 RobertaForSequenceClassification。
此示例脚本和笔记本支持 TFRobertaForSequenceClassification。
此示例脚本和笔记本支持 FlaxRobertaForSequenceClassification。
文本分类任务指南

Token 分类

此示例脚本和笔记本支持 RobertaForTokenClassification。
此示例脚本和笔记本支持 TFRobertaForTokenClassification。
此示例脚本支持 FlaxRobertaForTokenClassification。
Token 分类章节，来自 🤗 Hugging Face 课程。
Token 分类任务指南

Fill-Mask

一篇关于如何使用 Transformers 和 Tokenizers 以及 RoBERTa 从头开始训练新的语言模型的博客。
此示例脚本和笔记本支持 RobertaForMaskedLM。
此示例脚本和笔记本支持 TFRobertaForMaskedLM。
此示例脚本和笔记本支持 FlaxRobertaForMaskedLM。
🤗 Hugging Face 课程的掩码语言建模章节。
掩码语言建模任务指南

问答

一篇关于使用 Optimum 和 Transformers Pipelines 以及 RoBERTa 加速推理以进行问答的博客。
此示例脚本和笔记本支持 RobertaForQuestionAnswering。
此示例脚本和笔记本支持 TFRobertaForQuestionAnswering。
此示例脚本支持 FlaxRobertaForQuestionAnswering。
🤗 Hugging Face 课程的问答章节。
问答任务指南

多项选择

Transformers

RoBERTa

使用技巧

资源

RobertaConfig

class transformers.RobertaConfig

RobertaTokenizer

class transformers.RobertaTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

RobertaTokenizerFast

class transformers.RobertaTokenizerFast

build_inputs_with_special_tokens

RobertaModel

class transformers.RobertaModel

forward (前向传播)

RobertaForCausalLM

class transformers.RobertaForCausalLM

forward (前向传播)

RobertaForMaskedLM

class transformers.RobertaForMaskedLM

forward (前向传播)

RobertaForSequenceClassification

class transformers.RobertaForSequenceClassification

forward (前向传播)

RobertaForMultipleChoice

class transformers.RobertaForMultipleChoice

forward (前向传播)

RobertaForTokenClassification

class transformers.RobertaForTokenClassification

forward (前向传播)

RobertaForQuestionAnswering

class transformers.RobertaForQuestionAnswering

forward (前向传播)

TFRobertaModel

class transformers.TFRobertaModel

call

TFRobertaForCausalLM

class transformers.TFRobertaForCausalLM

call

TFRobertaForMaskedLM

class transformers.TFRobertaForMaskedLM

call

TFRobertaForSequenceClassification

class transformers.TFRobertaForSequenceClassification

call

TFRobertaForMultipleChoice

class transformers.TFRobertaForMultipleChoice

call

TFRobertaForTokenClassification

class transformers.TFRobertaForTokenClassification

call

TFRobertaForQuestionAnswering

class transformers.TFRobertaForQuestionAnswering

call

FlaxRobertaModel

class transformers.FlaxRobertaModel

__call__

FlaxRobertaForCausalLM

class transformers.FlaxRobertaForCausalLM

__call__

FlaxRobertaForMaskedLM

class transformers.FlaxRobertaForMaskedLM

__call__

FlaxRobertaForSequenceClassification

class transformers.FlaxRobertaForSequenceClassification

__call__

FlaxRobertaForMultipleChoice

class transformers.FlaxRobertaForMultipleChoice

__call__

FlaxRobertaForTokenClassification

class transformers.FlaxRobertaForTokenClassification

__call__

FlaxRobertaForQuestionAnswering

class transformers.FlaxRobertaForQuestionAnswering

__call__

call

call

call

call

call

call

call