Transformers 文档

Data2Vec

Transformers

加入 Hugging Face 社区

并获取增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

Data2Vec

概述

Data2Vec 模型在 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 中被提出，作者是 Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu 和 Michael Auli。Data2Vec 提出了一个统一的框架，用于跨不同数据模态（文本、音频和图像）进行自监督学习。重要的是，预训练的预测目标是输入的上下文潜在表示，而不是特定模态、与上下文无关的目标。

该论文的摘要如下：

虽然自监督学习的总体思路在不同模态中是相同的，但实际的算法和目标差异很大，因为它们是在考虑单一模态的情况下开发的。为了使我们更接近通用的自监督学习，我们提出了 data2vec，这是一个框架，对语音、NLP 或计算机视觉都使用相同的学习方法。核心思想是使用标准的 Transformer 架构，在自蒸馏设置中，基于输入的掩码视图来预测完整输入数据的潜在表示。data2vec 不是预测特定模态的目标（如单词、视觉标记或人类语音单元等局部性质的目标），而是预测包含来自整个输入信息的上下文潜在表示。在语音识别、图像分类和自然语言理解的主要基准测试中进行的实验表明，与主要方法相比，data2vec 达到了新的技术水平或具有竞争力的性能。模型和代码可在 www.github.com/pytorch/fairseq/tree/master/examples/data2vec 获取。

此模型由 edugp 和 patrickvonplaten 贡献。sayakpaul 和 Rocketknight1 贡献了 TensorFlow 中的视觉 Data2Vec。

原始代码（用于 NLP 和语音）可以在这里找到。视觉的原始代码可以在这里找到。

使用技巧

Data2VecAudio、Data2VecText 和 Data2VecVision 都是使用相同的自监督学习方法训练的。
对于 Data2VecAudio，预处理与 Wav2Vec2Model 相同，包括特征提取
对于 Data2VecText，预处理与 RobertaModel 相同，包括分词。
对于 Data2VecVision，预处理与 BeitModel 相同，包括特征提取。

使用缩放点积注意力 (SDPA)

PyTorch 包括一个原生的缩放点积注意力 (SDPA) 运算符，作为 torch.nn.functional 的一部分。此函数包含多种实现方式，可以根据输入和正在使用的硬件应用。有关更多信息，请参阅官方文档或 GPU 推理页面。

当实现可用时，对于 torch>=2.1.1，默认使用 SDPA，但您也可以在 from_pretrained() 中设置 attn_implementation="sdpa" 以显式请求使用 SDPA。

SDPA 实现目前可用于 Data2VecAudio 和 Data2VecVision 模型。

from transformers import Data2VecVisionForImageClassification
model = Data2VecVisionForImageClassification.from_pretrained("facebook/data2vec-vision-base", attn_implementation="sdpa", torch_dtype=torch.float16)
...

为了获得最佳加速效果，我们建议以半精度加载模型（例如 torch.float16 或 torch.bfloat16）。

对于 Data2VecVision 模型，在本地基准测试（NVIDIA GeForce RTX 2060-8GB，PyTorch 2.5.1，OS Ubuntu 20.04）中使用 float16 和 facebook/data2vec-vision-base 模型，我们看到了以下训练和推理方面的改进

训练

num_training_steps	batch_size	image_size	is_cuda	每个批次的时间（eager - s）	每个批次的时间（sdpa - s）	加速 (%)	Eager 峰值内存 (MB)	SDPA 峰值内存 (MB)	内存节省 (%)
50	2	(1048, 640)	True	0.996	0.754	32.147	6722.198	4264.653	57.626

推理

图像批次大小	Eager (s/iter)	Eager CI, %	Eager 内存 (MB)	SDPA (s/iter)	SDPA CI, %	SDPA 内存 (MB)	SDPA 加速	SDPA 内存节省
1	0.011	±0.3%	3.76143e+08	0.01	±0.3%	3.74397e+08	1.101	0.466
4	0.014	±0.1%	4.02756e+08	0.012	±0.2%	3.91373e+08	1.219	2.909
16	0.046	±0.3%	4.96482e+08	0.035	±0.2%	4.51017e+08	1.314	10.081
32	0.088	±0.1%	6.23903e+08	0.067	±0.1%	5.32974e+08	1.33	17.061

资源

一个官方 Hugging Face 和社区（🌎 表示）资源列表，可帮助您开始使用 Data2Vec。

图像分类

Data2VecVisionForImageClassification 由此示例脚本和notebook支持。
要在自定义数据集上微调 TFData2VecVisionForImageClassification，请参阅此 notebook。

Data2VecText 文档资源

Data2VecAudio 文档资源

Data2VecVision 文档资源

如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将对其进行审核！该资源最好能展示一些新的东西，而不是重复现有的资源。

Transformers

Data2Vec

概述

使用技巧

使用缩放点积注意力 (SDPA)

训练

推理

资源

Data2VecTextConfig

class transformers.Data2VecTextConfig

Data2VecAudioConfig

class transformers.Data2VecAudioConfig

Data2VecVisionConfig

类 transformers.Data2VecVisionConfig

Data2VecAudioModel

class transformers.Data2VecAudioModel

forward

Data2VecAudioForAudioFrameClassification

class transformers.Data2VecAudioForAudioFrameClassification

forward

Data2VecAudioForCTC

class transformers.Data2VecAudioForCTC

forward

Data2VecAudioForSequenceClassification

class transformers.Data2VecAudioForSequenceClassification

forward

Data2VecAudioForXVector

class transformers.Data2VecAudioForXVector

forward

Data2VecTextModel

class transformers.Data2VecTextModel

forward

Data2VecTextForCausalLM

class transformers.Data2VecTextForCausalLM

forward

Data2VecTextForMaskedLM

class transformers.Data2VecTextForMaskedLM

forward

Data2VecTextForSequenceClassification

class transformers.Data2VecTextForSequenceClassification

forward

Data2VecTextForMultipleChoice

class transformers.Data2VecTextForMultipleChoice

forward

Data2VecTextForTokenClassification

class transformers.Data2VecTextForTokenClassification

forward

Data2VecTextForQuestionAnswering

class transformers.Data2VecTextForQuestionAnswering

forward

Data2VecVisionModel

class transformers.Data2VecVisionModel

forward

Data2VecVisionForImageClassification

class transformers.Data2VecVisionForImageClassification

forward

Data2VecVisionForSemanticSegmentation

class transformers.Data2VecVisionForSemanticSegmentation

forward

TFData2VecVisionModel

class transformers.TFData2VecVisionModel

call

TFData2VecVisionForImageClassification

class transformers.TFData2VecVisionForImageClassification

call

TFData2VecVisionForSemanticSegmentation

class transformers.TFData2VecVisionForSemanticSegmentation

call

`class` transformers.Data2VecTextForCausalLM

`class` transformers.Data2VecTextForMaskedLM