Transformers 文档

Data2Vec

Transformers

Data2Vec

概述

Data2Vec模型由Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu和Michael Auli在data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language中提出。 Data2Vec提出了一个统一的框架，用于跨不同数据模态（文本、音频和图像）的自监督学习。重要的是，预训练的预测目标是输入的上下文潜在表示，而不是特定于模态的、与上下文无关的目标。

论文的摘要如下：

尽管自监督学习的总体思想在各个模态中是相同的，但实际的算法和目标却大相径庭，因为它们是为单一模态开发的。为了让我们更接近通用的自监督学习，我们提出了data2vec，这是一个为语音、自然语言处理或计算机视觉使用相同学习方法的框架。核心思想是基于输入数据的掩码视图，在自蒸馏设置中使用标准的Transformer架构来预测完整输入数据的潜在表示。data2vec不是预测局部性质的目标，如单词、视觉标记或人类语音单位，而是预测包含整个输入信息的上下文潜在表示。在语音识别、图像分类和自然语言理解的主要基准测试中，实验展示了新的最先进或与主流方法竞争的性能。模型和代码可在www.github.com/pytorch/fairseq/tree/master/examples/data2vec获取。

该模型由edugp和patrickvonplaten贡献。 sayakpaul和Rocketknight1为TensorFlow中的视觉贡献了Data2Vec。

原始代码（用于NLP和语音）可以在这里找到。视觉的原始代码可以在这里找到。

使用提示

Data2VecAudio、Data2VecText 和 Data2VecVision 都使用了相同的自监督学习方法进行训练。
对于Data2VecAudio，预处理与Wav2Vec2Model相同，包括特征提取
对于Data2VecText，预处理与RobertaModel相同，包括分词。
对于Data2VecVision，预处理与BeitModel相同，包括特征提取。

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用Data2Vec。

Image Classification

Data2VecVisionForImageClassification 由这个示例脚本和笔记本支持。
要在自定义数据集上微调 TFData2VecVisionForImageClassification，请参阅此笔记本。

Data2VecText 文档资源

Data2VecAudio 文档资源

Data2VecVision 文档资源

如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Transformers

Data2Vec

概述

使用提示

资源

Data2VecTextConfig

类 transformers.Data2VecTextConfig

Data2VecAudioConfig

类 transformers.Data2VecAudioConfig

Data2VecVisionConfig

类 transformers.Data2VecVisionConfig

Data2VecAudioModel

类 transformers.Data2VecAudioModel

前进

Data2VecAudioForAudioFrameClassification

类 transformers.Data2VecAudioForAudioFrameClassification

前进

Data2VecAudioForCTC

类 transformers.Data2VecAudioForCTC

前进

Data2VecAudioForSequenceClassification

类 transformers.Data2VecAudioForSequenceClassification

前进

Data2VecAudioForXVector

类 transformers.Data2VecAudioForXVector

前进

Data2VecTextModel

类 transformers.Data2VecTextModel

前进

Data2VecTextForCausalLM

类 transformers.Data2VecTextForCausalLM

前进

Data2VecTextForMaskedLM

类 transformers.Data2VecTextForMaskedLM

前进

Data2VecTextForSequenceClassification

类 transformers.Data2VecTextForSequenceClassification

前进

Data2VecTextForMultipleChoice

类 transformers.Data2VecTextForMultipleChoice

前进

Data2VecTextForTokenClassification

类 transformers.Data2VecTextForTokenClassification

前进

Data2VecTextForQuestionAnswering

类 transformers.Data2VecTextForQuestionAnswering

前进

Data2VecVisionModel

类 transformers.Data2VecVisionModel

前进

Data2VecVisionForImageClassification

类 transformers.Data2VecVisionForImageClassification

前进

Data2VecVisionForSemanticSegmentation

类 transformers.Data2VecVisionForSemanticSegmentation

前进

TFData2VecVisionModel

类 transformers.TFData2VecVisionModel

调用

TFData2VecVisionForImageClassification

类 transformers.TFData2VecVisionForImageClassification

调用

TFData2VecVisionForSemanticSegmentation

类 transformers.TFData2VecVisionForSemanticSegmentation

调用