Transformers 文档

BEiT

Transformers

BEiT

概述

BEiT模型由Hangbo Bao、Li Dong和Furu Wei在BEiT: BERT Pre-Training of Image Transformers中提出。受BERT启发，BEiT是第一篇使视觉变换器（ViTs）的自监督预训练优于监督预训练的论文。与预训练模型以预测图像的类别（如原始ViT论文中所做的那样）不同，BEiT模型被预训练以从OpenAI的DALL-E模型的代码本中预测视觉标记，给定被遮蔽的补丁。

论文的摘要如下：

我们介绍了一种自监督的视觉表示模型BEiT，它代表来自图像变换器的双向编码器表示。继自然语言处理领域开发的BERT之后，我们提出了一种掩码图像建模任务来预训练视觉变换器。具体来说，在我们的预训练中，每个图像有两个视图，即图像块（如16x16像素）和视觉标记（即离散标记）。我们首先将原始图像“标记化”为视觉标记。然后我们随机掩码一些图像块并将它们输入到骨干变换器中。预训练的目标是基于损坏的图像块恢复原始视觉标记。在预训练BEiT之后，我们通过在预训练编码器上附加任务层直接在下游任务上微调模型参数。图像分类和语义分割的实验结果表明，我们的模型与之前的预训练方法相比取得了竞争性的结果。例如，基础大小的BEiT在ImageNet-1K上达到了83.2%的top-1准确率，显著优于相同设置下的从头开始的DeiT训练（81.8%）。此外，仅使用ImageNet-1K的大尺寸BEiT获得了86.3%的准确率，甚至优于在ImageNet-22K上进行监督预训练的ViT-L（85.2%）。

该模型由nielsr贡献。该模型的JAX/FLAX版本由kamalkraj贡献。原始代码可以在这里找到。

使用提示

BEiT模型是常规的视觉变换器，但以自监督的方式进行预训练，而不是监督学习。在ImageNet-1K和CIFAR-100上进行微调时，它们优于原始模型（ViT）以及数据高效的图像变换器（DeiT）。您可以查看有关推理以及在自定义数据上进行微调的演示笔记本这里（您只需将ViTFeatureExtractor替换为BeitImageProcessor，并将ViTForImageClassification替换为BeitForImageClassification）。
还有一个演示笔记本可用，展示了如何将DALL-E的图像分词器与BEiT结合使用以执行掩码图像建模。你可以在这里找到它here。
由于BEiT模型期望每张图像具有相同的大小（分辨率），可以使用 BeitImageProcessor来调整（或重新缩放）和归一化图像以适应模型。
预训练或微调期间使用的补丁分辨率和图像分辨率都反映在每个检查点的名称中。例如，microsoft/beit-base-patch16-224指的是一个基础大小的架构，补丁分辨率为16x16，微调分辨率为224x224。所有检查点都可以在hub上找到。
可用的检查点要么是（1）仅在ImageNet-22k（包含1400万张图像和22k个类别的集合）上预训练，（2）也在ImageNet-22k上微调，或者（3）也在ImageNet-1k（也称为ILSVRC 2012，包含130万张图像和1000个类别的集合）上微调。
BEiT 使用了相对位置嵌入，灵感来自 T5 模型。在预训练期间，作者在多个自注意力层之间共享了相对位置偏差。在微调期间，每一层的相对位置偏差都用预训练后获得的共享相对位置偏差进行初始化。请注意，如果要从头开始预训练模型，需要将 use_relative_position_bias 或 BeitConfig 的 use_relative_position_bias 属性设置为 True，以便添加位置嵌入。

BEiT pre-training. Taken from the original paper.

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用BEiT。

Image Classification

BeitForImageClassification 由这个示例脚本和笔记本支持。
另请参阅：图像分类任务指南

语义分割

语义分割任务指南

如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Transformers

BEiT

概述

使用提示

资源

BEiT 特定输出

类 transformers.models.beit.modeling_beit.BeitModelOutputWithPooling

类 transformers.models.beit.modeling_flax_beit.FlaxBeitModelOutputWithPooling

BeitConfig

类 transformers.BeitConfig

BeitFeatureExtractor

类 transformers.BeitFeatureExtractor

__call__

post_process_semantic_segmentation

BeitImageProcessor

类 transformers.BeitImageProcessor

预处理

post_process_semantic_segmentation

BeitModel

类 transformers.BeitModel

前进

BeitForMaskedImageModeling

类 transformers.BeitForMaskedImageModeling

前进

BeitForImageClassification

类 transformers.BeitForImageClassification

前进

BeitForSemanticSegmentation

类 transformers.BeitForSemanticSegmentation

前进

FlaxBeitModel

类 transformers.FlaxBeitModel

__call__

FlaxBeitForMaskedImageModeling

类 transformers.FlaxBeitForMaskedImageModeling

__call__

FlaxBeitForImageClassification

类 transformers.FlaxBeitForImageClassification

__call__

call

call

call

call