Transformers 文档

卷积视觉变换器 (CvT)

Transformers

卷积视觉变换器 (CvT)

概述

CvT模型由Haiping Wu、Bin Xiao、Noel Codella、Mengchen Liu、Xiyang Dai、Lu Yuan和Lei Zhang在CvT: Introducing Convolutions to Vision Transformers中提出。卷积视觉Transformer（CvT）通过在ViT中引入卷积，结合了两种设计的优点，从而在性能和效率上改进了Vision Transformer (ViT)。

论文的摘要如下：

我们在本文中提出了一种新的架构，名为卷积视觉Transformer（CvT），通过在ViT中引入卷积来提高Vision Transformer（ViT）的性能和效率，从而结合了两种设计的优点。这是通过两个主要修改实现的：包含新卷积标记嵌入的Transformer层次结构，以及利用卷积投影的卷积Transformer块。这些修改将卷积神经网络（CNN）的理想特性（即平移、缩放和扭曲不变性）引入到ViT架构中，同时保持了Transformer的优点（即动态注意力、全局上下文和更好的泛化能力）。我们通过广泛的实验验证了CvT，表明该方法在ImageNet-1k上比其他Vision Transformer和ResNets实现了最先进的性能，且参数更少、FLOPs更低。此外，当在更大数据集（例如ImageNet-22k）上进行预训练并微调到下游任务时，性能提升得以保持。在ImageNet-22k上预训练的CvT-W24在ImageNet-1k验证集上获得了87.7%的top-1准确率。最后，我们的结果表明，现有Vision Transformer中的关键组件——位置编码，可以在我们的模型中安全地移除，从而简化了高分辨率视觉任务的设计。

该模型由anugunj贡献。原始代码可以在这里找到。

使用提示

CvT模型是常规的视觉变换器，但使用卷积进行训练。在ImageNet-1K和CIFAR-100上进行微调时，它们优于原始模型（ViT）。
您可以查看关于推理以及自定义数据微调的演示笔记本这里（您只需将ViTFeatureExtractor替换为AutoImageProcessor，将ViTForImageClassification替换为CvtForImageClassification）。
可用的检查点要么是（1）仅在ImageNet-22k（包含1400万张图像和22k个类别的集合）上预训练，（2）也在ImageNet-22k上进行了微调，或者（3）也在ImageNet-1k（也称为ILSVRC 2012，包含130万张图像和1000个类别的集合）上进行了微调。

资源

一份官方的 Hugging Face 和社区（由🌎表示）资源列表，帮助您开始使用 CvT。

Image Classification

CvtForImageClassification 由这个示例脚本和笔记本支持。
另请参阅：图像分类任务指南

如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

CvtConfig

类 transformers.CvtConfig

< source >

( num_channels = 3 patch_sizes = [7, 3, 3] patch_stride = [4, 2, 2] patch_padding = [2, 1, 1] embed_dim = [64, 192, 384] num_heads = [1, 3, 6] depth = [1, 2, 10] mlp_ratio = [4.0, 4.0, 4.0] attention_drop_rate = [0.0, 0.0, 0.0] drop_rate = [0.0, 0.0, 0.0] drop_path_rate = [0.0, 0.0, 0.1] qkv_bias = [True, True, True] cls_token = [False, False, True] qkv_projection_method = ['dw_bn', 'dw_bn', 'dw_bn'] kernel_qkv = [3, 3, 3] padding_kv = [1, 1, 1] stride_kv = [2, 2, 2] padding_q = [1, 1, 1] stride_q = [1, 1, 1] initializer_range = 0.02 layer_norm_eps = 1e-12 **kwargs )

参数

num_channels (int, optional, defaults to 3) — 输入通道的数量。
patch_sizes (List[int], 可选, 默认为 [7, 3, 3]) — 每个编码器的补丁嵌入的核大小。
patch_stride (List[int], optional, defaults to [4, 2, 2]) — 每个编码器的补丁嵌入的步幅大小。
patch_padding (List[int], optional, defaults to [2, 1, 1]) — 每个编码器的补丁嵌入的填充大小。
embed_dim (List[int], 可选, 默认为 [64, 192, 384]) — 每个编码器块的维度。
num_heads (List[int], 可选, 默认为 [1, 3, 6]) — Transformer编码器每个块中每个注意力层的注意力头数。
depth (List[int], 可选, 默认为 [1, 2, 10]) — 每个编码器块中的层数。
mlp_ratios (List[float], 可选, 默认为 [4.0, 4.0, 4.0, 4.0]) — 编码器块中Mix FFNs的隐藏层大小与输入层大小的比率。
attention_drop_rate (List[float], optional, defaults to [0.0, 0.0, 0.0]) — 注意力概率的丢弃比率。
drop_rate (List[float], 可选, 默认为 [0.0, 0.0, 0.0]) — 用于补丁嵌入概率的丢弃比率。
drop_path_rate (List[float], optional, defaults to [0.0, 0.0, 0.1]) — 用于Transformer编码器块中的随机深度的丢弃概率。
qkv_bias (List[bool], optional, defaults to [True, True, True]) — 注意力机制中查询、键和值的偏置布尔值
cls_token (List[bool], 可选, 默认为 [False, False, True]) — 是否在最后3个阶段的输出中添加分类标记。
qkv_projection_method (List[string], 可选, 默认为 [“dw_bn”, “dw_bn”, “dw_bn”]`) — 查询、键和值的投影方法。默认是带有批量归一化的深度卷积。对于线性投影，使用“avg”。
kernel_qkv (List[int], 可选, 默认为 [3, 3, 3]) — 注意力层中查询、键和值的核大小
padding_kv (List[int], 可选, 默认为 [1, 1, 1]) — 注意力层中键和值的填充大小
stride_kv (List[int], optional, defaults to [2, 2, 2]) — 注意力层中键和值的步幅大小
padding_q (List[int], optional, defaults to [1, 1, 1]) — 注意力层中查询的填充大小
stride_q (List[int], optional, 默认为 [1, 1, 1]) — 注意力层中查询的步幅大小
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
layer_norm_eps (float, optional, defaults to 1e-6) — 层归一化层使用的epsilon值。

这是用于存储CvtModel配置的配置类。它用于根据指定的参数实例化一个CvT模型，定义模型架构。使用默认值实例化配置将产生与CvT microsoft/cvt-13架构类似的配置。

配置对象继承自PretrainedConfig，可用于控制模型输出。阅读PretrainedConfig的文档以获取更多信息。

示例：

>>> from transformers import CvtConfig, CvtModel

>>> # Initializing a Cvt msft/cvt style configuration
>>> configuration = CvtConfig()

>>> # Initializing a model (with random weights) from the msft/cvt style configuration
>>> model = CvtModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Pytorch

Hide Pytorch content

CvtModel

类 transformers.CvtModel

< source >

( config add_pooling_layer = True )

参数

config (CvtConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained() 方法以加载模型权重。

裸的Cvt模型转换器输出原始隐藏状态，没有任何特定的头部。这个模型是一个PyTorch torch.nn.Module 子类。将其用作常规的PyTorch模块，并参考PyTorch文档以获取与一般使用和行为相关的所有事项。

前进

< source >

( pixel_values: typing.Optional[torch.Tensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.cvt.modeling_cvt.BaseModelOutputWithCLSToken 或 tuple(torch.FloatTensor)

参数

pixel_values (torch.FloatTensor of shape (batch_size, num_channels, height, width)) — 像素值。像素值可以使用AutoImageProcessor获取。详情请参见CvtImageProcessor.__call__。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。

transformers.models.cvt.modeling_cvt.BaseModelOutputWithCLSToken 或 tuple(torch.FloatTensor)

一个 transformers.models.cvt.modeling_cvt.BaseModelOutputWithCLSToken 或一个由 torch.FloatTensor 组成的元组（如果传递了 return_dict=False 或当 config.return_dict=False 时），包含各种元素，具体取决于配置（CvtConfig）和输入。

last_hidden_state (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。
cls_token_value (torch.FloatTensor 形状为 (batch_size, 1, hidden_size)) — 模型最后一层输出的分类标记。
hidden_states (tuple(torch.FloatTensor), 可选, 当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 由 torch.FloatTensor 组成的元组（一个用于嵌入的输出 + 一个用于每一层的输出），形状为 (batch_size, sequence_length, hidden_size)。模型在每一层输出的隐藏状态加上初始嵌入输出。

CvtModel 的前向方法，重写了 __call__ 特殊方法。

尽管前向传递的配方需要在此函数内定义，但之后应该调用Module实例而不是这个，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoImageProcessor, CvtModel
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/cvt-13")
>>> model = CvtModel.from_pretrained("microsoft/cvt-13")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 384, 14, 14]

CvtForImageClassification

类 transformers.CvtForImageClassification

< source >

( config )

参数

config (CvtConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained() 方法以加载模型权重。

Cvt 模型转换器，顶部带有图像分类头（在 [CLS] 标记的最终隐藏状态之上的线性层），例如用于 ImageNet。

该模型是一个PyTorch torch.nn.Module 子类。将其用作常规的PyTorch模块，并参考PyTorch文档以获取与一般使用和行为相关的所有信息。

前进

< source >

( pixel_values: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)

参数

pixel_values (torch.FloatTensor of shape (batch_size, num_channels, height, width)) — 像素值。像素值可以使用AutoImageProcessor获取。详情请参见CvtImageProcessor.__call__。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
labels (torch.LongTensor of shape (batch_size,), optional) — 用于计算图像分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1，则计算回归损失（均方损失），如果 config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或一个包含各种元素的 torch.FloatTensor 元组（如果传递了 return_dict=False 或当 config.return_dict=False 时），具体取决于配置（CvtConfig）和输入。

loss (torch.FloatTensor 形状为 (1,)，可选，当提供 labels 时返回) — 分类（或回归，如果 config.num_labels==1）损失。
logits (torch.FloatTensor 形状为 (batch_size, config.num_labels)) — 分类（或回归，如果 config.num_labels==1）得分（在 SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 由 torch.FloatTensor 组成的元组（一个用于嵌入层的输出，如果模型有嵌入层，+ 一个用于每个阶段的输出）形状为 (batch_size, num_channels, height, width)。模型在每个阶段输出的隐藏状态（也称为特征图）。

CvtForImageClassification 的前向方法，重写了 __call__ 特殊方法。

尽管前向传递的配方需要在此函数内定义，但之后应该调用Module实例而不是这个，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoImageProcessor, CvtForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/cvt-13")
>>> model = CvtForImageClassification.from_pretrained("microsoft/cvt-13")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
tabby, tabby cat

TensorFlow

Hide TensorFlow content

TFCvtModel

类 transformers.TFCvtModel

< source >

( config: CvtConfig *inputs **kwargs )

参数

config (CvtConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained() 方法以加载模型权重。

裸的Cvt模型变压器输出原始隐藏状态，顶部没有任何特定的头部。

该模型继承自 TFPreTrainedModel。请查看超类文档以了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入的大小、修剪头部等）。

该模型也是一个keras.Model子类。可以将其作为常规的TF 2.0 Keras模型使用，并参考TF 2.0文档以了解与一般使用和行为相关的所有事项。

TF 2.0 模型接受两种格式作为输入：

将所有输入作为关键字参数（如PyTorch模型），或
将所有输入作为列表、元组或字典放在第一个位置参数中。

当使用keras.Model.fit方法时，第二个选项很有用，因为该方法目前要求模型调用函数的第一个参数中包含所有张量：model(inputs)。

调用

< source >

( pixel_values: tf.Tensor | None = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → transformers.models.cvt.modeling_tf_cvt.TFBaseModelOutputWithCLSToken 或 tuple(tf.Tensor)

参数

pixel_values (np.ndarray, tf.Tensor, List[tf.Tensor] `Dict[str, tf.Tensor] or Dict[str, np.ndarray] and each example must have the shape (batch_size, num_channels, height, width)) — 像素值。像素值可以使用AutoImageProcessor获取。详情请参见CvtImageProcessor.__call__。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。此参数只能在eager模式下使用，在graph模式下将使用配置中的值。
return_dict (bool, 可选) — 是否返回一个ModelOutput而不是一个普通的元组。此参数可以在eager模式下使用，在graph模式下该值将始终设置为True.
训练 (bool, 可选, 默认为 `False“) — 是否在训练模式下使用模型（一些模块如dropout模块在训练和评估之间有不同的行为）。

transformers.models.cvt.modeling_tf_cvt.TFBaseModelOutputWithCLSToken 或 tuple(tf.Tensor)

一个 transformers.models.cvt.modeling_tf_cvt.TFBaseModelOutputWithCLSToken 或一个 tf.Tensor 元组（如果 return_dict=False 被传递或当 config.return_dict=False 时）包含各种元素，具体取决于配置 (CvtConfig) 和输入。

last_hidden_state (tf.Tensor 形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。
cls_token_value (tf.Tensor 形状为 (batch_size, 1, hidden_size)) — 模型最后一层输出的分类标记。
hidden_states (tuple(tf.Tensor), 可选, 当 output_hidden_states=True 被传递或当 config.output_hidden_states=True 时返回) — tf.Tensor 元组（一个用于嵌入的输出 + 一个用于每一层的输出）形状为 (batch_size, sequence_length, hidden_size)。模型在每一层输出时的隐藏状态加上初始嵌入输出。

TFCvtModel 的前向方法，重写了 __call__ 特殊方法。

尽管前向传递的配方需要在此函数内定义，但之后应该调用Module实例而不是这个，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoImageProcessor, TFCvtModel
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/cvt-13")
>>> model = TFCvtModel.from_pretrained("microsoft/cvt-13")

>>> inputs = image_processor(images=image, return_tensors="tf")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state

TFCvtForImageClassification

类 transformers.TFCvtForImageClassification

< source >

( config: CvtConfig *inputs **kwargs )

参数

config (CvtConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained() 方法以加载模型权重。

Cvt 模型转换器，顶部带有图像分类头（在 [CLS] 标记的最终隐藏状态之上的线性层），例如用于 ImageNet。

该模型继承自 TFPreTrainedModel。请查看超类文档以了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入的大小、修剪头部等）。

该模型也是一个keras.Model子类。可以将其作为常规的TF 2.0 Keras模型使用，并参考TF 2.0文档以了解与一般使用和行为相关的所有事项。

TF 2.0 模型接受两种格式作为输入：

将所有输入作为关键字参数（如PyTorch模型），或
将所有输入作为列表、元组或字典放在第一个位置参数中。

当使用keras.Model.fit方法时，第二个选项很有用，因为该方法目前要求模型调用函数的第一个参数中包含所有张量：model(inputs)。

调用

< source >

( pixel_values: tf.Tensor | None = None labels: tf.Tensor | None = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFImageClassifierOutputWithNoAttention 或 tuple(tf.Tensor)

参数

pixel_values (np.ndarray, tf.Tensor, List[tf.Tensor] `Dict[str, tf.Tensor] or Dict[str, np.ndarray] and each example must have the shape (batch_size, num_channels, height, width)) — 像素值。像素值可以使用AutoImageProcessor获取。详情请参见CvtImageProcessor.__call__。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。此参数只能在eager模式下使用，在graph模式下将使用配置中的值。
return_dict (bool, 可选) — 是否返回一个ModelOutput而不是一个普通的元组。此参数可以在eager模式下使用，在graph模式下该值将始终设置为True.
训练 (bool, 可选, 默认为 `False“) — 是否在训练模式下使用模型（一些模块如dropout模块在训练和评估之间有不同的行为）。
labels (tf.Tensor 或 np.ndarray 形状为 (batch_size,), 可选) — 用于计算图像分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1，则计算回归损失（均方损失），如果 config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_tf_outputs.TFImageClassifierOutputWithNoAttention 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFImageClassifierOutputWithNoAttention 或一个 tf.Tensor 的元组（如果 return_dict=False 被传递或当 config.return_dict=False 时）包含各种元素，取决于配置 (CvtConfig) 和输入。

loss (tf.Tensor 形状为 (1,), 可选, 当提供 labels 时返回) — 分类（或回归，如果 config.num_labels==1）损失。
logits (tf.Tensor 形状为 (batch_size, config.num_labels)) — 分类（或回归，如果 config.num_labels==1）得分（在 SoftMax 之前）。
hidden_states (tuple(tf.Tensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — tf.Tensor 的元组（一个用于嵌入层的输出，如果模型有嵌入层，+ 一个用于每个阶段的输出）形状为 (batch_size, num_channels, height, width)。模型在每个阶段输出的隐藏状态（也称为特征图）。

TFCvtForImageClassification 的前向方法，重写了 __call__ 特殊方法。

尽管前向传递的配方需要在此函数内定义，但之后应该调用Module实例而不是这个，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoImageProcessor, TFCvtForImageClassification
>>> import tensorflow as tf
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/cvt-13")
>>> model = TFCvtForImageClassification.from_pretrained("microsoft/cvt-13")

>>> inputs = image_processor(images=image, return_tensors="tf")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_class_idx = tf.math.argmax(logits, axis=-1)[0]
>>> print("Predicted class:", model.config.id2label[int(predicted_class_idx)])

< > Update on GitHub

←ConvNeXTV2 Deformable DETR→