Transformers

BLIP-2

概述

BLIP-2模型由Junnan Li、Dongxu Li、Silvio Savarese和Steven Hoi在BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models中提出。BLIP-2通过训练一个轻量级的12层Transformer编码器，利用冻结的预训练图像编码器和大型语言模型（LLMs），在各种视觉-语言任务上实现了最先进的性能。最值得注意的是，BLIP-2在零样本VQAv2上比拥有800亿参数的Flamingo模型提高了8.7%，且可训练参数减少了54倍。

论文的摘要如下：

由于大规模模型的端到端训练，视觉与语言预训练的成本变得越来越高。本文提出了BLIP-2，这是一种通用且高效的预训练策略，它从现成的冻结预训练图像编码器和冻结大型语言模型中引导视觉语言预训练。BLIP-2通过一个轻量级的查询转换器（Querying Transformer）弥合了模态差距，该转换器在两个阶段进行预训练。第一阶段从冻结的图像编码器中引导视觉语言表示学习。第二阶段从冻结的语言模型中引导视觉到语言的生成学习。尽管BLIP-2的可训练参数数量显著少于现有方法，但在各种视觉语言任务上仍达到了最先进的性能。例如，我们的模型在零样本VQAv2上比Flamingo80B高出8.7%，且可训练参数数量减少了54倍。我们还展示了模型在零样本图像到文本生成方面的新兴能力，能够遵循自然语言指令。

BLIP-2 architecture. Taken from the original paper.

该模型由nielsr贡献。原始代码可以在这里找到。

使用提示

BLIP-2 可以用于在给定图像和可选文本提示的情况下进行条件文本生成。在推理时，建议使用 generate 方法。
可以使用Blip2Processor来为模型准备图像，并将预测的标记ID解码回文本。

[!注意] BLIP模型在发布v4.46版本后，将会发出警告，提示需要添加processor.num_query_tokens = {{num_query_tokens}}并扩展模型嵌入层以添加特殊的标记。如果您拥有模型检查点，强烈建议您将这些属性添加到处理器中；如果不属于您，请提交PR。添加这些属性意味着BLIP将为每张图像添加所需的查询标记数量，并在文本中扩展相应数量的占位符。通常每张图像大约需要500个标记，因此请确保文本未被截断，否则在合并嵌入时会出现失败。这些属性可以从模型配置中获取，如model.config.num_query_tokens，模型嵌入扩展可以通过此链接完成。

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用BLIP-2。

用于图像描述、视觉问答（VQA）和类似聊天对话的BLIP-2演示笔记本可以在这里找到。

如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Transformers

BLIP-2

概述

使用提示

资源

Blip2Config

类 transformers.Blip2Config

from_vision_qformer_text_configs

Blip2VisionConfig

类 transformers.Blip2VisionConfig

Blip2QFormerConfig

类 transformers.Blip2QFormerConfig

Blip2Processor

类 transformers.Blip2Processor

batch_decode

解码

Blip2视觉模型

类 transformers.Blip2VisionModel

前进

Blip2QFormerModel

类 transformers.Blip2QFormerModel

前进

Blip2Model

类 transformers.Blip2Model

前进

get_text_features

get_image_features

get_qformer_features

Blip2ForConditionalGeneration

类 transformers.Blip2ForConditionalGeneration

前进

生成

Blip2ForImageTextRetrieval

class transformers.Blip2ForImageTextRetrieval

前进

Blip2TextModelWithProjection

类 transformers.Blip2TextModelWithProjection

前进

Blip2VisionModelWithProjection

类 transformers.Blip2VisionModelWithProjection

前进