Transformers

InstructBlipVideo

概述

InstructBLIPVideo 是 Wenliang Dai、Junnan Li、Dongxu Li、Anthony Meng Huat Tiong、Junqi Zhao、Weisheng Wang、Boyang Li、Pascale Fung 和 Steven Hoi 在 InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning 中提出的模型的扩展。 InstructBLIPVideo 使用与 InstructBLIP 相同的架构，并且与 InstructBLIP 使用相同的检查点。唯一的区别是它能够处理视频。

论文的摘要如下：

能够解决各种语言领域任务的通用语言模型已经通过预训练和指令调优管道出现。然而，由于额外的视觉输入引入的任务差异增加，构建通用视觉语言模型具有挑战性。尽管视觉语言预训练已被广泛研究，但视觉语言指令调优仍然相对较少探索。在本文中，我们基于预训练的BLIP-2模型对视觉语言指令调优进行了系统而全面的研究。我们收集了26个公开可用的数据集，将它们转换为指令调优格式，并将它们分为两个集群，用于保留指令调优和保留零样本评估。此外，我们引入了指令感知的视觉特征提取，这是一种关键方法，使模型能够提取适合给定指令的信息特征。生成的InstructBLIP模型在所有13个保留数据集上实现了最先进的零样本性能，显著优于BLIP-2和更大的Flamingo。我们的模型在个别下游任务上进行微调时也达到了最先进的性能（例如，在ScienceQA IMG上的准确率为90.7%）。此外，我们定性地展示了InstructBLIP相对于并发多模态模型的优势。

InstructBLIPVideo architecture. Taken from the original paper.

该模型由RaushanTurganbay贡献。原始代码可以在这里找到。

使用提示

模型通过每个视频采样4帧进行训练，因此建议采样4帧

[!注意] BLIP模型在发布v4.46版本后，将会发出警告，提示需要添加processor.num_query_tokens = {{num_query_tokens}}并扩展模型嵌入层以添加特殊的标记。如果您拥有模型检查点，强烈建议您将这些属性添加到处理器中；如果不属于您，请提交PR。添加这些属性意味着BLIP将为每张图像添加所需的查询标记数量，并在文本中扩展相应数量的占位符。通常每张图像大约需要500个标记，因此请确保文本未被截断，否则在合并嵌入时会出现失败。这些属性可以从模型配置中获取，如model.config.num_query_tokens，模型嵌入扩展可以通过此链接完成。

Transformers

InstructBlipVideo

概述

概述

使用提示

InstructBlipVideoConfig

class transformers.InstructBlipVideoConfig

from_vision_qformer_text_configs

InstructBlipVideoVisionConfig

类 transformers.InstructBlipVideoVisionConfig

InstructBlipVideoQFormerConfig

类 transformers.InstructBlipVideoQFormerConfig

InstructBlipVideoProcessor

类 transformers.InstructBlipVideoProcessor

batch_decode

解码

InstructBlipVideoImageProcessor

类 transformers.InstructBlipVideoImageProcessor

预处理

InstructBlipVideoVisionModel

类 transformers.InstructBlipVideoVisionModel

前进

InstructBlipVideoQFormerModel

类 transformers.InstructBlipVideoQFormerModel

前进

InstructBlipVideoForConditionalGeneration

类 transformers.InstructBlipVideoForConditionalGeneration

前进

生成