Transformers 文档

LayoutLMV2

Transformers

LayoutLMV2

概述

LayoutLMV2模型由Yang Xu、Yiheng Xu、Tengchao Lv、Lei Cui、Furu Wei、Guoxin Wang、Yijuan Lu、Dinei Florencio、Cha Zhang、Wanxiang Che、Min Zhang、Lidong Zhou在LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding中提出。LayoutLMV2改进了LayoutLM，在多个文档图像理解基准测试中取得了最先进的结果：

从扫描文档中提取信息：FUNSD数据集（包含199个带注释的表格，共计超过30,000个单词），CORD数据集（包含800张收据用于训练，100张用于验证，100张用于测试），SROIE数据集（包含626张收据用于训练和347张收据用于测试）以及Kleister-NDA数据集（包含来自EDGAR数据库的非披露协议，包括254份文档用于训练，83份文档用于验证，和203份文档用于测试）。
文档图像分类：RVL-CDIP 数据集（包含40万张图像，属于16个类别之一）。
文档视觉问答：DocVQA 数据集（包含 50,000 个问题，基于 12,000 多张文档图像）。

论文的摘要如下：

文本和布局的预训练在各种视觉丰富的文档理解任务中被证明是有效的，这得益于其有效的模型架构和大规模未标记的扫描/数字生成文档的优势。在本文中，我们通过在多模态框架中预训练文本、布局和图像来介绍LayoutLMv2，其中利用了新的模型架构和预训练任务。具体来说，LayoutLMv2不仅使用了现有的掩码视觉语言建模任务，还在预训练阶段引入了新的文本-图像对齐和文本-图像匹配任务，从而更好地学习跨模态交互。同时，它还将空间感知的自注意力机制集成到Transformer架构中，使模型能够充分理解不同文本块之间的相对位置关系。实验结果表明，LayoutLMv2在多种下游视觉丰富的文档理解任务上优于强基线，并取得了新的最先进结果，包括FUNSD（0.7895 -> 0.8420）、CORD（0.9493 -> 0.9601）、SROIE（0.9524 -> 0.9781）、Kleister-NDA（0.834 -> 0.852）、RVL-CDIP（0.9443 -> 0.9564）和DocVQA（0.7295 -> 0.8672）。预训练的LayoutLMv2模型可在以下网址公开获取：this https URL。

LayoutLMv2 依赖于 detectron2、torchvision 和 tesseract。运行以下命令来安装它们：

python -m pip install 'git+https://github.com/facebookresearch/detectron2.git'
python -m pip install torchvision tesseract

（如果您正在为LayoutLMv2开发，请注意，通过doctests还需要安装这些包。）

使用提示

LayoutLMv1 和 LayoutLMv2 的主要区别在于后者在预训练期间加入了视觉嵌入（而 LayoutLMv1 仅在微调期间添加视觉嵌入）。
LayoutLMv2 在自注意力层的注意力分数中增加了相对1D注意力偏差和空间2D注意力偏差。详情可以在论文的第5页找到。
关于如何在RVL-CDIP、FUNSD、DocVQA、CORD上使用LayoutLMv2模型的演示笔记本可以在这里找到。
LayoutLMv2 使用 Facebook AI 的 Detectron2 包作为其视觉骨干。请参阅此链接获取安装说明。
除了input_ids，forward()还期望有2个额外的输入，即image和bbox。image输入对应于文本标记出现的原始文档图像。模型期望每个文档图像的大小为224x224。这意味着如果你有一批文档图像，image应该是一个形状为(batch_size, 3, 224, 224)的张量。这可以是torch.Tensor或Detectron2.structures.ImageList。你不需要对通道进行归一化，因为这是由模型完成的。需要注意的是，视觉骨干网络期望的是BGR通道而不是RGB，因为Detectron2中的所有模型都是使用BGR格式预训练的。bbox输入是输入文本标记的边界框（即2D位置）。这与LayoutLMModel相同。这些可以使用外部OCR引擎（如Google的Tesseract（有一个Python包装器可用））获得。每个边界框应为(x0, y0, x1, y1)格式，其中(x0, y0)对应于边界框左上角的位置，(x1, y1)表示右下角的位置。需要注意的是，首先需要将边界框归一化到0-1000的范围内。要进行归一化，可以使用以下函数：

def normalize_bbox(bbox, width, height):
    return [
        int(1000 * (bbox[0] / width)),
        int(1000 * (bbox[1] / height)),
        int(1000 * (bbox[2] / width)),
        int(1000 * (bbox[3] / height)),
    ]

这里，width 和 height 对应于标记出现的原始文档的宽度和高度（在调整图像大小之前）。例如，可以使用 Python 图像库 (PIL) 库来获取这些值，如下所示：

from PIL import Image

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
)

width, height = image.size

然而，这个模型包含了一个全新的LayoutLMv2Processor，它可以用来直接为模型准备数据（包括在后台应用OCR）。更多信息可以在下面的“使用”部分找到。

在内部，LayoutLMv2Model 会将 image 输入通过其视觉骨干网络发送，以获得一个较低分辨率的特征图，其形状等于 LayoutLMv2Config 的 image_feature_pool_shape 属性。然后，该特征图被展平以获得一系列图像标记。由于特征图的大小默认为7x7，因此可以获得49个图像标记。这些标记随后与文本标记连接，并通过Transformer编码器发送。这意味着，如果您将文本标记填充到最大长度，模型的最后隐藏状态的长度将为512 + 49 = 561。更一般地说，最后隐藏状态的形状将为 seq_length + image_feature_pool_shape[0] * config.image_feature_pool_shape[1]。
当调用from_pretrained()时，会打印一个警告，其中包含一长串未初始化的参数名称。这不是问题，因为这些参数是批量归一化统计量，在自定义数据集上进行微调时会有值。
如果你想在分布式环境中训练模型，请确保在模型上调用synchronize_batch_norm，以便正确同步视觉骨干网络的批量归一化层。

此外，还有LayoutXLM，它是LayoutLMv2的多语言版本。更多信息可以在 LayoutXLM的文档页面找到。

资源

以下是官方Hugging Face和社区（由🌎表示）提供的资源列表，帮助您开始使用LayoutLMv2。如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Text Classification

一个关于如何在RVL-CDIP数据集上微调LayoutLMv2进行文本分类的笔记本。
另请参阅：Text classification task guide

Question Answering

一个关于如何微调LayoutLMv2以在DocVQA数据集上进行问答的笔记本。
另请参阅：问答任务指南
另请参阅：文档问答任务指南

Token Classification

一个关于如何在CORD数据集上微调LayoutLMv2以进行标记分类的笔记本。
一个关于如何在FUNSD数据集上微调LayoutLMv2以进行令牌分类的笔记本。
另请参阅：Token分类任务指南

用法：LayoutLMv2Processor

为模型准备数据的最简单方法是使用LayoutLMv2Processor，它在内部结合了图像处理器（LayoutLMv2ImageProcessor）和分词器（LayoutLMv2Tokenizer或LayoutLMv2TokenizerFast）。图像处理器处理图像模态，而分词器处理文本模态。处理器将两者结合起来，这对于像LayoutLMv2这样的多模态模型来说是理想的。请注意，如果您只想处理一种模态，您仍然可以单独使用它们。

from transformers import LayoutLMv2ImageProcessor, LayoutLMv2TokenizerFast, LayoutLMv2Processor

image_processor = LayoutLMv2ImageProcessor()  # apply_ocr is set to True by default
tokenizer = LayoutLMv2TokenizerFast.from_pretrained("microsoft/layoutlmv2-base-uncased")
processor = LayoutLMv2Processor(image_processor, tokenizer)

简而言之，可以将文档图像（可能还包括其他数据）提供给LayoutLMv2Processor，它将创建模型所需的输入。在内部，处理器首先使用LayoutLMv2ImageProcessor对图像进行OCR处理，以获取单词列表和归一化的边界框，并将图像调整为给定大小以获取image输入。然后，单词和归一化的边界框被提供给LayoutLMv2Tokenizer或LayoutLMv2TokenizerFast，它们将这些转换为标记级别的input_ids、attention_mask、token_type_ids、bbox。可选地，可以向处理器提供单词标签，这些标签将被转换为标记级别的labels。

LayoutLMv2Processor 使用了 PyTesseract，这是一个围绕 Google 的 Tesseract OCR 引擎的 Python 封装。请注意，您仍然可以使用自己选择的 OCR 引擎，并自行提供单词和归一化的框。这需要将 LayoutLMv2ImageProcessor 的 apply_ocr 设置为 False。

总共有5个用例由处理器支持。下面，我们列出了所有这些用例。请注意，这些用例都适用于批处理和非批处理输入（我们以非批处理输入为例进行说明）。

用例1：文档图像分类（训练、推理）+ 令牌分类（推理），apply_ocr = True

这是最简单的情况，处理器（实际上是图像处理器）将对图像执行OCR以获取单词和归一化的边界框。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
encoding = processor(
    image, return_tensors="pt"
)  # you can also add all tokenizer parameters here such as padding, truncation
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

用例2：文档图像分类（训练、推理）+ 令牌分类（推理），apply_ocr=False

如果用户想要自己进行OCR，可以将图像处理器初始化为apply_ocr设置为False。在这种情况下，用户应自行提供单词和相应的（归一化）边界框给处理器。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]]  # make sure to normalize your bounding boxes
encoding = processor(image, words, boxes=boxes, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

用例3：令牌分类（训练），apply_ocr=False

对于标记分类任务（如FUNSD、CORD、SROIE、Kleister-NDA），还可以提供相应的单词标签以训练模型。处理器随后会将这些标签转换为标记级别的labels。默认情况下，它只会标记单词的第一个子词，并将剩余的子词标记为-100，这是PyTorch的CrossEntropyLoss的ignore_index。如果您希望单词的所有子词都被标记，可以将分词器初始化为only_label_first_subword设置为False。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]]  # make sure to normalize your bounding boxes
word_labels = [1, 2]
encoding = processor(image, words, boxes=boxes, word_labels=word_labels, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'labels', 'image'])

用例4：视觉问答（推理），apply_ocr=True

对于视觉问答任务（例如DocVQA），您可以向处理器提供一个问题。默认情况下，处理器将对图像应用OCR，并创建[CLS]问题标记[SEP]单词标记[SEP]。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
question = "What's his name?"
encoding = processor(image, question, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

用例5：视觉问答（推理），apply_ocr=False

对于视觉问答任务（例如DocVQA），您可以向处理器提供一个问题。如果您想自己执行OCR，您可以向处理器提供您自己的单词和（归一化的）边界框。

from transformers import LayoutLMv2Processor
from PIL import Image

processor = LayoutLMv2Processor.from_pretrained("microsoft/layoutlmv2-base-uncased", revision="no_ocr")

image = Image.open(
    "name_of_your_document - can be a png, jpg, etc. of your documents (PDFs must be converted to images)."
).convert("RGB")
question = "What's his name?"
words = ["hello", "world"]
boxes = [[1, 2, 3, 4], [5, 6, 7, 8]]  # make sure to normalize your bounding boxes
encoding = processor(image, question, words, boxes=boxes, return_tensors="pt")
print(encoding.keys())
# dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'bbox', 'image'])

Transformers

LayoutLMV2

概述

使用提示

资源

用法：LayoutLMv2Processor

LayoutLMv2Config

类 transformers.LayoutLMv2Config

LayoutLMv2FeatureExtractor

类 transformers.LayoutLMv2FeatureExtractor

__call__

LayoutLMv2ImageProcessor

类 transformers.LayoutLMv2ImageProcessor

预处理

LayoutLMv2Tokenizer

class transformers.LayoutLMv2Tokenizer

__call__

保存词汇表

LayoutLMv2TokenizerFast

类 transformers.LayoutLMv2TokenizerFast

__call__

LayoutLMv2Processor

类 transformers.LayoutLMv2Processor

__call__

LayoutLMv2Model

类 transformers.LayoutLMv2Model

前进

LayoutLMv2ForSequenceClassification

类 transformers.LayoutLMv2ForSequenceClassification

前进

LayoutLMv2ForTokenClassification

类 transformers.LayoutLMv2ForTokenClassification

前进

LayoutLMv2ForQuestionAnswering

类 transformers.LayoutLMv2ForQuestionAnswering

前进

call

call

call

call