Transformers 文档

LayoutLMv3

Transformers

LayoutLMv3

概述

LayoutLMv3模型由Yupan Huang、Tengchao Lv、Lei Cui、Yutong Lu和Furu Wei在LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking中提出。 LayoutLMv3通过使用补丁嵌入（如ViT中所示）而不是利用CNN骨干网络来简化LayoutLMv2，并在三个目标上预训练模型：掩码语言建模（MLM）、掩码图像建模（MIM）和词-补丁对齐（WPA）。

论文的摘要如下：

自监督预训练技术在文档AI领域取得了显著进展。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态的双向表示，但它们在图像模态的预训练目标上有所不同。这种差异增加了多模态表示学习的难度。在本文中，我们提出了LayoutLMv3，通过统一的文本和图像掩码来预训练文档AI的多模态Transformer。此外，LayoutLMv3通过单词-图像块对齐目标进行预训练，通过预测文本单词对应的图像块是否被掩码来学习跨模态对齐。这种简单的统一架构和训练目标使LayoutLMv3成为适用于以文本为中心和以图像为中心的文档AI任务的通用预训练模型。实验结果表明，LayoutLMv3不仅在以文本为中心的任务中（包括表单理解、收据理解和文档视觉问答）取得了最先进的性能，而且在以图像为中心的任务（如文档图像分类和文档布局分析）中也表现出色。

LayoutLMv3 architecture. Taken from the original paper.

该模型由nielsr贡献。该模型的TensorFlow版本由chriskoo、tokec和lre添加。原始代码可以在这里找到。

使用提示

在数据处理方面，LayoutLMv3 与其前身 LayoutLMv2 相同，除了以下几点：
- 图像需要调整大小并以常规 RGB 格式的通道进行归一化。而 LayoutLMv2 在内部对图像进行归一化，并期望通道为 BGR 格式。
- 文本使用字节对编码（BPE）进行分词，而不是 WordPiece。由于这些数据预处理的差异，可以使用 LayoutLMv3Processor，它在内部结合了 LayoutLMv3ImageProcessor（用于图像模态）和 LayoutLMv3Tokenizer/LayoutLMv3TokenizerFast（用于文本模态）来为模型准备所有数据。
关于LayoutLMv3Processor的使用，我们参考其前身的使用指南。

资源

以下是官方Hugging Face和社区（由🌎表示）提供的资源列表，帮助您开始使用LayoutLMv3。如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

LayoutLMv3 与 LayoutLMv2 几乎相同，因此我们也包含了可以用于 LayoutLMv3 任务的 LayoutLMv2 资源。对于这些笔记本，请注意在为模型准备数据时使用 LayoutLMv2Processor！

LayoutLMv3的演示笔记本可以在这里找到。
演示脚本可以在这里找到。

Text Classification

LayoutLMv2ForSequenceClassification 由这个 notebook 支持。
文本分类任务指南

Token Classification

LayoutLMv3ForTokenClassification 由这个示例脚本和笔记本支持。
一个notebook用于如何使用LayoutLMv2ForTokenClassification进行推理，以及一个notebook用于在没有标签的情况下如何使用LayoutLMv2ForTokenClassification进行推理。
一个关于如何使用🤗 Trainer微调LayoutLMv2ForTokenClassification的notebook。
Token分类任务指南

Question Answering

LayoutLMv2ForQuestionAnswering 由这个 notebook 支持。
问答任务指南

文档问答

Transformers

LayoutLMv3

概述

使用提示

资源

LayoutLMv3Config

类 transformers.LayoutLMv3Config

LayoutLMv3FeatureExtractor

类 transformers.LayoutLMv3FeatureExtractor

__call__

LayoutLMv3ImageProcessor

类 transformers.LayoutLMv3ImageProcessor

预处理

LayoutLMv3Tokenizer

类 transformers.LayoutLMv3Tokenizer

__call__

保存词汇表

LayoutLMv3TokenizerFast

类 transformers.LayoutLMv3TokenizerFast

__call__

LayoutLMv3Processor

class transformers.LayoutLMv3Processor

__call__

LayoutLMv3Model

类 transformers.LayoutLMv3Model

前进

LayoutLMv3ForSequenceClassification

类 transformers.LayoutLMv3ForSequenceClassification

前进

LayoutLMv3ForTokenClassification

类 transformers.LayoutLMv3ForTokenClassification

前进

LayoutLMv3ForQuestionAnswering

类 transformers.LayoutLMv3ForQuestionAnswering

前进

TFLayoutLMv3Model

类 transformers.TFLayoutLMv3Model

调用

TFLayoutLMv3ForSequenceClassification

类 transformers.TFLayoutLMv3ForSequenceClassification

调用

TFLayoutLMv3ForTokenClassification

类 transformers.TFLayoutLMv3ForTokenClassification

调用

TFLayoutLMv3ForQuestionAnswering

类 transformers.TFLayoutLMv3ForQuestionAnswering

调用

call

call

call

call