Transformers

UDOP

概述

UDOP模型由Zineng Tang、Ziyi Yang、Guoxin Wang、Yuwei Fang、Yang Liu、Chenguang Zhu、Michael Zeng、Cha Zhang和Mohit Bansal在《Unifying Vision, Text, and Layout for Universal Document Processing》中提出。 UDOP采用基于T5的编码器-解码器Transformer架构，用于文档AI任务，如文档图像分类、文档解析和文档视觉问答。

论文的摘要如下：

我们提出了通用文档处理（UDOP），这是一个基础的文档AI模型，它将文本、图像和布局模态与各种任务格式（包括文档理解和生成）统一在一起。UDOP利用文本内容和文档图像之间的空间相关性，通过一种统一的表示方式来建模图像、文本和布局模态。通过一种新颖的视觉-文本-布局Transformer，UDOP将预训练和多领域下游任务统一到一个基于提示的序列生成方案中。UDOP在大规模未标记文档语料库上使用创新的自监督目标和多样化的标记数据进行预训练。UDOP还通过学习从文本和布局模态生成文档图像，通过掩码图像重建。据我们所知，这是文档AI领域首次有一个模型同时实现了高质量的神经文档编辑和内容定制。我们的方法在9个文档AI任务（例如文档理解和问答）上设定了最先进的水平，涵盖了财务报告、学术论文和网站等多样化的数据领域。UDOP在文档理解基准（DUE）排行榜上排名第一。*

UDOP architecture. Taken from the original paper.

使用提示

除了input_ids，UdopForConditionalGeneration还期望输入bbox，这是输入标记的边界框（即2D位置）。这些可以通过使用外部OCR引擎（如Google的Tesseract，有一个Python包装器可用）获得。每个边界框应为(x0, y0, x1, y1)格式，其中(x0, y0)对应于边界框左上角的位置，(x1, y1)表示右下角的位置。请注意，首先需要将边界框归一化到0-1000的比例。要进行归一化，可以使用以下函数：

def normalize_bbox(bbox, width, height):
    return [
        int(1000 * (bbox[0] / width)),
        int(1000 * (bbox[1] / height)),
        int(1000 * (bbox[2] / width)),
        int(1000 * (bbox[3] / height)),
    ]

这里，width 和 height 对应于标记出现的原始文档的宽度和高度。例如，可以使用Python图像库（PIL）库来获取这些值，如下所示：

from PIL import Image

# Document can be a png, jpg, etc. PDFs must be converted to images.
image = Image.open(name_of_your_document).convert("RGB")

width, height = image.size

可以使用UdopProcessor来为模型准备图像和文本，它会处理所有这些。默认情况下，这个类使用Tesseract引擎从给定文档中提取单词和框（坐标）的列表。它的功能与LayoutLMv3Processor相同，因此它支持传递apply_ocr=False，以防你更喜欢使用自己的OCR引擎，或者传递apply_ocr=True，以防你希望使用默认的OCR引擎。有关所有可能的用例，请参考LayoutLMv2的使用指南（UdopProcessor的功能是相同的）。

如果选择使用自己的OCR引擎，一个推荐是Azure的Read API，它支持所谓的线段。使用段位置嵌入通常会导致更好的性能。
在推理时，建议使用generate方法根据文档图像自回归生成文本。
该模型已经在自监督和监督目标上进行了预训练。可以使用预训练期间使用的各种任务前缀（提示）来测试开箱即用的能力。例如，可以用“问答。日期是什么？”来提示模型，因为“问答。”是预训练期间用于DocVQA的任务前缀。有关所有任务前缀，请参阅论文（表1）。
还可以微调UdopEncoderModel，这是UDOP的仅编码器部分，可以看作是类似LayoutLMv3的Transformer编码器。对于判别任务，只需在其顶部添加一个线性分类器，并在标记的数据集上进行微调。

该模型由nielsr贡献。原始代码可以在这里找到。

资源

以下是官方Hugging Face和社区（由🌎表示）提供的资源列表，帮助您开始使用UDOP。如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

关于UDOP的演示笔记本可以在这里找到，展示了如何在自定义数据集上微调UDOP以及进行推理。🌎
文档问答任务指南

Transformers

UDOP

概述

使用提示

资源

UdopConfig

类 transformers.UdopConfig

UdopTokenizer

类 transformers.UdopTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

UdopTokenizerFast

类 transformers.UdopTokenizerFast

batch_encode_plus_boxes

build_inputs_with_special_tokens

call_boxes

create_token_type_ids_from_sequences

encode_boxes

encode_plus_boxes

UdopProcessor

类 transformers.UdopProcessor

__call__

UdopModel

类 transformers.UdopModel

前进

UdopForConditionalGeneration

类 transformers.UdopForConditionalGeneration

前进

UdopEncoderModel

类 transformers.UdopEncoderModel

前进

call