Transformers 文档

MarkupLM

Transformers

MarkupLM

概述

MarkupLM模型由Junlong Li、Yiheng Xu、Lei Cui和Furu Wei在MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding中提出。MarkupLM是BERT模型，但应用于HTML页面而非原始文本文档。该模型结合了额外的嵌入层以提高性能，类似于LayoutLM。

该模型可用于网页上的问答任务或从网页中提取信息。它在两个重要的基准测试中取得了最先进的结果：

WebSRC, 一个用于基于网页的结构化阅读理解的数据集（有点像SQuAD，但适用于网页）
SWDE，一个用于从网页中提取信息的数据集（基本上是网页上的命名实体识别）

论文的摘要如下：

多模态预训练结合文本、布局和图像在视觉丰富的文档理解（VrDU）方面取得了显著进展，尤其是对于固定布局的文档，如扫描的文档图像。然而，仍有大量数字文档的布局信息不固定，需要交互式和动态渲染以实现可视化，这使得现有的基于布局的预训练方法不易应用。在本文中，我们提出了MarkupLM，用于以标记语言（如基于HTML/XML的文档）为骨干的文档理解任务，其中文本和标记信息被联合预训练。实验结果表明，预训练的MarkupLM在多个文档理解任务上显著优于现有的强基线模型。预训练模型和代码将公开提供。

该模型由nielsr贡献。原始代码可以在这里找到。

使用提示

除了input_ids，forward()还期望2个额外的输入，即xpath_tags_seq和xpath_subs_seq。这些分别是输入序列中每个标记的XPATH标签和下标。
可以使用MarkupLMProcessor来为模型准备所有数据。更多信息请参考usage guide。

MarkupLM architecture. Taken from the original paper.

用法：MarkupLMProcessor

为模型准备数据的最简单方法是使用MarkupLMProcessor，它在内部结合了一个特征提取器 (MarkupLMFeatureExtractor)和一个分词器(MarkupLMTokenizer或MarkupLMTokenizerFast)。特征提取器用于从HTML字符串中提取所有节点和xpath，然后将它们提供给分词器，分词器将它们转换为模型的token级输入(input_ids等)。请注意，如果您只想处理其中一项任务，仍然可以单独使用特征提取器和分词器。

from transformers import MarkupLMFeatureExtractor, MarkupLMTokenizerFast, MarkupLMProcessor

feature_extractor = MarkupLMFeatureExtractor()
tokenizer = MarkupLMTokenizerFast.from_pretrained("microsoft/markuplm-base")
processor = MarkupLMProcessor(feature_extractor, tokenizer)

简而言之，可以向MarkupLMProcessor提供HTML字符串（可能还包括其他数据），它将创建模型所需的输入。在内部，处理器首先使用MarkupLMFeatureExtractor获取节点列表和相应的xpath。然后，这些节点和xpath被提供给MarkupLMTokenizer或MarkupLMTokenizerFast，它们将这些转换为标记级别的input_ids、attention_mask、token_type_ids、xpath_subs_seq、xpath_tags_seq。可选地，可以向处理器提供节点标签，这些标签将被转换为标记级别的labels。

MarkupLMFeatureExtractor 使用 Beautiful Soup，这是一个用于从HTML和XML文件中提取数据的Python库。请注意，您仍然可以选择使用自己的解析解决方案，并自行提供节点和xpath给 MarkupLMTokenizer 或 MarkupLMTokenizerFast。

总共有5个用例由处理器支持。下面，我们列出了所有这些用例。请注意，这些用例都适用于批处理和非批处理输入（我们以非批处理输入为例进行说明）。

用例1：网页分类（训练、推理）+ 标记分类（推理），parse_html = True

这是最简单的情况，处理器将使用特征提取器从HTML中获取所有节点和xpaths。

>>> from transformers import MarkupLMProcessor

>>> processor = MarkupLMProcessor.from_pretrained("microsoft/markuplm-base")

>>> html_string = """
...  <!DOCTYPE html>
...  <html>
...  <head>
...  <title>Hello world</title>
...  </head>
...  <body>
...  <h1>Welcome</h1>
...  <p>Here is my website.</p>
...  </body>
...  </html>"""

>>> # note that you can also add provide all tokenizer parameters here such as padding, truncation
>>> encoding = processor(html_string, return_tensors="pt")
>>> print(encoding.keys())
dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'xpath_tags_seq', 'xpath_subs_seq'])

用例2：网页分类（训练、推理）+ 标记分类（推理），parse_html=False

如果已经获取了所有节点和xpaths，就不需要特征提取器。在这种情况下，应该将节点和相应的xpaths提供给处理器，并确保将parse_html设置为False。

>>> from transformers import MarkupLMProcessor

>>> processor = MarkupLMProcessor.from_pretrained("microsoft/markuplm-base")
>>> processor.parse_html = False

>>> nodes = ["hello", "world", "how", "are"]
>>> xpaths = ["/html/body/div/li[1]/div/span", "/html/body/div/li[1]/div/span", "html/body", "html/body/div"]
>>> encoding = processor(nodes=nodes, xpaths=xpaths, return_tensors="pt")
>>> print(encoding.keys())
dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'xpath_tags_seq', 'xpath_subs_seq'])

用例3：标记分类（训练），parse_html=False

对于标记分类任务（例如SWDE），还可以提供相应的节点标签以训练模型。处理器随后会将这些标签转换为标记级别的labels。默认情况下，它只会标记一个词的第一个子词，并将剩余的子词标记为-100，这是PyTorch的CrossEntropyLoss的ignore_index。如果您希望一个词的所有子词都被标记，可以将分词器初始化为only_label_first_subword设置为False。

>>> from transformers import MarkupLMProcessor

>>> processor = MarkupLMProcessor.from_pretrained("microsoft/markuplm-base")
>>> processor.parse_html = False

>>> nodes = ["hello", "world", "how", "are"]
>>> xpaths = ["/html/body/div/li[1]/div/span", "/html/body/div/li[1]/div/span", "html/body", "html/body/div"]
>>> node_labels = [1, 2, 2, 1]
>>> encoding = processor(nodes=nodes, xpaths=xpaths, node_labels=node_labels, return_tensors="pt")
>>> print(encoding.keys())
dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'xpath_tags_seq', 'xpath_subs_seq', 'labels'])

用例4：网页问答（推理），parse_html=True

对于网页上的问答任务，您可以向处理器提供一个问题。默认情况下，处理器将使用特征提取器获取所有节点和xpath，并创建[CLS]问题标记[SEP]单词标记[SEP]。

>>> from transformers import MarkupLMProcessor

>>> processor = MarkupLMProcessor.from_pretrained("microsoft/markuplm-base")

>>> html_string = """
...  <!DOCTYPE html>
...  <html>
...  <head>
...  <title>Hello world</title>
...  </head>
...  <body>
...  <h1>Welcome</h1>
...  <p>My name is Niels.</p>
...  </body>
...  </html>"""

>>> question = "What's his name?"
>>> encoding = processor(html_string, questions=question, return_tensors="pt")
>>> print(encoding.keys())
dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'xpath_tags_seq', 'xpath_subs_seq'])

用例5：网页问答（推理），parse_html=False

对于问答任务（例如WebSRC），您可以向处理器提供一个问题。如果您已经自己提取了所有节点和xpaths，您可以直接将它们提供给处理器。请确保将parse_html设置为False。

>>> from transformers import MarkupLMProcessor

>>> processor = MarkupLMProcessor.from_pretrained("microsoft/markuplm-base")
>>> processor.parse_html = False

>>> nodes = ["hello", "world", "how", "are"]
>>> xpaths = ["/html/body/div/li[1]/div/span", "/html/body/div/li[1]/div/span", "html/body", "html/body/div"]
>>> question = "What's his name?"
>>> encoding = processor(nodes=nodes, xpaths=xpaths, questions=question, return_tensors="pt")
>>> print(encoding.keys())
dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'xpath_tags_seq', 'xpath_subs_seq'])

Transformers

MarkupLM

概述

使用提示

用法：MarkupLMProcessor

资源

MarkupLMConfig

类 transformers.MarkupLMConfig

MarkupLMFeatureExtractor

类 transformers.MarkupLMFeatureExtractor

__call__

MarkupLMTokenizer

类 transformers.MarkupLMTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

MarkupLMTokenizerFast

类 transformers.MarkupLMTokenizerFast

batch_encode_plus

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

encode_plus

get_xpath_seq

MarkupLMProcessor

类 transformers.MarkupLMProcessor

__call__

MarkupLMModel

类 transformers.MarkupLMModel

前进

MarkupLMForSequenceClassification

类 transformers.MarkupLMForSequenceClassification

前进

MarkupLMForTokenClassification

类 transformers.MarkupLMForTokenClassification

前进

MarkupLMForQuestionAnswering

类 transformers.MarkupLMForQuestionAnswering

前进

call

call