Transformers

X-MOD

概述

X-MOD模型由Jonas Pfeiffer、Naman Goyal、Xi Lin、Xian Li、James Cross、Sebastian Riedel和Mikel Artetxe在通过预训练模块化Transformer提升多语言性的诅咒中提出。 X-MOD扩展了多语言掩码语言模型，如XLM-R，在预训练期间包含特定语言的模块化组件（语言适配器）。在微调时，每个Transformer层中的语言适配器被冻结。

论文的摘要如下：

众所周知，多语言预训练模型会受到多语言诅咒的影响，这导致随着覆盖的语言增多，每种语言的性能会下降。我们通过引入特定语言的模块来解决这个问题，这使得我们能够增加模型的总容量，同时保持每种语言的可训练参数总数不变。与之前的工作不同，那些工作是在事后学习特定语言的组件，而我们从一开始就预训练了跨语言模块化（X-MOD）模型的模块。我们在自然语言推理、命名实体识别和问答方面的实验表明，我们的方法不仅减轻了语言之间的负面干扰，还实现了正向迁移，从而提高了单语言和跨语言的性能。此外，我们的方法使得在事后添加语言时不会出现性能下降，不再将模型的使用限制在预训练语言的集合中。

该模型由jvamvas贡献。原始代码可以在这里找到，原始文档可以在这里找到。

使用提示

提示：

X-MOD 类似于 XLM-R，但不同之处在于需要指定输入语言，以便激活正确的语言适配器。
主要模型——基础版和大版——适配81种语言。

适配器使用

输入语言

有两种方法可以指定输入语言：

在使用模型之前设置默认语言：

from transformers import XmodModel

model = XmodModel.from_pretrained("facebook/xmod-base")
model.set_default_language("en_XX")

通过显式传递每个样本的语言适配器索引：

import torch

input_ids = torch.tensor(
    [
        [0, 581, 10269, 83, 99942, 136, 60742, 23, 70, 80583, 18276, 2],
        [0, 1310, 49083, 443, 269, 71, 5486, 165, 60429, 660, 23, 2],
    ]
)
lang_ids = torch.LongTensor(
    [
        0,  # en_XX
        8,  # de_DE
    ]
)
output = model(input_ids, lang_ids=lang_ids)

微调

论文建议在微调期间冻结嵌入层和语言适配器。提供了一种实现此目的的方法：

model.freeze_embeddings_and_language_adapters()
# Fine-tune the model ...

跨语言迁移

微调后，可以通过激活目标语言的语言适配器来测试零样本跨语言迁移：

model.set_default_language("de_DE")
# Evaluate the model on German examples ...

Transformers

X-MOD

概述

使用提示

适配器使用

输入语言

微调

跨语言迁移

资源

XmodConfig

类 transformers.XmodConfig

XmodModel

类 transformers.XmodModel

前进

XmodForCausalLM

类 transformers.XmodForCausalLM

前进

XmodForMaskedLM

类 transformers.XmodForMaskedLM

前进

XmodForSequenceClassification

类 transformers.XmodForSequenceClassification

前进

XmodForMultipleChoice

类 transformers.XmodForMultipleChoice

前进

XmodForTokenClassification

类 transformers.XmodForTokenClassification

前进

XmodForQuestionAnswering

类 transformers.XmodForQuestionAnswering

前进