Transformers 文档

MBart 和 MBart-50

Transformers

MBart 和 MBart-50

MBart概述

MBart模型由Yinhan Liu、Jiatao Gu、Naman Goyal、Xian Li、Sergey Edunov、Marjan Ghazvininejad、Mike Lewis和Luke Zettlemoyer在《多语言去噪预训练用于神经机器翻译》中提出。

根据摘要，MBART 是一种序列到序列的去噪自编码器，使用 BART 目标在许多语言的大规模单语语料库上进行预训练。mBART 是第一种通过去噪多语言全文来预训练完整序列到序列模型的方法之一，而之前的方法仅关注编码器、解码器或重构部分文本。

该模型由valhalla贡献。作者的代码可以在这里找到

MBart的训练

MBart 是一个多语言的编码器-解码器（序列到序列）模型，主要用于翻译任务。由于该模型是多语言的，它期望序列以不同的格式输入。在源文本和目标文本中都添加了一个特殊的语言ID标记。源文本的格式是 X [eos, src_lang_code]，其中 X 是源文本。目标文本的格式是 [tgt_lang_code] X [eos]。bos 从未被使用。

常规的 call() 将编码作为第一个参数传递的源文本格式或使用 text 关键字传递的源文本格式，并使用 text_label 关键字参数传递的目标文本格式。

监督训练

>>> from transformers import MBartForConditionalGeneration, MBartTokenizer

>>> tokenizer = MBartTokenizer.from_pretrained("facebook/mbart-large-en-ro", src_lang="en_XX", tgt_lang="ro_RO")
>>> example_english_phrase = "UN Chief Says There Is No Military Solution in Syria"
>>> expected_translation_romanian = "Şeful ONU declară că nu există o soluţie militară în Siria"

>>> inputs = tokenizer(example_english_phrase, text_target=expected_translation_romanian, return_tensors="pt")

>>> model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-en-ro")
>>> # forward pass
>>> model(**inputs)

生成

在生成目标文本时，将decoder_start_token_id设置为目标语言的ID。以下示例展示了如何使用facebook/mbart-large-en-ro模型将英语翻译为罗马尼亚语。

>>> from transformers import MBartForConditionalGeneration, MBartTokenizer

>>> tokenizer = MBartTokenizer.from_pretrained("facebook/mbart-large-en-ro", src_lang="en_XX")
>>> article = "UN Chief Says There Is No Military Solution in Syria"
>>> inputs = tokenizer(article, return_tensors="pt")
>>> translated_tokens = model.generate(**inputs, decoder_start_token_id=tokenizer.lang_code_to_id["ro_RO"])
>>> tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
"Şeful ONU declară că nu există o soluţie militară în Siria"

MBart-50 概述

MBart-50 是在《多语言翻译与可扩展多语言预训练和微调》论文中由Yuqing Tang、Chau Tran、Xian Li、Peng-Jen Chen、Naman Goyal、Vishrav Chaudhary、Jiatao Gu、Angela Fan引入的。MBart-50是通过扩展原始的mbart-large-cc25检查点创建的，通过为额外的25种语言标记随机初始化向量来扩展其嵌入层，然后在50种语言上进行预训练。

根据摘要

多语言翻译模型可以通过多语言微调来创建。与仅在一个方向上进行微调不同，预训练模型同时在多个方向上进行微调。这表明预训练模型可以扩展到包含更多语言而不会损失性能。多语言微调在最强基线（无论是从头开始的多语言还是双语微调）上平均提高了1 BLEU，同时在从头开始的双语基线上平均提高了9.3 BLEU。

MBart-50的训练

MBart-50的文本格式与mBART略有不同。对于MBart-50，语言ID标记被用作源文本和目标文本的前缀，即文本格式为[lang_code] X [eos]，其中lang_code是源文本的源语言ID和目标文本的目标语言ID，X分别是源文本或目标文本。

MBart-50 有自己的分词器 MBart50Tokenizer。

监督训练

from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50", src_lang="en_XX", tgt_lang="ro_RO")

src_text = " UN Chief Says There Is No Military Solution in Syria"
tgt_text = "Şeful ONU declară că nu există o soluţie militară în Siria"

model_inputs = tokenizer(src_text, text_target=tgt_text, return_tensors="pt")

model(**model_inputs)  # forward pass

生成

要使用mBART-50多语言翻译模型生成，eos_token_id被用作decoder_start_token_id，并且目标语言ID被强制作为第一个生成的标记。要将目标语言ID强制作为第一个生成的标记，请将forced_bos_token_id参数传递给generate方法。以下示例展示了如何使用facebook/mbart-50-large-many-to-many检查点在印地语和法语之间以及阿拉伯语和英语之间进行翻译。

from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

article_hi = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है"
article_ar = "الأمين العام للأمم المتحدة يقول إنه لا يوجد حل عسكري في سوريا."

model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")

# translate Hindi to French
tokenizer.src_lang = "hi_IN"
encoded_hi = tokenizer(article_hi, return_tensors="pt")
generated_tokens = model.generate(**encoded_hi, forced_bos_token_id=tokenizer.lang_code_to_id["fr_XX"])
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "Le chef de l 'ONU affirme qu 'il n 'y a pas de solution militaire en Syria."

# translate Arabic to English
tokenizer.src_lang = "ar_AR"
encoded_ar = tokenizer(article_ar, return_tensors="pt")
generated_tokens = model.generate(**encoded_ar, forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"])
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "The Secretary-General of the United Nations says there is no military solution in Syria."

Transformers

MBart 和 MBart-50

MBart概述

MBart的训练

MBart-50 概述

MBart-50的训练

文档资源

MBartConfig

类 transformers.MBartConfig

MBartTokenizer

类 transformers.MBartTokenizer

build_inputs_with_special_tokens

MBartTokenizerFast

类 transformers.MBartTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

set_src_lang_special_tokens

set_tgt_lang_special_tokens

MBart50Tokenizer

类 transformers.MBart50Tokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

get_special_tokens_mask

set_src_lang_special_tokens

set_tgt_lang_special_tokens

MBart50TokenizerFast

类 transformers.MBart50TokenizerFast

build_inputs_with_special_tokens

set_src_lang_special_tokens

set_tgt_lang_special_tokens

MBartModel

类 transformers.MBartModel

前进

MBartForConditionalGeneration

类 transformers.MBartForConditionalGeneration

前进

MBartForQuestionAnswering

类 transformers.MBartForQuestionAnswering

前进

MBartForSequenceClassification

类 transformers.MBartForSequenceClassification

前进

MBartForCausalLM

类 transformers.MBartForCausalLM

前进

TFMBartModel

类 transformers.TFMBartModel

调用

TFMBartForConditionalGeneration

类 transformers.TFMBartForConditionalGeneration

调用

FlaxMBartModel

class transformers.FlaxMBartModel

__call__

编码

解码

FlaxMBartForConditionalGeneration

类 transformers.FlaxMBartForConditionalGeneration

__call__

编码

解码

FlaxMBartForSequenceClassification

类 transformers.FlaxMBartForSequenceClassification

__call__

编码

解码

FlaxMBartForQuestionAnswering

类 transformers.FlaxMBartForQuestionAnswering

__call__

编码

解码

call

call

call

call