MADLAD-400
概述
MADLAD-400 模型在论文 [MADLAD-400: A Multilingual And Document-Level Large Audited Dataset](MADLAD-400: A Multilingual And Document-Level Large Audited Dataset) 中发布。
论文的摘要如下:
我们介绍了MADLAD-400,这是一个基于CommonCrawl的手动审核的通用领域3T单语数据集,涵盖419种语言。我们讨论了自我审核MADLAD-400所揭示的局限性,以及数据审核在数据集创建过程中的作用。然后,我们使用公开可用的数据训练并发布了一个107亿参数的多语言机器翻译模型,该模型覆盖了超过450种语言的2500亿个标记,并发现它与显著更大的模型具有竞争力,并报告了不同领域的结果。此外,我们训练了一个80亿参数的语言模型,并评估了在少样本翻译上的结果。我们将基线模型提供给研究社区。
该模型由Juarez Bochi添加。原始检查点可以在这里找到。
这是一个支持许多低资源语言的机器翻译模型,并且与显著更大的模型具有竞争力。
可以直接使用MADLAD-400权重而无需微调模型:
>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/madlad400-3b-mt")
>>> tokenizer = AutoTokenizer.from_pretrained("google/madlad400-3b-mt")
>>> inputs = tokenizer("<2pt> I love pizza!", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Eu amo pizza!']
谷歌发布了以下变体:
原始检查点可以在这里找到。
请参考T5的文档页面获取所有API参考、代码示例和笔记本。有关MADLAD-400的训练和评估的更多详细信息,请参阅模型卡。