Transformers 文档

XLM-V

XLM-V

概述

XLM-V 是一种多语言模型,拥有一个包含一百万个词汇的词汇表,该模型在来自 Common Crawl 的 2.5TB 数据上进行了训练(与 XLM-R 相同)。 它由 Davis Liang、Hila Gonen、Yuning Mao、Rui Hou、Naman Goyal、Marjan Ghazvininejad、Luke Zettlemoyer 和 Madian Khabsa 在论文 XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models 中提出。

来自XLM-V论文的摘要:

大型多语言语言模型通常依赖于一个跨100多种语言的共享词汇表。随着这些模型的参数数量和深度的增加,词汇表的大小基本保持不变。这种词汇表瓶颈限制了像XLM-R这样的多语言模型的表示能力。在本文中,我们引入了一种新的方法,通过减少词汇重叠较少的语言之间的标记共享,并为每种语言分配足够的词汇容量,来扩展到非常大的多语言词汇表。与XLM-R相比,使用我们的词汇表进行标记化通常更具语义意义且更短。利用这种改进的词汇表,我们训练了XLM-V,一个具有一百万标记词汇表的多语言语言模型。XLM-V在我们测试的每个任务上都优于XLM-R,包括自然语言推理(XNLI)、问答(MLQA、XQuAD、TyDiQA)、命名实体识别(WikiAnn)以及低资源任务(Americas NLI、MasakhaNER)。

该模型由stefan-it贡献,包括XLM-V在下游任务上的详细实验。 实验仓库可以在这里找到。

使用提示

  • XLM-V 与 XLM-RoBERTa 模型架构兼容,只需转换来自 fairseq 库的模型权重。
  • XLMTokenizer 实现用于加载词汇表并执行分词。

一个 XLM-V(基础大小)模型可在 facebook/xlm-v-base 标识符下找到。

XLM-V 架构与 XLM-RoBERTa 相同,请参考 XLM-RoBERTa 文档 获取 API 参考和示例。

< > Update on GitHub