Transformers 文档

XLS-R

XLS-R

概述

XLS-R模型由Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino、Alexei Baevski、Alexis Conneau、Michael Auli在XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale中提出。

论文的摘要如下:

本文介绍了XLS-R,这是一个基于wav2vec 2.0的大规模跨语言语音表示学习模型。我们在128种语言的近50万小时的公开可用语音音频上训练了多达20亿参数的模型,这比已知的最大先前工作多了一个数量级的公共数据。我们的评估涵盖了广泛的任务、领域、数据制度和语言,包括高资源和低资源语言。在CoVoST-2语音翻译基准测试中,我们在21个翻译方向上将英语翻译的平均BLEU分数提高了7.4。对于语音识别,XLS-R在BABEL、MLS、CommonVoice以及VoxPopuli上优于先前的最佳工作,平均相对错误率降低了14-34%。XLS-R还在VoxLingua107语言识别上设定了新的技术水平。此外,我们展示了在将英语语音翻译成其他语言时,当模型规模足够大时,跨语言预训练可以优于仅英语预训练,这种设置有利于单语言预训练。我们希望XLS-R能够帮助改善世界上更多语言的语音处理任务。

相关的检查点可以在https://huggingface.co/models?other=xls_r下找到。

原始代码可以在这里找到。

使用提示

  • XLS-R 是一个语音模型,它接受与语音信号的原始波形相对应的浮点数组。
  • XLS-R 模型是使用连接时序分类(CTC)进行训练的,因此模型的输出必须使用 Wav2Vec2CTCTokenizer 进行解码。

XLS-R的架构基于Wav2Vec2模型,请参考Wav2Vec2的文档页面获取API参考。

< > Update on GitHub