Transformers 文档

XLSR-Wav2Vec2

XLSR-Wav2Vec2

概述

XLSR-Wav2Vec2模型由Alexis Conneau、Alexei Baevski、Ronan Collobert、Abdelrahman Mohamed和Michael Auli在《无监督跨语言表示学习用于语音识别》中提出。

论文的摘要如下:

本文介绍了XLSR,它通过从多种语言的原始语音波形中预训练单一模型来学习跨语言语音表示。我们基于wav2vec 2.0构建,该模型通过解决掩码潜在语音表示的对比任务进行训练,并共同学习跨语言共享的潜在量化。生成的模型在有标签数据上进行微调,实验表明跨语言预训练显著优于单语言预训练。在CommonVoice基准测试中,XLSR相比已知最佳结果,音素错误率相对减少了72%。在BABEL上,我们的方法相比类似系统,单词错误率相对提高了16%。我们的方法使得单一多语言语音识别模型能够与强大的个体模型竞争。分析表明,潜在离散语音表示在语言之间共享,且相关语言之间的共享增加。我们希望通过发布XLSR-53(一个在53种语言上预训练的大型模型)来促进低资源语音理解的研究。

原始代码可以在这里找到。

注意:Meta (FAIR) 发布了新版本的 Wav2Vec2-BERT 2.0 - 它预训练了450万小时的音频数据。我们特别推荐将其用于微调任务,例如按照 此指南 进行操作。

使用提示

  • XLSR-Wav2Vec2 是一个语音模型,它接受与语音信号的原始波形相对应的浮点数组。
  • XLSR-Wav2Vec2 模型是使用连接时序分类(CTC)进行训练的,因此模型输出必须使用 Wav2Vec2CTCTokenizer 进行解码。

XLSR-Wav2Vec2的架构基于Wav2Vec2模型,因此可以参考Wav2Vec2的文档页面

< > Update on GitHub