Transformers

Wav2Vec2-BERT

概述

Wav2Vec2-BERT模型是由Meta AI的无缝通信团队在Seamless: Multilingual Expressive and Streaming Speech Translation中提出的。

该模型在超过450万小时的无标签音频数据上进行了预训练，涵盖了超过143种语言。它需要微调才能用于下游任务，如自动语音识别（ASR）或音频分类。

模型的官方结果可以在论文的第3.2.1节中找到。

论文的摘要如下：

自动语音翻译的最新进展极大地扩展了语言覆盖范围，提升了多模态能力，并实现了广泛的任务和功能。然而，与人与人之间的对话相比，当前的大规模自动语音翻译系统缺乏关键特性，使得机器中介的通信感觉不够流畅。在这项工作中，我们引入了一系列模型，能够以流式方式进行端到端的表达性和多语言翻译。首先，我们贡献了大规模多语言和多模态SeamlessM4T模型的改进版本——SeamlessM4T v2。这个新模型结合了更新的UnitY2框架，并在更多低资源语言数据上进行了训练。SeamlessAlign的扩展版本增加了114,800小时的自动对齐数据，总计覆盖76种语言。SeamlessM4T v2为我们最新的两个模型——SeamlessExpressive和SeamlessStreaming——奠定了基础。SeamlessExpressive能够保留声音风格和韵律的翻译。与之前的表达性语音研究相比，我们的工作解决了韵律中某些未被充分探索的方面，如语速和停顿，同时也保留了一个人的声音风格。至于SeamlessStreaming，我们的模型利用高效单调多头注意力（EMMA）机制生成低延迟的目标翻译，而无需等待完整的源话语。作为同类中的第一个，SeamlessStreaming实现了多种源语言和目标语言的同步语音到语音/文本翻译。为了了解这些模型的性能，我们结合了现有自动指标的新版本和改进版本来评估韵律、延迟和鲁棒性。对于人类评估，我们调整了现有的协议，专门用于衡量在意义保留、自然度和表达性方面最相关的属性。为了确保我们的模型能够安全且负责任地使用，我们实施了首个已知的多模态机器翻译红队测试，一个用于检测和减轻添加毒性的系统，对性别偏见的系统评估，以及一个旨在减少深度伪造影响的不可听局部水印机制。因此，我们将SeamlessExpressive和SeamlessStreaming的主要组件结合在一起，形成了Seamless，这是首个公开可用的系统，能够实时解锁表达性的跨语言通信。总之，Seamless为我们提供了一个关键视角，展示了将通用语音翻译器从科幻概念转变为现实世界技术所需的技术基础。最后，这项工作中的贡献——包括模型、代码和水印检测器——已在以下链接中公开发布并可供访问。

该模型由ylacombe贡献。原始代码可以在这里找到。

使用提示

Wav2Vec2-BERT 遵循与 Wav2Vec2-Conformer 相同的架构，但采用了因果深度卷积层，并使用音频的梅尔频谱图表示作为输入，而不是原始波形。
Wav2Vec2-BERT 可以通过设置正确的 config.position_embeddings_type 来使用无相对位置嵌入、Shaw 类位置嵌入、Transformer-XL 类位置嵌入或旋转位置嵌入。
Wav2Vec2-BERT 还引入了一个基于 Conformer 的适配器网络，而不是简单的卷积网络。

资源

Automatic Speech Recognition

Wav2Vec2BertForCTC 由这个示例脚本支持。
你也可以调整这些笔记本，关于如何微调英语语音识别模型，以及如何微调任何语言的语音识别模型。

Audio Classification

Wav2Vec2BertForSequenceClassification 可以通过调整这个示例脚本来使用。
另请参阅：音频分类任务指南

Transformers

Wav2Vec2-BERT

概述

使用提示

资源

Wav2Vec2BertConfig

类 transformers.Wav2Vec2BertConfig

Wav2Vec2BertProcessor

类 transformers.Wav2Vec2BertProcessor

__call__

pad

from_pretrained

save_pretrained

batch_decode

解码

Wav2Vec2BertModel

类 transformers.Wav2Vec2BertModel

前进

Wav2Vec2BertForCTC

类 transformers.Wav2Vec2BertForCTC

前进

Wav2Vec2BertForSequenceClassification

类 transformers.Wav2Vec2BertForSequenceClassification

前进

Wav2Vec2BertForAudioFrameClassification

类 transformers.Wav2Vec2BertForAudioFrameClassification

前进

Wav2Vec2BertForXVector

类 transformers.Wav2Vec2BertForXVector

前进

call