Transformers 文档

Wav2Vec2

Transformers

Wav2Vec2

概述

Wav2Vec2模型由Alexei Baevski、Henry Zhou、Abdelrahman Mohamed和Michael Auli在wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations中提出。

论文的摘要如下：

我们首次展示了仅从语音音频中学习强大的表示，然后对转录语音进行微调，可以在概念上更简单的同时超越最好的半监督方法。wav2vec 2.0 在潜在空间中屏蔽语音输入，并解决了一个基于潜在表示量化的对比任务，这些表示是联合学习的。使用 Librispeech 的所有标记数据进行的实验在干净/其他测试集上达到了 1.8/3.3 WER。当将标记数据量减少到一小时时，wav2vec 2.0 在使用 100 倍少的标记数据的情况下，在 100 小时子集上超越了之前的最新技术。仅使用十分钟的标记数据并在 53k 小时的未标记数据上进行预训练，仍然达到了 4.8/8.2 WER。这证明了在有限标记数据量下进行语音识别的可行性。

该模型由patrickvonplaten贡献。

注意：Meta (FAIR) 发布了新版本的 Wav2Vec2-BERT 2.0 - 它预训练了450万小时的音频数据。我们特别推荐将其用于微调任务，例如按照此指南进行操作。

使用提示

Wav2Vec2 是一个语音模型，它接受与语音信号的原始波形相对应的浮点数组。
Wav2Vec2 模型是使用连接时序分类（CTC）进行训练的，因此模型输出必须使用 Wav2Vec2CTCTokenizer 进行解码。

使用 Flash Attention 2

Flash Attention 2 是该模型的一个更快、优化的版本。

安装

首先，检查您的硬件是否与Flash Attention 2兼容。最新的兼容硬件列表可以在官方文档中找到。如果您的硬件不兼容Flash Attention 2，您仍然可以通过上述介绍的Better Transformer支持从注意力内核优化中受益。

接下来，安装最新版本的Flash Attention 2：

pip install -U flash-attn --no-build-isolation

用法

要使用Flash Attention 2加载模型，我们可以将参数attn_implementation="flash_attention_2"传递给.from_pretrained。我们还将以半精度（例如torch.float16）加载模型，因为这样几乎不会降低音频质量，但可以显著减少内存使用并加快推理速度：

>>> from transformers import Wav2Vec2Model

model = Wav2Vec2Model.from_pretrained("facebook/wav2vec2-large-960h-lv60-self", torch_dtype=torch.float16, attn_implementation="flash_attention_2").to(device)
...

预期的加速

下面是一个预期的加速图，比较了facebook/wav2vec2-large-960h-lv60-self模型在transformers中的原生实现与flash-attention-2和sdpa（scale-dot-product-attention）版本之间的纯推理时间。我们展示了在librispeech_asr clean验证集上获得的平均加速：

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用Wav2Vec2。如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Audio Classification

Automatic Speech Recognition

一篇关于在🤗 Transformers中使用n-grams增强Wav2Vec2的博客文章boosting Wav2Vec2 with n-grams in 🤗 Transformers。
一篇关于如何使用🤗 Transformers微调Wav2Vec2进行英语ASR的博客文章。
一篇关于使用🤗 Transformers微调XLS-R进行多语言ASR的博客文章。
一个关于如何通过使用Wav2Vec2转录音频从任何视频创建YouTube字幕的笔记本。🌎
Wav2Vec2ForCTC 支持一个关于如何微调英语语音识别模型的笔记本，以及如何微调任何语言的语音识别模型。
自动语音识别任务指南

🚀 部署

一篇关于如何使用Hugging Face的Transformers和Amazon SageMaker部署Wav2Vec2进行自动语音识别的博客文章。

Transformers

Wav2Vec2

概述

使用提示

使用 Flash Attention 2

安装

用法

预期的加速

资源

Wav2Vec2Config

类 transformers.Wav2Vec2Config

Wav2Vec2CTCTokenizer

类 transformers.Wav2Vec2CTCTokenizer

__call__

保存词汇表

解码

batch_decode

set_target_lang

Wav2Vec2FeatureExtractor

类 transformers.Wav2Vec2FeatureExtractor

__call__

Wav2Vec2Processor

类 transformers.Wav2Vec2Processor

__call__

pad

from_pretrained

save_pretrained

batch_decode

解码

Wav2Vec2ProcessorWithLM

类 transformers.Wav2Vec2ProcessorWithLM

__call__

pad

from_pretrained

save_pretrained

batch_decode

解码

解码多个音频

Wav2Vec2 特定输出

class transformers.models.wav2vec2_with_lm.processing_wav2vec2_with_lm.Wav2Vec2DecoderWithLMOutput

类 transformers.modeling_outputs.Wav2Vec2BaseModelOutput

class transformers.models.wav2vec2.modeling_wav2vec2.Wav2Vec2ForPreTrainingOutput

类 transformers.models.wav2vec2.modeling_flax_wav2vec2.FlaxWav2Vec2BaseModelOutput

替换

类 transformers.models.wav2vec2.modeling_flax_wav2vec2.FlaxWav2Vec2ForPreTrainingOutput

替换

Wav2Vec2Model

类 transformers.Wav2Vec2Model

前进

Wav2Vec2ForCTC

类 transformers.Wav2Vec2ForCTC

前进

load_adapter

Wav2Vec2ForSequenceClassification

类 transformers.Wav2Vec2ForSequenceClassification

前进

Wav2Vec2ForAudioFrameClassification

类 transformers.Wav2Vec2ForAudioFrameClassification

前进

Wav2Vec2ForXVector

类 transformers.Wav2Vec2ForXVector

前进

Wav2Vec2ForPreTraining

类 transformers.Wav2Vec2ForPreTraining

前进

TFWav2Vec2Model

类 transformers.TFWav2Vec2Model

调用

TFWav2Vec2ForSequenceClassification

类 transformers.TFWav2Vec2ForSequenceClassification

调用

TFWav2Vec2ForCTC

类 transformers.TFWav2Vec2ForCTC

调用

FlaxWav2Vec2Model

类 transformers.FlaxWav2Vec2Model

__call__

FlaxWav2Vec2ForCTC

类 transformers.FlaxWav2Vec2ForCTC

__call__

call

call

call

call

call

call

call