Transformers

语音转文本

概述

Speech2Text模型由Changhan Wang、Yun Tang、Xutai Ma、Anne Wu、Dmytro Okhonko和Juan Pino在fairseq S2T: Fast Speech-to-Text Modeling with fairseq中提出。这是一个基于transformer的seq2seq（编码器-解码器）模型，专为端到端的自动语音识别（ASR）和语音翻译（ST）设计。它使用卷积下采样器在语音输入进入编码器之前将其长度减少3/4。该模型使用标准的自回归交叉熵损失进行训练，并自回归地生成转录/翻译。Speech2Text已经在多个ASR和ST数据集上进行了微调：LibriSpeech、CoVoST 2、MuST-C。

该模型由valhalla贡献。原始代码可以在这里找到。

推理

Speech2Text 是一个语音模型，它接受从语音信号中提取的对数梅尔滤波器组特征的浮点张量。它是一个基于 transformer 的 seq2seq 模型，因此转录/翻译是自回归生成的。generate() 方法可以用于推理。

Speech2TextFeatureExtractor 类负责提取对数梅尔滤波器组特征。Speech2TextProcessor 将 Speech2TextFeatureExtractor 和 Speech2TextTokenizer 包装到一个实例中，以便同时提取输入特征并解码预测的标记ID。

特征提取器依赖于torchaudio，而分词器依赖于sentencepiece，因此在运行示例之前请确保安装这些包。您可以通过pip install transformers"[speech, sentencepiece]"将这些作为额外的语音依赖项安装，或者通过pip install torchaudio sentencepiece单独安装这些包。此外，torchaudio需要libsndfile包的开发版本，可以通过系统包管理器安装。在Ubuntu上，可以按如下方式安装：apt install libsndfile1-dev

自动语音识别和语音翻译

>>> import torch
>>> from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
>>> from datasets import load_dataset

>>> model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-small-librispeech-asr")
>>> processor = Speech2TextProcessor.from_pretrained("facebook/s2t-small-librispeech-asr")


>>> ds = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")

>>> inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["sampling_rate"], return_tensors="pt")
>>> generated_ids = model.generate(inputs["input_features"], attention_mask=inputs["attention_mask"])

>>> transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)
>>> transcription
['mister quilter is the apostle of the middle classes and we are glad to welcome his gospel']

多语言语音翻译

对于多语言语音翻译模型，eos_token_id 被用作 decoder_start_token_id，并且目标语言 ID 被强制作为第一个生成的标记。要将目标语言 ID 强制作为第一个生成的标记，请将 forced_bos_token_id 参数传递给 generate() 方法。以下示例展示了如何使用 facebook/s2t-medium-mustc-multilingual-st 检查点将英语语音翻译为法语文本。

>>> import torch
>>> from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration
>>> from datasets import load_dataset

>>> model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-medium-mustc-multilingual-st")
>>> processor = Speech2TextProcessor.from_pretrained("facebook/s2t-medium-mustc-multilingual-st")

>>> ds = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")

>>> inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["sampling_rate"], return_tensors="pt")
>>> generated_ids = model.generate(
...     inputs["input_features"],
...     attention_mask=inputs["attention_mask"],
...     forced_bos_token_id=processor.tokenizer.lang_code_to_id["fr"],
... )

>>> translation = processor.batch_decode(generated_ids, skip_special_tokens=True)
>>> translation
["(Vidéo) Si M. Kilder est l'apossible des classes moyennes, et nous sommes heureux d'être accueillis dans son évangile."]

查看模型中心以寻找Speech2Text检查点。

Transformers

语音转文本

概述

推理

Speech2TextConfig

类 transformers.Speech2TextConfig

语音转文本分词器

类 transformers.Speech2TextTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

Speech2TextFeatureExtractor

class transformers.Speech2TextFeatureExtractor

__call__

Speech2TextProcessor

类 transformers.Speech2TextProcessor

__call__

from_pretrained

save_pretrained

batch_decode

解码

语音转文本模型

类 transformers.Speech2TextModel

前进

Speech2TextForConditionalGeneration

类 transformers.Speech2TextForConditionalGeneration

前进

TFSpeech2TextModel

类 transformers.TFSpeech2TextModel

调用

TFSpeech2TextForConditionalGeneration

类 transformers.TFSpeech2TextForConditionalGeneration

调用

call

call