Transformers 文档

无缝M4T

Transformers

无缝M4T

概述

SeamlessM4T模型由Meta AI的Seamless Communication团队在SeamlessM4T — 大规模多语言和多模态机器翻译中提出。

这是模型的版本1发布。有关更新的版本2发布，请参阅Seamless M4T v2 文档。

SeamlessM4T 是一组旨在提供高质量翻译的模型，使来自不同语言社区的人们能够通过语音和文本轻松交流。

SeamlessM4T 支持多种任务，无需依赖单独的模型：

语音到语音翻译 (S2ST)
语音到文本翻译 (S2TT)
文本到语音翻译 (T2ST)
文本到文本翻译 (T2TT)
自动语音识别 (ASR)

SeamlessM4TModel 可以执行上述所有任务，但每个任务也有其专用的子模型。

论文的摘要如下：

创建一个能够帮助个人在任何两种语言之间进行语音翻译的工具——巴别鱼，需要什么条件？尽管最近基于文本的模型的突破已经将机器翻译的覆盖范围推到了200多种语言，但统一的语音到语音翻译模型尚未取得类似的进展。更具体地说，传统的语音到语音翻译系统依赖于逐步执行翻译的级联系统，这使得高性能的统一系统难以实现。为了解决这些差距，我们引入了SeamlessM4T，这是一个支持语音到语音翻译、语音到文本翻译、文本到语音翻译、文本到文本翻译以及多达100种语言的自动语音识别的单一模型。为了构建这个模型，我们使用了100万小时的开放语音音频数据，通过w2v-BERT 2.0学习自监督的语音表示。随后，我们创建了一个自动对齐的语音翻译多模态语料库。通过过滤并结合人工标注和伪标注数据，我们开发了第一个能够从英语和向英语进行语音和文本翻译的多语言系统。在FLEURS上，SeamlessM4T为翻译到多种目标语言设定了新的标准，在直接语音到文本翻译中比之前的SOTA提高了20%的BLEU分数。与强大的级联模型相比，SeamlessM4T在语音到文本翻译中的英语翻译质量提高了1.3个BLEU分数，在语音到语音翻译中提高了2.6个ASR-BLEU分数。在鲁棒性测试中，与当前的SOTA模型相比，我们的系统在语音到文本任务中对背景噪音和说话者变化的处理表现更好。重要的是，我们评估了SeamlessM4T在性别偏见和添加毒性方面的表现，以评估翻译的安全性。最后，本工作的所有贡献都已开源，并可在https://github.com/facebookresearch/seamless_communication访问。

用法

首先，加载处理器和模型的检查点：

>>> from transformers import AutoProcessor, SeamlessM4TModel

>>> processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
>>> model = SeamlessM4TModel.from_pretrained("facebook/hf-seamless-m4t-medium")

您可以无缝地在文本或音频上使用此模型，以生成翻译后的文本或翻译后的音频。

以下是使用处理器处理文本和音频的方法：

>>> # let's load an audio sample from an Arabic speech corpus
>>> from datasets import load_dataset
>>> dataset = load_dataset("arabic_speech_corpus", split="test", streaming=True)
>>> audio_sample = next(iter(dataset))["audio"]

>>> # now, process it
>>> audio_inputs = processor(audios=audio_sample["array"], return_tensors="pt")

>>> # now, process some English test as well
>>> text_inputs = processor(text = "Hello, my dog is cute", src_lang="eng", return_tensors="pt")

语音

SeamlessM4TModel 可以无缝地生成文本或语音，几乎不需要或不需要任何更改。让我们以俄语语音翻译为目标：

>>> audio_array_from_text = model.generate(**text_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()
>>> audio_array_from_audio = model.generate(**audio_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()

使用基本相同的代码，我已经将英文文本和阿拉伯语语音翻译成了俄语语音样本。

文本

同样地，您可以使用相同的模型从音频文件或文本生成翻译文本。您只需将generate_speech=False传递给SeamlessM4TModel.generate()。这次，让我们翻译成法语。

>>> # from audio
>>> output_tokens = model.generate(**audio_inputs, tgt_lang="fra", generate_speech=False)
>>> translated_text_from_audio = processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)

>>> # from text
>>> output_tokens = model.generate(**text_inputs, tgt_lang="fra", generate_speech=False)
>>> translated_text_from_text = processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)

提示

1. 使用专用模型

SeamlessM4TModel 是 transformers 的顶级模型，用于生成语音和文本，但你也可以使用专门的模型来执行任务，而无需额外的组件，从而减少内存占用。例如，你可以用专门用于 S2ST 任务的模型替换音频到音频生成的代码片段，其余部分是完全相同的代码：

>>> from transformers import SeamlessM4TForSpeechToSpeech
>>> model = SeamlessM4TForSpeechToSpeech.from_pretrained("facebook/hf-seamless-m4t-medium")

或者你可以将文本到文本生成的代码片段替换为专门用于T2TT任务的模型，你只需要移除generate_speech=False。

>>> from transformers import SeamlessM4TForTextToText
>>> model = SeamlessM4TForTextToText.from_pretrained("facebook/hf-seamless-m4t-medium")

请随意尝试 SeamlessM4TForSpeechToText 和 SeamlessM4TForTextToSpeech。

2. 更改说话者身份

您可以使用spkr_id参数来更改用于语音合成的扬声器。对于某些语言，某些spkr_id比其他spkr_id效果更好！

3. 更改生成策略

您可以使用不同的生成策略进行语音和文本生成，例如.generate(input_ids=input_ids, text_num_beams=4, speech_do_sample=True)，这将在文本模型上依次执行束搜索解码，并在语音模型上执行多项式采样。

4. 同时生成语音和文本

使用 return_intermediate_token_ids=True 与 SeamlessM4TModel 一起返回语音和文本！

模型架构

SeamlessM4T 具有一个多功能架构，能够流畅地处理文本和语音的顺序生成。该设置包括两个序列到序列（seq2seq）模型。第一个模型将输入模态转换为翻译后的文本，而第二个模型从翻译后的文本生成语音标记，称为“单元标记”。

每种模态都有其专用的编码器，具有独特的架构。此外，对于语音输出，一个受HiFi-GAN架构启发的声码器被放置在第二个seq2seq模型的顶部。

以下是生成过程的工作原理：

输入的文本或语音通过其特定的编码器进行处理。
解码器生成所需语言的文本标记。
如果需要生成语音，第二个seq2seq模型，遵循标准的编码器-解码器结构，生成单元标记。
这些单元标记随后通过最终的声码器生成实际的语音。

该模型由ylacombe贡献。原始代码可以在这里找到。

Transformers

无缝M4T

概述

用法

语音

文本

提示

1. 使用专用模型

2. 更改说话者身份

3. 更改生成策略

4. 同时生成语音和文本

模型架构

SeamlessM4TModel

类 transformers.SeamlessM4TModel

生成

无缝M4T文本转语音

class transformers.SeamlessM4TForTextToSpeech

生成

无缝M4T语音转语音

class transformers.SeamlessM4TForSpeechToSpeech

生成

SeamlessM4TForTextToText

class transformers.SeamlessM4TForTextToText

前进

生成

SeamlessM4TForSpeechToText

class transformers.SeamlessM4TForSpeechToText

前进

生成

SeamlessM4TConfig

类 transformers.SeamlessM4TConfig

SeamlessM4TTokenizer

类 transformers.SeamlessM4TTokenizer

__call__

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

SeamlessM4TTokenizerFast

类 transformers.SeamlessM4TTokenizerFast

__call__

SeamlessM4TFeatureExtractor

类 transformers.SeamlessM4TFeatureExtractor

__call__

SeamlessM4TProcessor

类 transformers.SeamlessM4TProcessor

__call__

无缝M4T代码高保真生成器

类 transformers.SeamlessM4TCodeHifiGan

前进

无缝M4T高保真Gan

类 transformers.SeamlessM4THifiGan

前进

SeamlessM4TTextToUnitModel

class transformers.SeamlessM4TTextToUnitModel

SeamlessM4T文本到单元条件生成

类 transformers.SeamlessM4TTextToUnitForConditionalGeneration

前进

call

call

call

call