Transformers 文档

树皮

Transformers

Bark

概述

Bark 是由 Suno AI 在 suno-ai/bark 中提出的基于 transformer 的文本转语音模型。

Bark由4个主要模型组成：

BarkSemanticModel（也称为‘文本’模型）：一种因果自回归变压器模型，它接收标记化的文本作为输入，并预测捕捉文本含义的语义文本标记。
BarkCoarseModel（也称为‘粗粒度声学’模型）：一个因果自回归变压器，它接收BarkSemanticModel模型的结果作为输入。其目标是预测EnCodec所需的前两个音频编码本。
BarkFineModel（‘精细声学’模型），这次是一个非因果自编码器变压器，它基于先前码本嵌入的总和迭代预测最后的码本。
在从EncodecModel预测所有码本通道后，Bark 使用它来解码输出音频数组。

需要注意的是，前三个模块中的每一个都可以支持条件说话人嵌入，以根据特定的预定义语音条件输出声音。

该模型由Yoach Lacombe (ylacombe)和Sanchit Gandhi (sanchit-gandhi)贡献。原始代码可以在这里找到。

优化Bark

Bark 可以通过添加几行额外的代码进行优化，这显著减少了其内存占用并加速了推理。

使用半精度

您可以通过以半精度加载模型来加速推理并减少50%的内存占用。

from transformers import BarkModel
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"
model = BarkModel.from_pretrained("suno/bark-small", torch_dtype=torch.float16).to(device)

使用CPU卸载

如上所述，Bark由4个子模型组成，这些子模型在音频生成过程中依次调用。换句话说，当一个子模型在使用时，其他子模型处于空闲状态。

如果您使用的是CUDA设备，一个简单的解决方案是在子模型空闲时将它们从GPU卸载到CPU，这样可以减少80%的内存占用。此操作称为CPU卸载。您可以使用以下一行代码来实现：

model.enable_cpu_offload()

请注意，在使用此功能之前必须安装🤗 Accelerate。Here’s how to install it.

使用更好的变压器

Better Transformer 是 🤗 Optimum 的一个功能，它在底层执行内核融合。你可以在不降低性能的情况下获得 20% 到 30% 的速度提升。只需一行代码即可将模型导出到 🤗 Better Transformer：

model =  model.to_bettertransformer()

请注意，在使用此功能之前必须安装🤗 Optimum。这里是安装方法。

使用 Flash Attention 2

Flash Attention 2 是之前优化版本的更快、更优化的版本。

安装

首先，检查您的硬件是否与Flash Attention 2兼容。最新的兼容硬件列表可以在官方文档中找到。如果您的硬件不兼容Flash Attention 2，您仍然可以通过上述介绍的Better Transformer支持从注意力内核优化中受益。

接下来，安装最新版本的Flash Attention 2：

pip install -U flash-attn --no-build-isolation

用法

要使用Flash Attention 2加载模型，我们可以将attn_implementation="flash_attention_2"标志传递给.from_pretrained。我们还将以半精度（例如torch.float16）加载模型，因为这样几乎不会降低音频质量，但会显著减少内存使用并加快推理速度：

model = BarkModel.from_pretrained("suno/bark-small", torch_dtype=torch.float16, attn_implementation="flash_attention_2").to(device)

性能比较

下图展示了原生注意力实现（无优化）与Better Transformer和Flash Attention 2的延迟对比。在所有情况下，我们使用PyTorch 2.1在40GB A100 GPU上生成400个语义标记。Flash Attention 2始终比Better Transformer更快，并且随着批量大小的增加，其性能进一步提升：

为了更直观地理解这一点，在NVIDIA A100上，当批量大小为16生成400个语义标记时，你可以获得17倍的吞吐量，并且仍然比使用原生模型实现逐句生成快2秒。换句话说，所有样本的生成速度将提高17倍。

在NVIDIA A100上，当批量大小为8时，Flash Attention 2比Better Transformer快10%，当批量大小为16时，快25%。

结合优化技术

你可以结合优化技术，同时使用CPU卸载、半精度和Flash Attention 2（或🤗 Better Transformer）。

from transformers import BarkModel
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"

# load in fp16 and use Flash Attention 2
model = BarkModel.from_pretrained("suno/bark-small", torch_dtype=torch.float16, attn_implementation="flash_attention_2").to(device)

# enable CPU offload
model.enable_cpu_offload()

了解更多关于推理优化技术的信息这里。

使用提示

Suno 提供了多种语言的语音预设库这里。这些预设也上传到了中心这里或这里。

>>> from transformers import AutoProcessor, BarkModel

>>> processor = AutoProcessor.from_pretrained("suno/bark")
>>> model = BarkModel.from_pretrained("suno/bark")

>>> voice_preset = "v2/en_speaker_6"

>>> inputs = processor("Hello, my dog is cute", voice_preset=voice_preset)

>>> audio_array = model.generate(**inputs)
>>> audio_array = audio_array.cpu().numpy().squeeze()

Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。

>>> # Multilingual speech - simplified Chinese
>>> inputs = processor("惊人的！我会说中文")

>>> # Multilingual speech - French - let's use a voice_preset as well
>>> inputs = processor("Incroyable! Je peux générer du son.", voice_preset="fr_speaker_5")

>>> # Bark can also generate music. You can help it out by adding music notes around your lyrics.
>>> inputs = processor("♪ Hello, my dog is cute ♪")

>>> audio_array = model.generate(**inputs)
>>> audio_array = audio_array.cpu().numpy().squeeze()

该模型还可以产生非语言交流，如笑、叹息和哭泣。

>>> # Adding non-speech cues to the input text
>>> inputs = processor("Hello uh ... [clears throat], my dog is cute [laughter]")

>>> audio_array = model.generate(**inputs)
>>> audio_array = audio_array.cpu().numpy().squeeze()

要保存音频，只需从模型配置中获取采样率并使用一些scipy工具：

>>> from scipy.io.wavfile import write as write_wav

>>> # save audio to disk, but first take the sample rate from the model config
>>> sample_rate = model.generation_config.sample_rate
>>> write_wav("bark_generation.wav", sample_rate, audio_array)

Transformers

Bark

概述

优化Bark

使用半精度

使用CPU卸载

使用更好的变压器

使用 Flash Attention 2

安装

用法

性能比较

结合优化技术

使用提示

BarkConfig

类 transformers.BarkConfig

from_sub_model_configs

BarkProcessor

类 transformers.BarkProcessor

__call__

from_pretrained

save_pretrained

BarkModel

类 transformers.BarkModel

生成

enable_cpu_offload

BarkSemanticModel

class transformers.BarkSemanticModel

前进

BarkCoarseModel

类 transformers.BarkCoarseModel

前进

BarkFineModel

类 transformers.BarkFineModel

前进

BarkCausalModel

类 transformers.BarkCausalModel

前进

BarkCoarseConfig

类 transformers.BarkCoarseConfig

BarkFineConfig

类 transformers.BarkFineConfig

BarkSemanticConfig

类 transformers.BarkSemanticConfig

call