Transformers

点唱机

该模型目前处于维护模式，我们不接受任何更改其代码的新PR。如果您在运行此模型时遇到任何问题，请重新安装支持此模型的最后一个版本：v4.40.2。您可以通过运行以下命令来执行此操作：pip install -U transformers==4.40.2。

概述

Jukebox模型由Prafulla Dhariwal、Heewoo Jun、Christine Payne、Jong Wook Kim、Alec Radford和Ilya Sutskever在Jukebox: A generative model for music中提出。它引入了一种生成音乐模型，可以生成长达一分钟的样本，并且可以根据艺术家、流派和歌词进行条件生成。

论文的摘要如下：

我们介绍了Jukebox，这是一个在原始音频领域生成带有歌唱的音乐的模型。我们使用多尺度VQ-VAE来处理原始音频的长上下文，将其压缩为离散代码，并使用自回归Transformer对这些代码进行建模。我们展示了大规模的组合模型可以生成高保真且多样化的歌曲，其连贯性可达数分钟。我们可以根据艺术家和流派来引导音乐和声乐风格，并根据未对齐的歌词使歌唱更加可控。我们正在发布数千个未经挑选的样本，以及模型权重和代码。

如下图所示，Jukebox由3个priors组成，这些是仅解码器模型。它们遵循Generating Long Sequences with Sparse Transformers中描述的架构，并进行了修改以支持更长的上下文长度。首先，使用自动编码器对歌词文本进行编码。接下来，第一个（也称为top_prior）prior会关注从歌词编码器提取的最后隐藏状态。priors通过AudioConditioner模块分别与前一个priors连接。AudioConditioner将前一个prior的输出上采样为每秒音频帧分辨率的原始标记。元数据如艺术家、流派和时间以起始标记和时间数据的位置嵌入形式传递给每个prior。隐藏状态被映射到VQVAE中最接近的码本向量，以便将它们转换为原始音频。

JukeboxModel

该模型由Arthur Zucker贡献。原始代码可以在这里找到。

使用提示

该模型仅支持推理。这有几个原因，主要是因为它需要大量的内存来进行训练。欢迎提交PR并添加缺失的内容，以实现与hugging face trainer的完整集成！
这个模型非常慢，使用V100 GPU上的5b顶级先验生成一分钟长的音频需要8小时。为了自动处理模型应执行的设备，请使用accelerate。
与论文相反，先验的顺序从0到1，因为这感觉更直观：我们从0开始采样。
原始采样（基于原始音频进行采样）比祖先采样需要更多的内存，并且应在fp16设置为True时使用。

该模型由Arthur Zucker贡献。原始代码可以在这里找到。

Transformers

点唱机

概述

使用提示

JukeboxConfig

类 transformers.JukeboxConfig

from_configs

JukeboxPriorConfig

类 transformers.JukeboxPriorConfig

JukeboxVQVAEConfig

类 transformers.JukeboxVQVAEConfig

JukeboxTokenizer

类 transformers.JukeboxTokenizer

保存词汇表

JukeboxModel

类 transformers.JukeboxModel

祖先样本

primed_sample

continue_sample

上采样

_sample

JukeboxPrior

类 transformers.JukeboxPrior

样本

前进

JukeboxVQVAE

类 transformers.JukeboxVQVAE

前进

编码

解码