Transformers 文档

GPT-NeoX-日语

Transformers

GPT-NeoX-日语

概述

我们介绍了GPT-NeoX-Japanese，这是一个针对日语的自动回归语言模型，基于https://github.com/EleutherAI/gpt-neox进行训练。日语是一种独特的语言，拥有大量的词汇以及平假名、片假名和汉字的组合书写系统。为了解决日语这种独特的结构，我们使用了特殊的子词分词器。我们非常感谢tanreinama开源了这个非常有用的分词器。根据Google关于PaLM的研究建议，我们从变压器块中移除了偏差参数，从而实现了更好的模型性能。请参阅这篇文章以获取详细信息。

该模型的开发由Shinya Otani、Takayoshi Makabe、Anuj Arora和Kyo Hattori来自ABEJA, Inc.领导。有关此模型构建活动的更多信息，请参考这里 (ja)。

使用示例

generate() 方法可用于使用 GPT NeoX 日语模型生成文本。

>>> from transformers import GPTNeoXJapaneseForCausalLM, GPTNeoXJapaneseTokenizer

>>> model = GPTNeoXJapaneseForCausalLM.from_pretrained("abeja/gpt-neox-japanese-2.7b")
>>> tokenizer = GPTNeoXJapaneseTokenizer.from_pretrained("abeja/gpt-neox-japanese-2.7b")

>>> prompt = "人とAIが協調するためには、"

>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids

>>> gen_tokens = model.generate(
...     input_ids,
...     do_sample=True,
...     temperature=0.9,
...     max_length=100,
... )
>>> gen_text = tokenizer.batch_decode(gen_tokens, skip_special_tokens=True)[0]

>>> print(gen_text)
人とAIが協調するためには、AIと人が共存し、AIを正しく理解する必要があります。

资源

因果语言建模任务指南

GPTNeoXJapaneseConfig

类 transformers.GPTNeoXJapaneseConfig

< source >

( 词汇大小 = 32000 隐藏大小 = 2560 隐藏层数 = 32 注意力头数 = 32 中间倍数大小 = 4 隐藏激活函数 = 'gelu' 旋转百分比 = 1.0 旋转嵌入基数 = 10000 最大位置嵌入 = 2048 初始化范围 = 0.02 层归一化epsilon = 1e-05 使用缓存 = True 开始标记ID = 31996 结束标记ID = 31999 rope缩放 = None 注意力丢弃率 = 0.1 隐藏丢弃率 = 0.0 **kwargs )

参数

vocab_size (int, 可选, 默认为 32000) — GPTNeoXJapanese 模型的词汇量大小。定义了调用 GPTNeoXJapanese 时传递的 inputs_ids 可以表示的不同标记的数量。
hidden_size (int, optional, 默认为 2560) — 编码器层和池化层的维度。
num_hidden_layers (int, 可选, 默认为 32) — Transformer 编码器中的隐藏层数。
num_attention_heads (int, optional, defaults to 32) — Transformer编码器中每个注意力层的注意力头数。
intermediate_multiple_size (int, 可选, 默认为 4) — Transformer编码器中“中间”层的维度通过 hidden_size * intermediate_multiple_size 计算得出。
hidden_act (str 或 function, 可选, 默认为 "gelu") — 编码器和池化器中的非线性激活函数（函数或字符串）。
rotary_pct (float, optional, defaults to 1.00) — 分配给旋转嵌入的隐藏维度百分比
rotary_emb_base (int, optional, defaults to 10000) — 用于计算旋转嵌入频率的基础值
max_position_embeddings (int, optional, 默认为 2048) — 此模型可能使用的最大序列长度。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
layer_norm_eps (float, optional, defaults to 1e-5) — 层归一化层使用的epsilon值。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。仅在 config.is_decoder=True 时相关。
rope_scaling (Dict, optional) — Dictionary containing the scaling configuration for the RoPE embeddings. NOTE: if you apply new rope type and you expect the model to work on longer max_position_embeddings, we recommend you to update this value accordingly. Expected contents: rope_type (str): The sub-variant of RoPE to use. Can be one of [‘default’, ‘linear’, ‘dynamic’, ‘yarn’, ‘longrope’, ‘llama3’], with ‘default’ being the original RoPE implementation. factor (float, optional): Used with all rope types except ‘default’. The scaling factor to apply to the RoPE embeddings. In most scaling types, a factor of x will enable the model to handle sequences of length x original maximum pre-trained length. original_max_position_embeddings (int, optional): Used with ‘dynamic’, ‘longrope’ and ‘llama3’. The original max position embeddings used during pretraining. attention_factor (float, optional): Used with ‘yarn’ and ‘longrope’. The scaling factor to be applied on the attention computation. If unspecified, it defaults to value recommended by the implementation, using the factor field to infer the suggested value. beta_fast (float, optional): Only used with ‘yarn’. Parameter to set the boundary for extrapolation (only) in the linear ramp function. If unspecified, it defaults to 32. beta_slow (float, optional): Only used with ‘yarn’. Parameter to set the boundary for interpolation (only) in the linear ramp function. If unspecified, it defaults to 1. short_factor (List[float], optional): Only used with ‘longrope’. The scaling factor to be applied to short contexts (< original_max_position_embeddings). Must be a list of numbers with the same length as the hidden size divided by the number of attention heads divided by 2 long_factor (List[float], optional): Only used with ‘longrope’. The scaling factor to be applied to long contexts (< original_max_position_embeddings). Must be a list of numbers with the same length as the hidden size divided by the number of attention heads divided by 2 low_freq_factor (float, optional): Only used with ‘llama3’. Scaling factor applied to low frequency components of the RoPE high_freq_factor (float, optional*): Only used with ‘llama3’. Scaling factor applied to high frequency components of the RoPE
attention_dropout (float, optional, 默认为 0.1) — 注意力的丢弃比例。
hidden_dropout (float, optional, defaults to 0.0) — 隐藏层的丢弃比例。
示例 —

这是用于存储GPTNeoXModelJapanese配置的配置类。它用于根据指定的参数实例化GPTNeoX模型，定义模型架构。使用默认值实例化配置将产生与GPTNeoXJapanese abeja/gpt-neox-japanese-2.7b 架构类似的配置。

配置对象继承自PretrainedConfig，可用于控制模型输出。更多信息请阅读PretrainedConfig的文档。默认配置设置为2.7B模型

>>> from transformers import GPTNeoXJapaneseConfig, GPTNeoXJapaneseModel

>>> # Initializing a GPTNeoXJapanese gpt-neox-japanese-2.7b style configuration
>>> configuration = GPTNeoXJapaneseConfig()

>>> # Initializing a model (with random weights) from the gpt-neox-japanese-2.7b style configuration
>>> model = GPTNeoXJapaneseModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

GPTNeoXJapaneseTokenizer

类 transformers.GPTNeoXJapaneseTokenizer

< source >

参数

vocab_file (str) — 包含词汇表的文件。
emoji_file (str) — 包含表情符号的文件。
unk_token (str, optional, defaults to "<|endoftext|>") — 未知的标记。不在词汇表中的标记无法转换为ID，而是设置为这个标记。
pad_token (str, optional, defaults to "<|endoftext|>") — 用于填充的标记
bos_token (str, optional, defaults to "<|startoftext|>") — 序列的开始标记。
eos_token (str, 可选, 默认为 "<|endoftext|>") — 序列结束标记。
do_clean_text (bool, 可选, 默认为 False) — 是否清理文本中的URL、EMAIL、TEL、日语日期和日语价格。

此分词器继承自 PreTrainedTokenizer，并基于此仓库中使用的日语特殊子词编码（https://github.com/tanreinama/Japanese-BPEEncoder_V2）。详情请查看该仓库。日语拥有相对较大的词汇量，且单词之间没有分隔。此外，该语言是平假名、片假名和汉字的组合，并且经常使用诸如“1”和“①”等变体。为了应对这些情况，此分词器具有以下特点

子词逐字分割，介于字节字符串和形态分析之间。
为每个汉字、平假名和片假名字符创建BPE，并且没有跨越字符类型的BPE，例如汉字+平假名或平假名+片假名。
全字节编码，不需要。
独立于UTF代码，如2字节和3字节字符
将异形词转换为相同的token_id
表情符号和表情被分为12种类型作为特殊标签。

示例：

>>> from transformers import GPTNeoXJapaneseTokenizer

>>> tokenizer = GPTNeoXJapaneseTokenizer.from_pretrained("abeja/gpt-neox-japanese-2.7b")
>>> # You can confirm both 慶応 and 慶應 are encoded to 17749
>>> tokenizer("吾輩は猫である🐯。実は慶応(慶應)大学出身")["input_ids"]
[30014, 26883, 26638, 27228, 25, 26650, 31732, 31679, 27809, 26638, 17749, 31592, 17749, 31593, 321, 1281]

>>> # Both 慶応 and 慶應 are decoded to 慶応
>>> tokenizer.decode(tokenizer("吾輩は猫である🐯。実は慶応(慶應)大学出身")["input_ids"])
'吾輩は猫である🐯。実は慶応(慶応)大学出身'

convert_tokens_to_string

< source >

( tokens )

将一系列标记（字符串）转换为单个字符串。

GPTNeoXJapaneseModel

类 transformers.GPTNeoXJapaneseModel

< source >

( config )

参数

config (~GPTNeoXJapaneseConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained() 方法以加载模型权重。

裸的GPTNeoXJapanese模型转换器，输出原始隐藏状态，没有任何特定的头部。此模型是PyTorch torch.nn.Module的子类。将其用作常规的PyTorch模块，并参考PyTorch文档以获取与一般使用和行为相关的所有信息。

前进

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, typing.Tuple[typing.Tuple[torch.FloatTensor]], NoneType] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — Indices of input sequence tokens in the vocabulary.
可以使用AutoTokenizer获取索引。
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 用于避免对填充标记索引执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 表示 未掩码 的标记，
- 0 表示掩码的标记。
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 用于指示输入的第一部分和第二部分的段标记索引。索引在 [0, 1] 中选择：
- 0 对应于 句子 A 的标记，
- 1 对应于 句子 B 的标记。
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围在 [0, config.max_position_embeddings - 1] 之间。
head_mask (torch.FloatTensor 形状为 (num_heads,) 或 (num_layers, num_heads), 可选) — 用于屏蔽自注意力模块中选定的头部的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头部 未被屏蔽,
- 0 表示头部 被屏蔽.
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您希望对如何将input_ids索引转换为相关向量有更多控制，而不是使用模型的内部嵌入查找矩阵，这将非常有用。
past_key_values (Cache or tuple(tuple(torch.FloatTensor)), optional) — Pre-computed hidden-states (key and values in the self-attention blocks and in the cross-attention blocks) that can be used to speed up sequential decoding. This typically consists in the past_key_values returned by the model at a previous stage of decoding, when use_cache=True or config.use_cache=True.
允许两种格式：
- a Cache instance;
- Tuple of tuple(torch.FloatTensor) of length config.n_layers, with each tuple having 2 tensors of shape (batch_size, num_heads, sequence_length, embed_size_per_head)). This is also known as the legacy cache format.
模型将输出与输入相同的缓存格式。如果没有传递past_key_values，将返回旧的缓存格式。

如果使用了past_key_values，用户可以选择只输入形状为(batch_size, 1)的最后input_ids（那些没有将其过去键值状态提供给此模型的input_ids），而不是形状为(batch_size, sequence_length)的所有input_ids。
use_cache (bool, 可选) — 如果设置为 True，past_key_values 键值状态将被返回，并可用于加速解码（参见 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
cache_position (torch.LongTensor of shape (sequence_length), optional) — 表示输入序列标记在序列中的位置的索引。与position_ids相反，这个张量不受填充的影响。它用于在正确的位置更新缓存并推断完整的序列长度。

transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPast 或一个由 torch.FloatTensor 组成的元组（如果传递了 return_dict=False 或当 config.return_dict=False 时），包含各种元素，取决于配置（GPTNeoXJapaneseConfig）和输入。

last_hidden_state (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。

如果使用了 past_key_values，则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。
past_key_values (tuple(tuple(torch.FloatTensor)), 可选, 当传递了 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量，并且如果 config.is_encoder_decoder=True，则还包含 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的额外张量。

包含预先计算的隐藏状态（自注意力块中的键和值，并且如果 config.is_encoder_decoder=True，则还包含交叉注意力块中的键和值），可以用于（参见 past_key_values 输入）加速顺序解码。
hidden_states (tuple(torch.FloatTensor), 可选, 当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 由 torch.FloatTensor 组成的元组（一个用于嵌入层的输出，如果模型有嵌入层，+ 一个用于每一层的输出）形状为 (batch_size, sequence_length, hidden_size)。

模型在每一层输出处的隐藏状态加上可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — 由 torch.FloatTensor 组成的元组（每一层一个）形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力权重在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

GPTNeoXJapaneseModel 的 forward 方法，重写了 __call__ 特殊方法。

尽管前向传递的配方需要在此函数内定义，但之后应该调用Module实例而不是这个，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, GPTNeoXJapaneseModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("abeja/gpt-neox-japanese-2.7b")
>>> model = GPTNeoXJapaneseModel.from_pretrained("abeja/gpt-neox-japanese-2.7b")

>>> inputs = tokenizer("日本語のGPT-neoxがHugging Faceで使えます😀", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

GPTNeoXJapaneseForCausalLM

类 transformers.GPTNeoXJapaneseForCausalLM

< source >

( config )

参数

config (~GPTNeoXJapaneseConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained() 方法以加载模型权重。

GPTNeoXJapanese 模型，顶部带有语言建模头，用于分类器模型的微调。该模型是 PyTorch torch.nn.Module 的子类。将其作为常规的 PyTorch 模块使用，并参考 PyTorch 文档以获取与一般使用和行为相关的所有信息。

前进

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None position_ids: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Union[transformers.cache_utils.Cache, typing.Tuple[typing.Tuple[torch.FloatTensor]], NoneType] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — Indices of input sequence tokens in the vocabulary.
可以使用AutoTokenizer获取索引。
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 表示未被掩码的标记，
- 0 表示被掩码的标记。
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 用于指示输入的第一部分和第二部分的段标记索引。索引在 [0, 1] 中选择：
- 0 对应于 句子 A 的标记，
- 1 对应于 句子 B 的标记。
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围在 [0, config.max_position_embeddings - 1] 之间。
head_mask (torch.FloatTensor 形状为 (num_heads,) 或 (num_layers, num_heads), 可选) — 用于屏蔽自注意力模块中选定的头部的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头部 未被屏蔽,
- 0 表示头部 被屏蔽.
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您希望对如何将input_ids索引转换为相关向量有更多控制，而不是使用模型的内部嵌入查找矩阵，这将非常有用。
past_key_values (Cache or tuple(tuple(torch.FloatTensor)), optional) — Pre-computed hidden-states (key and values in the self-attention blocks and in the cross-attention blocks) that can be used to speed up sequential decoding. This typically consists in the past_key_values returned by the model at a previous stage of decoding, when use_cache=True or config.use_cache=True.
允许两种格式：
- a Cache instance;
- Tuple of tuple(torch.FloatTensor) of length config.n_layers, with each tuple having 2 tensors of shape (batch_size, num_heads, sequence_length, embed_size_per_head)). This is also known as the legacy cache format.
模型将输出与输入相同的缓存格式。如果没有传递past_key_values，将返回旧的缓存格式。

如果使用了past_key_values，用户可以选择只输入形状为(batch_size, 1)的最后input_ids（那些没有将其过去键值状态提供给此模型的input_ids），而不是形状为(batch_size, sequence_length)的所有input_ids。
use_cache (bool, 可选) — 如果设置为 True，past_key_values 键值状态将被返回，并可用于加速解码（参见 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量中的attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict (bool, 可选) — 是否返回一个ModelOutput而不是一个普通的元组。
cache_position (torch.LongTensor of shape (sequence_length), optional) — 表示输入序列标记在序列中的位置的索引。与position_ids相反，这个张量不受填充的影响。它用于在正确的位置更新缓存并推断完整的序列长度。
labels (torch.LongTensor of shape (batch_size, sequence_length), optional) — 用于计算从左到右语言建模损失（下一个词预测）的标签。索引应在 [-100, 0, ..., config.vocab_size] 范围内（参见 input_ids 文档字符串）。索引设置为 -100 的标记将被忽略（掩码），损失仅针对标签在 [0, ..., config.vocab_size] 范围内的标记计算。

transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.CausalLMOutputWithPast 或一个由 torch.FloatTensor 组成的元组（如果传递了 return_dict=False 或当 config.return_dict=False 时），包含各种元素，具体取决于配置（GPTNeoXJapaneseConfig）和输入。

loss (torch.FloatTensor 形状为 (1,)，可选，当提供 labels 时返回) — 语言建模损失（用于下一个标记预测）。
logits (torch.FloatTensor 形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
past_key_values (tuple(tuple(torch.FloatTensor))，可选，当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量）

包含预先计算的隐藏状态（自注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（一个用于嵌入层的输出，如果模型有嵌入层，+ 一个用于每层的输出）形状为 (batch_size, sequence_length, hidden_size)。

模型在每层输出处的隐藏状态加上可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每层一个）形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

GPTNeoXJapaneseForCausalLM 的前向方法，重写了 __call__ 特殊方法。

尽管前向传递的配方需要在此函数内定义，但之后应该调用Module实例而不是这个，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, GPTNeoXJapaneseForCausalLM, GPTNeoXJapaneseConfig
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("abeja/gpt-neox-japanese-2.7b")
>>> config = GPTNeoXJapaneseConfig.from_pretrained("abeja/gpt-neox-japanese-2.7b")
>>> config.is_decoder = True
>>> model = GPTNeoXJapaneseForCausalLM.from_pretrained("abeja/gpt-neox-japanese-2.7b", config=config)

>>> inputs = tokenizer("日本語のGPT-neoxがHugging Faceで使えます😀", return_tensors="pt")
>>> outputs = model(**inputs)

>>> prediction_logits = outputs.logits

< > Update on GitHub

←GPT NeoX GPT-J→