Transformers

Graphormer

该模型目前处于维护模式，我们不接受任何更改其代码的新PR。如果您在运行此模型时遇到任何问题，请重新安装支持此模型的最后一个版本：v4.40.2。您可以通过运行以下命令来执行此操作：pip install -U transformers==4.40.2。

概述

Graphormer模型是由Chengxuan Ying、Tianle Cai、Shengjie Luo、Shuxin Zheng、Guolin Ke、Di He、Yanming Shen和Tie-Yan Liu在Do Transformers Really Perform Bad for Graph Representation?中提出的。它是一个Graph Transformer模型，经过修改以允许在图上进行计算，而不是文本序列，通过在预处理和整理期间生成嵌入和感兴趣的特征，然后使用修改后的注意力机制。

论文的摘要如下：

Transformer架构在许多领域，如自然语言处理和计算机视觉中，已成为主导选择。然而，与主流的GNN变体相比，它在图级别预测的流行排行榜上尚未取得有竞争力的表现。因此，Transformer如何在图表示学习中表现良好仍然是一个谜。在本文中，我们通过介绍Graphormer来解决这个谜团，它建立在标准Transformer架构之上，并且可以在广泛的图表示学习任务中取得优异的结果，特别是在最近的OGB大规模挑战中。我们在图中利用Transformer的关键见解是有效地将图的结构信息编码到模型中的必要性。为此，我们提出了几种简单但有效的结构编码方法，以帮助Graphormer更好地建模图结构数据。此外，我们从数学上描述了Graphormer的表达能力，并展示了通过我们编码图结构信息的方式，许多流行的GNN变体可以作为Graphormer的特殊情况被涵盖。

该模型由clefourrier贡献。原始代码可以在这里找到。

使用提示

该模型在大型图（超过100个节点/边）上效果不佳，因为它会导致内存爆炸。你可以减少批量大小，增加你的RAM，或者在algos_graphormer.pyx中减少UNREACHABLE_NODE_DISTANCE参数，但很难超过700个节点/边。

该模型在训练期间不使用分词器，而是使用一个特殊的整理器。

GraphormerConfig

class transformers.GraphormerConfig

< source >

( num_classes: int = 1 num_atoms: int = 4608 num_edges: int = 1536 num_in_degree: int = 512 num_out_degree: int = 512 num_spatial: int = 512 num_edge_dis: int = 128 multi_hop_max_dist: int = 5 spatial_pos_max: int = 1024 edge_type: str = 'multi_hop' max_nodes: int = 512 share_input_output_embed: bool = False num_hidden_layers: int = 12 embedding_dim: int = 768 ffn_embedding_dim: int = 768 num_attention_heads: int = 32 dropout: float = 0.1 attention_dropout: float = 0.1 activation_dropout: float = 0.1 layerdrop: float = 0.0 encoder_normalize_before: bool = False pre_layernorm: bool = False apply_graphormer_init: bool = False activation_fn: str = 'gelu' embed_scale: float = None freeze_embeddings: bool = False num_trans_layers_to_freeze: int = 0 traceable: bool = False q_noise: float = 0.0 qn_block_size: int = 8 kdim: int = None vdim: int = None bias: bool = True self_attention: bool = True pad_token_id = 0 bos_token_id = 1 eos_token_id = 2 **kwargs )

参数

num_classes (int, 可选, 默认为 1) — 目标类别或标签的数量，对于 n 个任务的二分类设置为 n。
num_atoms (int, optional, defaults to 512*9) — 图中的节点类型数量。
num_edges (int, optional, 默认为 512*3) — 图中边的类型的数量。
num_in_degree (int, optional, 默认为 512) — 输入图中入度类型的数量。
num_out_degree (int, optional, defaults to 512) — 输入图中出度类型的数量。
num_edge_dis (int, optional, defaults to 128) — 输入图中的边数。
multi_hop_max_dist (int, 可选, 默认值为 20) — 两个节点之间多跳边的最大距离。
spatial_pos_max (int, optional, 默认为 1024) — 图中节点在注意力偏置矩阵中的最大距离，用于预处理和整理阶段。
edge_type (str, optional, defaults to multihop) — 选择的边关系类型。
max_nodes (int, 可选, 默认为 512) — 输入图可以解析的最大节点数。
share_input_output_embed (bool, 可选, 默认为 False) — 在编码器和解码器之间共享嵌入层 - 注意，True 尚未实现。
num_layers (int, optional, defaults to 12) — 层数.
embedding_dim (int, optional, defaults to 768) — 编码器中嵌入层的维度。
ffn_embedding_dim (int, optional, defaults to 768) — 编码器中“中间”（通常称为前馈）层的维度。
num_attention_heads (int, 可选, 默认为 32) — 编码器中的注意力头数量。
self_attention (bool, 可选, 默认为 True) — 模型是自注意的（False 未实现）。
activation_function (str 或 function, 可选, 默认为 "gelu") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果是字符串，支持 "gelu"、 "relu"、"silu" 和 "gelu_new"。
dropout (float, optional, defaults to 0.1) — 嵌入层、编码器和池化器中所有全连接层的dropout概率。
attention_dropout (float, optional, 默认为 0.1) — 注意力权重的丢弃概率。
activation_dropout (float, optional, defaults to 0.1) — 线性变换层激活的dropout概率。
layerdrop (float, 可选, 默认为 0.0) — 编码器的LayerDrop概率。更多详情请参阅[LayerDrop论文](see https://arxiv.org/abs/1909.11556)
bias (bool, optional, defaults to True) — 在注意力模块中使用偏置 - 目前不支持。
embed_scale(float, 可选, 默认为 None) — 节点嵌入的缩放因子。
num_trans_layers_to_freeze (int, optional, defaults to 0) — 要冻结的变压器层数。
encoder_normalize_before (bool, optional, defaults to False) — 在编码图之前对特征进行归一化。
pre_layernorm (bool, 可选, 默认为 False) — 在自注意力和前馈网络之前应用层归一化。如果不使用此选项，将使用后层归一化。
apply_graphormer_init (bool, 可选, 默认为 False) — 在训练前对模型应用自定义的graphormer初始化。
freeze_embeddings (bool, optional, defaults to False) — 冻结嵌入层，或与模型一起训练它。
encoder_normalize_before (bool, optional, defaults to False) — 在每个编码器块之前应用层归一化。
q_noise (float, optional, defaults to 0.0) — 量化噪声的量（参见“使用量化噪声进行极端模型压缩的训练”）。（更多详情，请参阅fairseq的quant_noise文档）。
qn_block_size (int, optional, defaults to 8) — 用于后续使用iPQ进行量化的块大小（参见q_noise）。
kdim (int, optional, 默认为 None) — 注意力机制中键的维度，如果与其他值不同。
vdim (int, optional, defaults to None) — 注意力机制中值的维度，如果与其他值不同。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。
traceable (bool, 可选, 默认为 False) — 将编码器的内部状态返回值更改为堆叠的张量。
示例 —

这是用于存储~GraphormerModel配置的配置类。它用于根据指定的参数实例化一个Graphormer模型，定义模型架构。使用默认值实例化配置将产生与Graphormer graphormer-base-pcqm4mv1架构类似的配置。

配置对象继承自PretrainedConfig，可用于控制模型输出。阅读PretrainedConfig的文档以获取更多信息。

GraphormerModel

类 transformers.GraphormerModel

< source >

( config: GraphormerConfig )

Graphormer模型是一种图编码器模型。

它从图到其表示。如果你想将模型用于下游分类任务，请使用GraphormerForGraphClassification。对于任何其他下游任务，可以自由添加一个新类，或者按照GraphormerForGraphClassification中的示例将此模型与你选择的下游模型结合使用。

前进

< source >

( input_nodes: LongTensor input_edges: LongTensor attn_bias: Tensor in_degree: LongTensor out_degree: LongTensor spatial_pos: LongTensor attn_edge_type: LongTensor perturb: typing.Optional[torch.FloatTensor] = None masked_tokens: None = None return_dict: typing.Optional[bool] = None **unused )

GraphormerForGraphClassification

类 transformers.GraphormerForGraphClassification

< source >

( config: GraphormerConfig )

该模型可用于图级别的分类或回归任务。

它可以在

回归（通过将 config.num_classes 设置为 1）；每个图应该有一个浮点类型的标签
单任务分类（通过设置config.num_classes为类别数量）；每个图应有一个整数标签
二元多任务分类（通过将config.num_classes设置为标签数量）；每个图应该有一个整数标签列表。

前进

< source >

( input_nodes: LongTensor input_edges: LongTensor attn_bias: Tensor in_degree: LongTensor out_degree: LongTensor spatial_pos: LongTensor attn_edge_type: LongTensor labels: typing.Optional[torch.LongTensor] = None return_dict: typing.Optional[bool] = None **unused )

< > Update on GitHub

←Time Series Transformer Custom Layers and Utilities→