代码示例 / 图数据 / 图表示学习与 node2vec

图表示学习与 node2vec

作者: Khalid Salama
创建日期: 2021/05/15
最后修改: 2021/05/15
描述: 实现 node2vec 模型以生成来自 MovieLens 数据集的电影嵌入。

在 Colab 中查看 GitHub 源代码


介绍

从结构为图的对象中学习有用的表示对于各种机器学习(ML)应用都是有益的,例如社交和通信网络分析、生物医学研究和推荐系统。图表示学习旨在学习图节点的嵌入,这些嵌入可以用于各种 ML 任务,例如节点标签预测(例如,根据引用对文章进行分类)和链接预测(例如,在社交网络中向用户推荐兴趣小组)。

node2vec是一种简单但可扩展且有效的技术,通过优化保持邻域的目标,为图中的节点学习低维嵌入。其目的是为相邻节点学习相似的嵌入,与图结构相关。

给定你的数据项结构为图(通过节点表示项目,通过边表示项目之间的关系),node2vec 的工作流程如下:

  1. 使用(带偏差的)随机游走生成项目序列。
  2. 从这些序列中创建正负训练样本。
  3. 训练一个 word2vec 模型(skip-gram)以学习项目的嵌入。

在这个示例中,我们在Movielens 数据集的小版本上演示了 node2vec 技术,以学习电影嵌入。这种数据集可以通过将电影视为节点,并在用户给出相似评分的电影之间创建边来表示为图。学习的电影嵌入可以用于如电影推荐或电影类型预测等任务。

这个示例需要 networkx 包,可以使用以下命令安装:

pip install networkx

设置

import os
from collections import defaultdict
import math
import networkx as nx
import random
from tqdm import tqdm
from zipfile import ZipFile
from urllib.request import urlretrieve
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import matplotlib.pyplot as plt

下载 MovieLens 数据集并准备数据

MovieLens 数据集的小版本包含来自 610 位用户对 9,742 部电影的约 100k 评分。

首先,让我们下载数据集。下载的文件夹将包含三个数据文件:users.csvmovies.csvratings.csv。在这个示例中,我们只需要 movies.datratings.dat 数据文件。

urlretrieve(
    "http://files.grouplens.org/datasets/movielens/ml-latest-small.zip", "movielens.zip"
)
ZipFile("movielens.zip", "r").extractall()

然后,我们将数据加载到 Pandas DataFrame 中并进行一些基本的预处理。

# 将电影加载到 DataFrame 中。
movies = pd.read_csv("ml-latest-small/movies.csv")
# 创建一个 `movieId` 字符串。
movies["movieId"] = movies["movieId"].apply(lambda x: f"movie_{x}")

# 将评分加载到 DataFrame 中。
ratings = pd.read_csv("ml-latest-small/ratings.csv")
# 将 `ratings` 转换为浮点数
ratings["rating"] = ratings["rating"].apply(lambda x: float(x))
# 创建 `movie_id` 字符串。
ratings["movieId"] = ratings["movieId"].apply(lambda x: f"movie_{x}")

print("Movies data shape:", movies.shape)
print("Ratings data shape:", ratings.shape)
影片数据形状: (9742, 3)
评分数据形状: (100836, 4)

让我们查看 ratings DataFrame 的示例实例。

ratings.head()
userId movieId rating timestamp
0 1 电影_1 4.0 964982703
1 1 电影_3 4.0 964981247
2 1 电影_6 4.0 964982224
3 1 电影_47 5.0 964983815
4 1 电影_50 5.0 964982931

接下来,让我们检查一下movies DataFrame的示例实例。

movies.head()
电影ID 标题 类型
0 电影_1 玩具总动员 (1995) 冒险|动画|儿童|喜剧|奇幻
1 电影_2 夺宝奇兵 (1995) 冒险|儿童|奇幻
2 电影_3 老无所依 (1995) 喜剧|爱情
3 电影_4 静待岁月 (1995) 喜剧|剧情|爱情
4 电影_5 新娘的父亲 (1995) 喜剧

movies DataFrame实现两个工具函数。

def get_movie_title_by_id(movieId):
    return list(movies[movies.movieId == movieId].title)[0]


def get_movie_id_by_title(title):
    return list(movies[movies.title == title].movieId)[0]

构建电影图

如果两个电影节点都被相同用户评分 >= min_rating,我们在图中创建一条边。边的权重将基于两个电影之间的点对点互信息,其计算公式为:log(xy) - log(x) - log(y) + log(D),其中:

  • xy 是有多少用户对电影 x 和电影 y 的评分 >= min_rating
  • x 是有多少用户对电影 x 的评分 >= min_rating
  • y 是有多少用户对电影 y 的评分 >= min_rating
  • D 总评分 >= min_rating 的电影数量。

第一步:创建电影之间的加权边。

min_rating = 5
pair_frequency = defaultdict(int)
item_frequency = defaultdict(int)

# 过滤评分大于或等于 min_rating 的实例。
rated_movies = ratings[ratings.rating >= min_rating]
# 按用户分组实例。
movies_grouped_by_users = list(rated_movies.groupby("userId"))
for group in tqdm(
    movies_grouped_by_users,
    position=0,
    leave=True,
    desc="计算电影评分频率",
):
    # 获取用户评分的电影列表。
    current_movies = list(group[1]["movieId"])

    for i in range(len(current_movies)):
        item_frequency[current_movies[i]] += 1
        for j in range(i + 1, len(current_movies)):
            x = min(current_movies[i], current_movies[j])
            y = max(current_movies[i], current_movies[j])
            pair_frequency[(x, y)] += 1
计算电影评分频率: 100%|███████████████████████████████████████████████████████████████████████████| 573/573 [00:00<00:00, 1049.83it/s]

第二步:使用节点和边创建图

为了减少节点之间的边数,仅在边的权重大于 min_weight 时添加一条边。

min_weight = 10
D = math.log(sum(item_frequency.values()))

# 创建电影无向图。
movies_graph = nx.Graph()
# 添加电影之间的加权边。
# 这会自动将电影节点添加到图中。
for pair in tqdm(
    pair_frequency, position=0, leave=True, desc="创建电影图"
):
    x, y = pair
    xy_frequency = pair_frequency[pair]
    x_frequency = item_frequency[x]
    y_frequency = item_frequency[y]
    pmi = math.log(xy_frequency) - math.log(x_frequency) - math.log(y_frequency) + D
    weight = pmi * xy_frequency
    # 仅包含权重 >= min_weight 的边。
    if weight >= min_weight:
        movies_graph.add_edge(x, y, weight=weight)
创建电影图: 100%|███████████████████████████████████████████████████████████████████████████| 298586/298586 [00:00<00:00, 552893.62it/s]

让我们展示图中节点和边的总数。 注意,节点数量少于电影总数,因为只有与其他电影有边的电影才会被添加。

print("图中节点的总数:", movies_graph.number_of_nodes())
print("图中边的总数:", movies_graph.number_of_edges())
图中节点的总数: 1405
图中边的总数: 40043

让我们展示图中平均节点度(邻居数量)。

degrees = []
for node in movies_graph.nodes:
    degrees.append(movies_graph.degree[node])

print("平均节点度:", round(sum(degrees) / len(degrees), 2))
平均节点度: 57.0

第三步:创建词汇表以及从tokens到整数索引的映射

词汇表是图中的节点(电影ID)。

vocabulary = ["NA"] + list(movies_graph.nodes)
vocabulary_lookup = {token: idx for idx, token in enumerate(vocabulary)}

实现偏置随机游走

随机游走从给定节点开始,随机选择一个邻居节点移动。 如果边是加权的,则邻居是根据当前节点及其邻居之间边的权重概率性选择的。 这个过程重复进行num_steps以生成一系列相关节点。

偏置随机游走广度优先采样 (仅访问局部邻居)和深度优先采样 (访问远处邻居)之间进行平衡,引入以下两个参数:

  1. 返回参数(p): 控制在游走中立即重访节点的可能性。将其设置为较高值鼓励适度探索,而将其设置为较低值则会保持游走局部。
  2. 内外参数(q): 允许搜索区分内向外向节点。将其设置为较高值使随机游走倾向于本地节点,而将其设置为较低值则使游走偏向于访问更远的节点。
def next_step(graph, previous, current, p, q):
    neighbors = list(graph.neighbors(current))

    weights = []
    # 根据 p 和 q 调整与邻居的边的权重。
    for neighbor in neighbors:
        if neighbor == previous:
            # 控制返回前一个节点的概率。
            weights.append(graph[current][neighbor]["weight"] / p)
        elif graph.has_edge(neighbor, previous):
            # 访问本地节点的概率。
            weights.append(graph[current][neighbor]["weight"])
        else:
            # 控制向前移动的概率。
            weights.append(graph[current][neighbor]["weight"] / q)

    # 计算访问每个邻居的概率。
    weight_sum = sum(weights)
    probabilities = [weight / weight_sum for weight in weights]
    # 按概率选择一个邻居访问。
    next = np.random.choice(neighbors, size=1, p=probabilities)[0]
    return next


def random_walk(graph, num_walks, num_steps, p, q):
    walks = []
    nodes = list(graph.nodes())
    # 执行多次随机游走的迭代。
    for walk_iteration in range(num_walks):
        random.shuffle(nodes)

        for node in tqdm(
            nodes,
            position=0,
            leave=True,
            desc=f"随机游走迭代 {walk_iteration + 1}{num_walks}",
        ):
            # 从图中随机节点开始游走。
            walk = [node]
            # 随机游走 num_steps。
            while len(walk) < num_steps:
                current = walk[-1]
                previous = walk[-2] if len(walk) > 1 else None
                # 计算下一个要访问的节点。
                next = next_step(graph, previous, current, p, q)
                walk.append(next)
            # 用 token id 替换游走中的节点 id(电影 id)。
            walk = [vocabulary_lookup[token] for token in walk]
            # 将游走添加到生成的序列中。
            walks.append(walk)

    return walks

使用偏置随机游走生成训练数据

您可以探索不同的 pq 配置,以获得不同的相关电影结果。

# 随机游走返回参数。
p = 1
# 随机游走内外参数。
q = 1
# 随机游走的迭代次数。
num_walks = 5
# 每次随机游走的步数。
num_steps = 10
walks = random_walk(movies_graph, num_walks, num_steps, p, q)

print("生成的游走数量:", len(walks))
随机游走 第 1 次迭代,共 5 次: 100%|█████████████████████████████████████████████████████████████████████████████| 1405/1405 [00:04<00:00, 291.76it/s]
随机游走 第 2 次迭代,共 5 次: 100%|█████████████████████████████████████████████████████████████████████████████| 1405/1405 [00:04<00:00, 302.56it/s]
随机游走 第 3 次迭代,共 5 次: 100%|█████████████████████████████████████████████████████████████████████████████| 1405/1405 [00:04<00:00, 294.52it/s]
随机游走 第 4 次迭代,共 5 次: 100%|█████████████████████████████████████████████████████████████████████████████| 1405/1405 [00:04<00:00, 304.06it/s]
随机游走 第 5 次迭代,共 5 次: 100%|█████████████████████████████████████████████████████████████████████████████| 1405/1405 [00:04<00:00, 302.15it/s]

生成的游走数量: 7025

生成正例和负例

为了训练一个跳字模型,我们使用生成的游走创建正例和负例训练样本。每个示例包括以下特征:

  1. target: 游走序列中的一部电影。
  2. context: 游走序列中的另一部电影。
  3. weight: 这两部电影在游走序列中出现的次数。
  4. label: 如果这两部电影是游走序列中的样本,则标签为1,否则(即如果随机采样)标签为0。

生成示例

def generate_examples(sequences, window_size, num_negative_samples, vocabulary_size):
    example_weights = defaultdict(int)
    # 遍历所有序列(游走)。
    for sequence in tqdm(
        sequences,
        position=0,
        leave=True,
        desc=f"生成正例和负例",
    ):
        # 为一个序列(游走)生成正例和负例的跳字对。
        pairs, labels = keras.preprocessing.sequence.skipgrams(
            sequence,
            vocabulary_size=vocabulary_size,
            window_size=window_size,
            negative_samples=num_negative_samples,
        )
        for idx in range(len(pairs)):
            pair = pairs[idx]
            label = labels[idx]
            target, context = min(pair[0], pair[1]), max(pair[0], pair[1])
            if target == context:
                continue
            entry = (target, context, label)
            example_weights[entry] += 1

    targets, contexts, labels, weights = [], [], [], []
    for entry in example_weights:
        weight = example_weights[entry]
        target, context, label = entry
        targets.append(target)
        contexts.append(context)
        labels.append(label)
        weights.append(weight)

    return np.array(targets), np.array(contexts), np.array(labels), np.array(weights)


num_negative_samples = 4
targets, contexts, labels, weights = generate_examples(
    sequences=walks,
    window_size=num_steps,
    num_negative_samples=num_negative_samples,
    vocabulary_size=len(vocabulary),
)
生成正例和负例: 100%|██████████████████████████████████████████████████████████████████| 7025/7025 [00:11<00:00, 617.64it/s]

让我们显示输出的形状

print(f"Targets shape: {targets.shape}")
print(f"Contexts shape: {contexts.shape}")
print(f"Labels shape: {labels.shape}")
print(f"Weights shape: {weights.shape}")
Targets shape: (881412,)
Contexts shape: (881412,)
Labels shape: (881412,)
Weights shape: (881412,)

将数据转换为 tf.data.Dataset 对象

batch_size = 1024


def create_dataset(targets, contexts, labels, weights, batch_size):
    inputs = {
        "target": targets,
        "context": contexts,
    }
    dataset = tf.data.Dataset.from_tensor_slices((inputs, labels, weights))
    dataset = dataset.shuffle(buffer_size=batch_size * 2)
    dataset = dataset.batch(batch_size, drop_remainder=True)
    dataset = dataset.prefetch(tf.data.AUTOTUNE)
    return dataset


dataset = create_dataset(
    targets=targets,
    contexts=contexts,
    labels=labels,
    weights=weights,
    batch_size=batch_size,
)

训练跳字模型

我们的跳字模型是一个简单的二分类模型,工作方式如下:

  1. 查找 target 电影的嵌入。
  2. 查找 context 电影的嵌入。
  3. 计算这两个嵌入之间的点积。
  4. 结果(经过 sigmoid 激活)与标签进行比较。
  5. 使用二元交叉熵损失。
learning_rate = 0.001
embedding_dim = 50
num_epochs = 10

实现模型

def create_model(vocabulary_size, embedding_dim):

    inputs = {
        "target": layers.Input(name="target", shape=(), dtype="int32"),
        "context": layers.Input(name="context", shape=(), dtype="int32"),
    }
    # 初始化项目嵌入。
    embed_item = layers.Embedding(
        input_dim=vocabulary_size,
        output_dim=embedding_dim,
        embeddings_initializer="he_normal",
        embeddings_regularizer=keras.regularizers.l2(1e-6),
        name="item_embeddings",
    )
    # 查找目标的嵌入。
    target_embeddings = embed_item(inputs["target"])
    # 查找上下文的嵌入。
    context_embeddings = embed_item(inputs["context"])
    # 计算目标和上下文嵌入之间的点积相似度。
    logits = layers.Dot(axes=1, normalize=False, name="dot_similarity")(
        [target_embeddings, context_embeddings]
    )
    # 创建模型。
    model = keras.Model(inputs=inputs, outputs=logits)
    return model

训练模型

我们实例化模型并编译它。

model = create_model(len(vocabulary), embedding_dim)
model.compile(
    optimizer=keras.optimizers.Adam(learning_rate),
    loss=keras.losses.BinaryCrossentropy(from_logits=True),
)

让我们绘制模型图。

keras.utils.plot_model(
    model,
    show_shapes=True,
    show_dtype=True,
    show_layer_names=True,
)

现在我们在 dataset 上训练模型。

history = model.fit(dataset, epochs=num_epochs)
Epoch 1/10
860/860 [==============================] - 5s 5ms/step - loss: 2.4527
Epoch 2/10
860/860 [==============================] - 4s 5ms/step - loss: 2.3431
Epoch 3/10
860/860 [==============================] - 4s 4ms/step - loss: 2.3351
Epoch 4/10
860/860 [==============================] - 4s 4ms/step - loss: 2.3301
Epoch 5/10
860/860 [==============================] - 4s 5ms/step - loss: 2.3259
Epoch 6/10
860/860 [==============================] - 4s 4ms/step - loss: 2.3223
Epoch 7/10
860/860 [==============================] - 4s 5ms/step - loss: 2.3191
Epoch 8/10
860/860 [==============================] - 4s 4ms/step - loss: 2.3160
Epoch 9/10
860/860 [==============================] - 4s 4ms/step - loss: 2.3130
Epoch 10/10
860/860 [==============================] - 4s 5ms/step - loss: 2.3104

最后我们绘制学习历史记录。

plt.plot(history.history["loss"])
plt.ylabel("loss")
plt.xlabel("epoch")
plt.show()

分析学习到的嵌入。

movie_embeddings = model.get_layer("item_embeddings").get_weights()[0]
print("Embeddings shape:", movie_embeddings.shape)
Embeddings shape: (1406, 50)

查找相关电影

定义一个包含一些电影的列表,称为 query_movies

query_movies = [
    "Matrix, The (1999)",
    "Star Wars: Episode IV - A New Hope (1977)",
    "Lion King, The (1994)",
    "Terminator 2: Judgment Day (1991)",
    "Godfather, The (1972)",
]

获取 query_movies 中电影的嵌入。

query_embeddings = []

for movie_title in query_movies:
    movieId = get_movie_id_by_title(movie_title)
    token_id = vocabulary_lookup[movieId]
    movie_embedding = movie_embeddings[token_id]
    query_embeddings.append(movie_embedding)

query_embeddings = np.array(query_embeddings)

计算 query_movies 的嵌入与所有其他电影之间的 余弦相似度,然后为每个选取前 k 个。

similarities = tf.linalg.matmul(
    tf.math.l2_normalize(query_embeddings),
    tf.math.l2_normalize(movie_embeddings),
    transpose_b=True,
)

_, indices = tf.math.top_k(similarities, k=5)
indices = indices.numpy().tolist()

显示 query_movies 中的前相关电影。

for idx, title in enumerate(query_movies):
    print(title)
    print("".rjust(len(title), "-"))
    similar_tokens = indices[idx]
    for token in similar_tokens:
        similar_movieId = vocabulary[token]
        similar_title = get_movie_title_by_id(similar_movieId)
        print(f"- {similar_title}")
    print()
Matrix, The (1999)
------------------
- Matrix, The (1999)
- Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981)
- Schindler's List (1993)
- Star Wars: Episode IV - A New Hope (1977)
- Lord of the Rings: The Fellowship of the Ring, The (2001)
Star Wars: Episode IV - A New Hope (1977)
-----------------------------------------
- Star Wars: Episode IV - A New Hope (1977)
- Schindler's List (1993)
- Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981)
- Matrix, The (1999)
- Pulp Fiction (1994)
Lion King, The (1994)
---------------------
- Lion King, The (1994)
- Jurassic Park (1993)
- Independence Day (a.k.a. ID4) (1996)
- Beauty and the Beast (1991)
- Mrs. Doubtfire (1993)
Terminator 2: Judgment Day (1991)
---------------------------------
- Schindler's List (1993)
- Jurassic Park (1993)
- Terminator 2: Judgment Day (1991)
- Star Wars: Episode IV - A New Hope (1977)
- Back to the Future (1985)
Godfather, The (1972)
---------------------
- Apocalypse Now (1979)
- Fargo (1996)
- Godfather, The (1972)
- Schindler's List (1993)
- Casablanca (1942)

使用嵌入投影仪可视化嵌入

import io

out_v = io.open("embeddings.tsv", "w", encoding="utf-8")
out_m = io.open("metadata.tsv", "w", encoding="utf-8")

for idx, movie_id in enumerate(vocabulary[1:]):
    movie_title = list(movies[movies.movieId == movie_id].title)[0]
    vector = movie_embeddings[idx]
    out_v.write("\t".join([str(x) for x in vector]) + "\n")
    out_m.write(movie_title + "\n")

out_v.close()
out_m.close()

下载 embeddings.tsvmetadata.tsv 以在 Embedding Projector 中分析获得的嵌入

可在 HuggingFace 上获得示例

训练模型 演示
通用徽章 通用徽章