Summarization#
图摘要通过找到图的较小表示,从而加快算法运行时间、减少存储需求并降低噪声。摘要技术在可视化、模式挖掘、聚类和社区检测等领域有广泛应用。核心图摘要技术包括分组/聚合、位压缩、简化/稀疏化和基于影响的方法。图摘要算法通常生成超图或稀疏化图的形式的摘要图,或独立结构的列表。超图是最常见的产品,由超节点和原始节点组成,并通过代表节点和超节点之间聚合边的边和超边连接。
基于分组/聚合的技术通过在超图中用单个节点/边表示图中的接近/连接节点和边来压缩图。节点可以根据它们在图中的结构相似性或接近度分组为超节点,以减少图中的节点总数。边分组技术将边分组为有损/无损节点,称为压缩器或虚拟节点,以减少图中的边总数。边分组技术可以是无损的,即可以用于重新创建原始图,或者是有损的,需要较少的空间来存储摘要图,但以原始图重建准确性降低为代价。
位压缩技术最小化描述原始图所需的信息量,同时揭示原始图中的结构模式。两部分最小描述长度(MDL)常用于表示模型和原始图在模型方面的内容。图压缩和图摘要的关键区别在于,图摘要侧重于在原始图中寻找结构模式,而图压缩侧重于将原始图压缩到尽可能小。注意:某些位压缩方法仅用于压缩图,而不创建摘要图或寻找可理解的结构模式。
简化/稀疏化技术试图通过从图中移除不重要的节点和边来创建图的稀疏表示。稀疏化图与通过分组/聚合创建的超图不同,仅包含原始图节点和边的一个子集。
基于影响的技术旨在找到大型图中影响传播的高级描述。这些方法较为稀少,主要应用于社交图。
*去密集化*是一种基于分组/聚合的技术,通过添加压缩器节点来压缩无权图中高度节点周围的邻域,这些压缩器节点总结了相同类型到高度节点(度大于给定阈值的节点)的多条边。去密集化旨在提高图数据库中围绕高度节点的查询处理性能,并支持在压缩图上直接操作。在原始图中高度节点周围的结构模式得以保留,同时使用较少的边并添加少量压缩器节点。原始图中节点的度也得以保留。当前的去密集化实现支持具有一种边类型的图。
有关图摘要的更多信息,请参阅 Graph Summarization Methods and Applications: A Survey
|
压缩高度节点周围的邻域 |
|
基于属性和连接性创建摘要图。 |