一种基于Motif与同质性的图对比学习方法
在如今的人工智能领域,图数据无处不在!从学术论文的引用网络,到电商平台的商品共购关系,再到科研合作的学者网络。但如何在没有大量标签的情况下,让机器读懂这些复杂网络的"隐藏逻辑"?
图源:摄图网 近期,李春英教授团队联合复旦大学、拉筹伯大学等机构的研究团队,在图对比学习领域取得重要进展。相关成果以“MHGCL: Combining Motif and Homogeneity in graph contrastive learning”为题,发表在期刊《World Wide Web》(2025年JCRQ2,IF3.4)上。该研究创新性地将图的高阶拓扑特征与同质性原理相结合,提出了一种名为MHGCL的新方法,有效解决了现有图对比学习框架中存在的不足,填补了高阶结构与同质性整合方面的研究空白。 图源:期刊官网截图 在图数据的分析与处理中,对比学习作为一种无需大量标签的自监督学习方法,已成为图聚类等任务的研究热点。然而,现有方法在构建正负样本对时,往往未能有效整合图结构的高阶拓扑特征与同质性原理,导致正负样本分配失衡,影响模型对小众类别和边界节点的识别能力。 图源:论文截图 MHGCL方法通过三大创新点实现了性能突破: 一是motif感知的高阶特征挖掘。该方法聚焦于网络中频繁出现的三角形motif(无向图网络的关键子结构),构建motif邻接矩阵,进而将低阶结构信息与高阶结构信息融合,形成重加权邻接矩阵,让模型能捕捉到更丰富的节点关联信息。 图源:论文内容截图 二是同质性的直接利用。不同于传统硬聚类方法,MHGCL结合k-means和高斯混合模型(GMM)进行软聚类,允许节点以不同概率属于多个簇。通过计算后验概率、先验概率得到聚类分配矩阵,进而得出节点对的显著性矩阵,有效区分真实正负样本,减少边界节点的误分类,增强对复杂图数据中噪声连接的检测鲁棒性。 图源:论文内容截图 三是优化的图对比学习策略。设计非均匀概率模型指导图增强,降低重要节点和边的丢弃概率,使增强视图保留更多关键拓扑信息。同时,结合显著性矩阵计算对比损失,并与motif同质性损失结合形成最终损失函数,优化模型参数。 图源:论文内容截图 对比实验结果显示,在 PubMed、CiteSeer、Amazon-photo 等六个公开数据集上,MHGCL在节点分类和聚类任务中均显著优于现有方法。以节点分类为例,在PubMed数据集上准确率达81.6%,超过一些常见的GCL方法;在节点聚类中,Amazon-photo数据集的NMI指标和ARI指标分别达到0.663 和0.557,表现良好。 此项研究不仅为图对比学习提供了新的思路与方法,其可集成到现有节点级GCL框架的特性,也为提升节点级任务的特征表示质量奠定了基础,对推动图数据挖掘与分析技术发展具有重要意义。