SMP学术速递—社团检测最新综述

科技工作者之家 2021-09-13

题目: A Survey of Community Detection Approaches: From Statistical Modeling to Deep Learning 

作者: 金弟(天津大学),于智郅(天津大学),焦鹏飞(天津大学),潘世瑞(莫纳什大学),何东晓(天津大学),吴佳(麦考瑞大学),Philip S. Yu(伊利诺伊大学芝加哥分校),章伟雄(圣路易斯华盛顿大学) 

期刊: IEEE Transactions on Knowledge and Data Engineering (TKDE 2021) 

文章链接: https://ieeexplore.ieee.org/document/9511798 (manuscript)

今天(12月1日)起,新修订的《上海市轨道交通乘客守则》正式施行,其中明确禁止使用电子设备时外放声音。不少网友表示支持;也有网友认为新规执行过程中,可能会存在困难。对此,你怎么看?


1. 内容简介



社团检测(community detection)是网络分析的基本任务,旨在将网络划分为多个子结构以帮助揭示其潜在功能,被广泛用于推荐、异常检测、恐怖组织识别等领域。经典的社团检测方法通常利用概率图模型,采用各种先验知识来推断社团结构。随着网络方法试图解决的问题以及要分析的网络数据变得越来越复杂,研究者们提出了新的社团检测方法,特别是利用深度学习将网络数据转换为低维表征的方法。尽管这些方法促进了社团检测的发展,但目前仍然缺乏对社团检测理论和方法基础的系统回顾。因此,本文提出了一个统一架构来概述社团检测领域的最新发展。首先,本文全面回顾了现有的社团检测方法,并介绍了一种新的分类法,该分类法将现有方法分为两类:概率图模型和深度学习。其次,本文讨论了两类方法的主要思想,并针对不同方法进行了详细概述。此外,本文还发布了一些社团检测领域常用的基准数据集,重点介绍了社团检测在各种网络分析任务中的应用。最后,本文讨论了社团检测面临的挑战,并对未来可能的研究方向提出了建议。

表4. 基于AE的社团检测方法

3.2 基于生成对抗网络的方法

生成对抗网络( GAN )具有强大的网络数据分析能力,其通常是无监督的,生成的新数据理论上与真实数据拥有相同的分布。基于GAN的方法主要采用对抗学习的思想,通过生成器和判别器之间的对抗博弈来检测社团。

3.3 基于图卷积网络的方法

图卷积神经网络(GCN)通过聚合结点的邻域信息来从全局上捕获用于社团检测的结点表征。基于GCN的方法分为两类:监督/半监督GCN以及无监督GCN。

3.4 图卷积和无向图模型整合的方法

图卷积和无向图模型整合的方法通过利用这两类模型的优势来检测社团。考虑到GCN本质上是通过局部特征平滑来构建结点表征,但其没有考虑社团属性,使得结点表征不是以社团为中心的;无向图模型通常定义全局目标来描述社团,但其没有考虑结点信息,并且需要大量计算来学习模型参数。因此,GCN和无向图模型是互补的,可以将二者结合起来以更好地进行社团检测。



4. 社团检测的应用



本文首先讨论了社团检测常用的数据集,接着介绍了社团检测的应用。

4.1 数据集

本文收集整理了两类用于社团检测的数据集,包括:人工合成数据集(如Girvan-Newman),以及真实数据集(如社交网络、引用网络以及合作者网络等)。

表5. 真实数据集

4.2 实际应用

社团检测已被广泛应用于各种各样的领域和任务,例如:

在线社交网络:Facebook、Twitter 和微信等在线社交网络揭示了在线用户之间相似的兴趣。基于在线社会行为的社团检测能够有效推断用户之间的关系及用户偏好,被用于垃圾邮件发送者检测、危机响应等任务。 

神经科学:神经科学是研究神经系统和大脑的学科。随着大脑映射和神经成像技术的最新发展,大脑也开始被建模为网络。基于大脑网络的社团检测能够帮助识别大脑中起作用或存在病理的功能部分。

图像理解:基于社团检测的图像理解通过引入社团来生成更好的图像语义描述。 

推荐:推荐通常是根据用户购买或浏览历史记录中的信息来建立用户兴趣档案,进而向用户推荐类似物品来解决用户信息过载问题。引入社团概念的社团发现通过有效检测结点之间的关系来产生高质量的推荐结果。 

链接预测:链接预测通过分析观察到的网络结构和外部信息来处理缺失的连接并预测未来可能的连接。引入社团概念的链接预测通过设计社团特定的相似度矩阵来分析预测结点间链接的概率。



5. 未来研究方向



虽然概率图模型和深度学习促进了社团检测领域的发展,但目前仍然存在一些有待解决的问题: 

更大规模的网络:随着网络数据规模的迅速增加,更大规模的网络逐渐成为不同科学领域的标准。这些网络通常具有数百万或数十亿的结点和边,以及更复杂的结构模式。大多数现有的社团检测方法可能需要大量的训练实例或模型参数,或是通过网络缩减或近似的方式来处理这些网络,但是不可避免地会丢失一些重要的网络信息并影响建模精度。因此,如何针对更大规模的网络,设计一个在准确性和效率方面都超过当前基准的框架是亟需解决的问题。 

社团的可解释性:大多数现有的社团检测方法通常利用结果中排名靠前的词或短语来解释社团,但是由于词的数量少以及词之间的关系不明确,这些方法通常不能很直观地理解社团语义。因此,如何充分利用网络信息为社团提供更好的语义解释也是未来的研究方向之一。 

自适应的社团模型选择:自适应模型旨在根据不同网络的特性(如异构或动态)或不同任务的特定要求(如最高准确度或最低时间复杂度)选择最合适的算法来检测社团。虽然现有方法在一定程度上可以从一种网络或任务扩展到另一种网络或任务(不可避免地会影响模型的准确性和稳定性),但是很少有方法考虑模型的自适应。因此,如何在保持模型的准确性和稳定性的情况下,设计一个可以自适应特定任务或网络的统一架构,是具有挑战但非常值得的。 

更复杂的网络结构:真实世界中的网络可能是异构的、动态的、分层的或者不完全的。因此,如何设计新的社团检测方法,更好地提升模型在不同类型网络上的社团检测,也是重要的研究方向。 

概率图模型和深度学习的整合:虽然目前已经提出了一些将概率图模型与深度学习相结合的方法,但其仍然是一个新兴的研究区域。现实世界中的网络社团模式通常是多样的,如异质性或随机性的社团结构,如何利用概率图模型和深度学习的优势,设计新的鲁棒方法,更准确地检测网络中的社团结构。此外,如何设计新的整合算法,以促进概率图模型以及深度学习在其他领域的应用,如推荐或医学诊断等,也是重要研究方向之一。



6. 总结



本文提出了一个统一架构来综述现有的社团检测方法。首先,本文介绍了社团检测问题,并引入了一个新的分类法,从学习的角度将现有方法分为两类:概率图模型和深度学习。其次,本文对这两类方法进行了详细的分析和比较。本文还介绍了社团检测在各个任务和领域的广泛应用,并讨论了社团检测未来可能的研究方向。

责任编辑:杨成

来源:CIPS-SMP 社媒派SMP

原文链接:http://mp.weixin.qq.com/s?__biz=MzA5OTQ5MDE0Mw==&mid=2651124837&idx=1&sn=066e238e9059da7b397b126cfc4cb02b

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn