近年来,互联网的全面普及以及移动智能设备的广泛应用促进了社会媒体的爆发式增长。随着基于位置的服务(Location-based Services,LBS)、基于任务的服务(Task-basedServices,TBS)、基于信息的服务(Information-based Services,IBS)、基于决策的服务(Decision-based Services,DBS)和基于知识的服务(Knowledge-based Services,KBS)等技术手段的出现以及与社会媒体的融合[1,2],大量带有时间戳、地理位置、社会标签的数据成为现实,这使得以海量数据为基础的对社会科学的定量研究成为可能。以人肉搜索、众包、水军等为代表的依托于互联网的社会化、网络化、动态化社会群体迅速涌现并产生重要影响。2013年中国雅安地震,从地震发生到微博上出现第一条地震消息仅仅53 秒,由于电话线路瘫痪,移动社会媒体成为地震初期灾区对外联络的“生命线”。2014年,借助“冰桶挑战”在互联网上的迅速传播,美国“肌肉萎缩性侧索硬化症”(ALS)协会年内收到捐款增长300%。2015年7月4 日,国务院印发《国务院关于积极推进“互联网+” 行动的指导意见》,互联网对中国整体社会的影响更为全面和深入。2016年5月18日,国家发展改革委员发布关于印发《“互联网 +”人工智能三年行动实施方案》的通知,明确以加快建设文献、语音、图像、视频、地图等多种类数据的海量训练资源库和基础资源服务公共平台为主要任务,2017年国务院发布《新一代人工智能规划》,强调大数据驱动知识学习、跨媒体协同处理、人机协同增强智能、群体集成智能、自主智能系统成为人工智能的发展重点,社会计算及其相关应用的研究也因此更显重要。
社会计算(social computing)是一个年轻的多学科交叉研究领域,但自其概念被提出到正式成为一门学科,已经经历了数十年的发展。“Social Computing”一词最早出现于 1994年《Communications of the ACM》[3],文中提出“社会计算可以是任何一种类型的计算应用,以软件作为社交关系的媒介或聚焦”,强调了社会媒体软件的重要性;2004 年,我国学者首次提出了中文“计算社会学”的概念;2007年,中国科学院自动化研究所(以下简称北京自动化所)王飞跃研究员等在人工智能领域顶级杂志《IEEE Intelligent Systems》上联合撰文明确了“社会计算”的内涵,给出其从“社会信息”到“社会智能” 的基本研究框架,将其上升到一门融合多学科研究特色的独立学科的高度;2012年,在中国科学院大学的大力支持下,社会计算成为跨“控制科学与工程”、“计算机科学与技术”“管理科学与工程”三个一级学科的交叉学科(学科代码“99J2”),拥有博士和硕士学位授予权,学位培养工作依托中国科学院大学和中国科学院自动化所展开。2013年中科院自动化所研究团队出版了国内第一本社会计算学科技术专著——《社会计算的基本方法与应用》(见参考文献[1,4]),书中提出,广义而言,社会计算是面向社会科学的计算理论和方法;狭义而言,则是面向社会活动、社会过程、社会组织及其作用和效应的计算理论和方法。
近年来,社会计算理论以及应用发展迅猛,涉及社会、经济、工程等领域的诸多重大问题研究,其核心是以人和社会为表征的建模、实验与分析评估,其主要方法是社会科学、计算科学、管理科学等多学科的交叉融合。
近年来,我国对社会计算的研究成果丰硕。本文主要在社会组织发现,社会媒体分析,以及社会计算应用三个方面综述。
(一)动态社会组织发现和智能体建模
社会运动组织(Social Movement Organizations,SMOs)是社会学中的经典研究,考察其有组织的组成部分,主要起协调作用,而非直接雇佣或指导运动中的参与人员。其互联网化的网民群体运动组织(Cyber Movement Organizations,CMOs)可在短时间内累积大量舆论及行为能量,对社会管理、经济稳定和国防安全产生重大影响。国内社会计算专业的第一篇博士论文[2,5]就是基于对CMO的建模分析,出自北京自动化所团队。人肉搜索、众包和水军是三种典型的CMO。其中,自动化所 - 国防科学技术大学团队的人肉搜索研究(Human Flesh Search,HFS)[3,6]以在线网络社区和社会化媒体为主要平台,通过线上 -线下交流互动的人找人、人问人、人碰人的方式获取信息的群体行为。他们根据人肉搜索群体的行为传播构建出一个搜索行为的时序传播网络,并构建了相应的协作矩阵[4,7]。自动化所团队也是我国最早围绕众包展开研究的团队之一[5,6,8,9],他们提出,众包源于中国的“人肉搜索”现象,可以被认为是工程化的“人肉搜索”,而“人肉搜索”则是社会化的众包。众包常利用网民群体多元化的知识背景、空余时间和丰富的经验来执行规则明确的、大规模的、重复性的劳动任务,在智慧停车[7,10]、路由切换[8,11]等复杂场景也有应用。水军作为一种特殊的网民群体组织,通过发布带有诱导性或情绪性的言论,影响网络社区中信息的客观性和真实性[9,12]。北京工商大学团队构建了一个识别微博水军的概率图模型,以计算用户为水军的概率[10,13]。国防科学技术大学团队提出一种基于交互行为的在线社会网络水军检测方法[11,14]。国家数字交换系统工程技术研究中心团队提出一种基于用户关系图特征的微博水军账号识别方法[12,15]。
社区发现与结构分析是社会网络分析的经典问题,有助于人们进一步认识、理解和掌握所研究的复杂网络对象。广东外语外贸大学提出一种面向静态网络社区发现的链接相关线性谱聚类算法 , 并在此基础上提出一种基于增量式谱聚类的动态社区自适应发现算法[13,16]。哈尔滨工程大学团队针对一般社会网络社区发现算法仅考虑各节点的邻接关系, 不能代表社区成员的语义相似性且无法处理具有多元语义话题的问题,提出一种基于话题因子分析的语义社会网络社区发现算法[14,17]以及一种面向语义重叠社区发现的block场采样算法[15,18]。中国人民大学针对微博用户社区构建了微博网络 R-C模型[16,19]。南京大学团队提出以用户 - 话题关系为主要划分原则的重叠社群表达模型及相应的社群结构发现算法[17,20]。中国科学院计算技术研究所团队提出算法改进,揭示了网络的层次化和重叠社区的结构[18-22]。
面向社会计算的智能体建模是社会组织研究的重要途径。自动化所团队通过人工系统建模和计算实验研究虚拟社会组织的性质[20,23]。由浙江大学、浙江工商大学、中国科学院理论物理研究所共同成立的面向社会计算的交叉学科研究队伍以石头-剪刀-布非合作博弈为对象探讨了群体中的非平衡统计物理现象及其背后的微观决策机制[21,24]。
(二)社会媒体分析
在Web 2.0 环境下,用户将多媒体数据上传至社交网站和其他内容共享平台并与其他用户分享,此即被称为社会媒体。社会媒体有着丰富的社会上下文(social context)信息, 如用户信息(用户行为、偏好、兴趣等),社交网络信息(如社交关系、社交网络结构等) 和收集到的社会信息(如用户评论、标记等)。
社会媒体内容分析就是让机器理解媒体表达的语义信息,从而更好地理解媒体对象。中国科学技术大学提出一种基于隐含主题模型的异常行为分析方法[22,25]。中国科学院数 学与系统科学研究院以天涯杂谈的首发帖为舆情来源建立动态主题模型,通过挖掘随时间变化的动态话题链 , 从词语变化的微观角度分析热门事件下公众意见的变迁过程[23,26]。在媒体推荐系统研究方面,北京邮电大学从基于位置的社会化网络的结构特征入手,对社会化网络推荐系统的基本框架、基于不同网络层次数据挖掘的推荐方法及应用类型开展了研究[24,27]。合肥工业大学以基于项目的协同过滤技术为基础 , 根据群体成员间的相互作用确定群体偏好 , 由群体偏好产生推荐内容[25,28]。清华大学团队在同一空间中同步学习词和短语的向量表示进行语义分析[26,29]。
语义分析是指运用各种机器学习方法,挖掘与学习文本、图片中的深层次概念。北京理工大学利用指称和候选实体本身所含有的语义信息 , 提出在词向量层面对任务进行抽象建模 , 并设计一种基于词向量语义分类的微博实体链接方法[26,29]。重庆大学提出一种基于隐含语义分析的两阶段聚类话题发现方法[27,30]。湖南大学提出一种语义分析与 TF-IDF 方法相结合的新闻推荐方法,该方法将同义词集合的逆文档频率及语义相似性相结合, 采用 WordNet同义词集合做相似性计算[28,31]。
在情感分析方面,武汉大学针对网络评论中的文本稀疏问题,提出了一个针对短文本的联合情感—主题模型 SSTM(Short-text sentiment-topic model)[30,32,33]。中国科学院合肥智能机械研究所将基于依存句法的词语搭配特征和基于组合语义的深度特征应用于文本情绪分析 , 提出了一种以短语为主要线索的半马尔科夫条件随机场文本情绪分析模型[31,34]。复旦大学针对电子商务中的商品评论信息过载问题 , 运用情感计算理论 , 通过挖掘商品评论信息中的商品特征及相应的情感褒贬态度 , 为消费者提供一个商品特征粒度上的情感分析结果[32,35]。哈尔滨工业大学社会计算与信息检索研究中心在情感分析方面进行了卓有成效的研究[33-38],并将情感分析与深度学习的词嵌入深度结合,提出“情感嵌入”分析方法[36,39]。香港城市大学团队提出使用跨域张量分解方法来对情感社会网络进行分析,亦取得了良好的效果[40]。
(三)社会计算的应用
过去几年中,社会计算已在社会安全预警与应急管理平台开发、交通、学科及科技发展态势预测等领域得到了广泛应用。
在社会安全预警与应急管理的研究开发方面,北京邮电大学团队取得重要成果,利用社会媒体预测话题趋势[37,41],并提出具有 5s 属性(Sourcing,Sensing,Synthesizing, Solution,and Security)的“大搜索”[38,42]。国防科学技术大学团队运用统计物理学方 法,提出一个恐怖组织网络的时空演化模型,并对恐怖组织网络的演化规律进行了数值模 拟研究[39,43];他们还和中科院数学所、自动化所合作,利用网络爬虫从互联网中获取与 “东突”分裂活动相关的文本数据,从这些数据中抽取分裂活动中涉及的人员、组织、时间和地点四要素 , 依据概念之间的关联关系构建出多模元网络,从而服务于安全预警[40,44]。香港城市大学团队以地震中的信息预警问题为切入点,通过将微博信息分为5 类,并分别探索其传播模式,由此提出了危机预警情况下的信息传播模式[45]。
中科院自动化所开展基于社会交通的研究工作,提出一种混合P2P 结构的分布式计算实验框架 , 采用改进的同步算法和新的负载均衡方案优化了框架的性能[41,42,46,47]。华中科技大学提出一种基于计算实验的公共交通需求预测方法,推演出出行个体在出行过程中对各类交通选择的决策制定过程[43,48]。中南大学[49,50]分析了数据驱动的交通工程相关工作,并在此基础上开发了基于社交媒体大数据的交通感知分析系统,为交通管理部门及时提供交通舆情及突发交通事件的态势、影响范围、起因等信息[49,50]。
在学科及科技发展态势预测领域,中科院自动化所团队利用知识图谱技术,定量描绘出自动化学科 5 个方向(控制理论与控制工程、模式识别与智能系统、系统工程、检测技术与自动化装置、导航、制导与控制)的国内外最新研究态势[44,51]。该团队还从社会网络角度分析了 2000 — 2012 年来 ISI Web of Science 收录的关于交通仿真及计算实验研究的文献,从论文数量、影响力、合作关系和知识传播度四个方面考察了关键学者和主要研究机构[45,52]。大连理工大学基于典型国家创新体系运行的案例研究,构建出政策驱动的国家创新体系运行概念模型 , 通过系统模拟与计算实验 , 分别预测科技政策微调、科技资源不同配置方案及科技政策不同组合情况下,科学技术创新产出的变动趋势[46,53]。
在物联网领域,中科院自动化所团队领先提出社会物联网(Social Internet of Things,SIoT)的概念和架构。SIoT 扩展传统的 IoT 的对“物”的传感和驱动,引入对社会感知和引导,将社会计算技术融入到传统 IoT 中,形成了以平行系统理论为方法论,以 CPSS 为理论框架,以新一代信息技术架构(云计算、边缘计算、普适计算、软件定义网络)为通信计算基础设施,以互联网、物联网、软件服务、区块链为支撑平台,以知识自动化和社会计算技术为核心关键技术的 SIoT 概念。SIoT 概念的提出,为将来国内 IoT 的发展方向提供了重要的参考,更为以后技术系统 IoT 和社会系统的各个方面的有效整合提供了有力的理论依据。
近年来,发达国家研究机构以及互联网企业在社会计算理论和应用方面有着大量投入和成果。美国“911”事件后,西方各国对反恐情报研究极为重视,第一届 ISI(Intelligence and Security Informatics)研讨会就在亚利桑那大学召开,自 2005 年起,社会计算就成为IEEE ISI 会议的主题之一。美国微软公司成立社会计算研究组,开展数字心理学、合作者搜索、以及真实世界和虚拟世界中生活模式的计算模型等研究。IBM 公司也成立社会计算研究组,综合人工智能、计算机科学、语言学和社会科学等研究社会计算相关理论和应用,大名鼎鼎的 Watson 就是其产品。美国 Sandia 国家实验室的 ASPEN、欧盟 EURACE、英国的 E-Lab, 都是以对社会经济系统进行建模并通过计算实验的方式,为国家宏观政策的制定提供支持。综合国内外发展现状,多种技术手段的应用、与社会科学的融合、以及广泛的应用无疑是社会计算的发展趋势。相对而言,国内社会计算领域的学术研究则更依赖于高校和科研机构。
社会计算领域目前亟需解决的另外一个重要问题是缺乏计算平台支撑,包括计算环境、应用工具、分析方法等。国外学者对此已有一定突破,如弗吉尼亚生物资讯研究所开发的计算平台SPACES,可对大型社会接触网络模拟分析传染病传播过程、评价多种传染病防治策略的优劣。Swarm、Repast和Netlogo 等建模工具和平台也有一定应用。与之相比, 国内机构对开发通用的社会计算平台,尤其是开发源平台的热情并不高。为帮助实际系统开发人员便捷高效地实现其建模意图,未来需要构建开放、可拓展、可实时互动的社会计算平台与支撑环境。
与此同时,社会计算的应用平台频频出现,包括以游戏为媒介充分调动普通大众知识能动性来执行大规模科学任务的科学目的性游戏如 Galaxy Zoo;以知识众包方式促进大众进行合作来记录“世界知识”的维基百科;以识别验证码为手段,转录历史文字的CAPTCHA项目;允许人们通过匿名的方式在网络上相互合作来攻克真实世界的社会难题,如反印度的反受贿网站IPaidABride.com等。借助社会中每个个体的输入、计算与监督能力,通过人与机器、网络共同组成的“社会机器”,一项非常大的任务可以在很短的时间内被完成并产生巨大经济与社会效益[54]。
社会计算作为新兴的多学科交叉领域,近年来表现出巨大的活力,同时具有巨大研究需求和良好的发展前景。具体应包括如下对策:
(1)建立针对网络化社会中的新型问题,构建计算社会学的基础理论框架,为复杂社会问题的建模和实验提供社会科学基础。研究动态社会群体线上线下行为互动演化规律, 在目前对网上用户心理、情感与行为分析的基础上,研究群体情况下社会热点事件借助社会媒体表现和传播的规律。
(2)在社会计算相关技术的基础上,发展知识的自动化[47,55]。随着互联网、大数据、云计算、物联网等理念和技术的到来,人类社会已经跨入智能时代。工业时代需要依靠工业自动化来“补偿”人们体能上的不足,智能时代则需要借助知识自动化来“弥补”人们智能上的不足,进而才能去完成各种层出不穷的不定、多样、复杂任务。
(3)从社会安全、应急管理、经济系统、工程管理等领域入手,研究社会计算在与国计民生相关方面的应用研究,并构建统一的可编程的人工社会计算实验平台和实验环境。
随着移动互联网的广泛普及,人和人之间在互联网上不因地理位置的限制而存在距离,信息传播的速度相较传统的互联网也大幅提高,社会动态变化的速度和规模已经提高到前所未有的水平。无论从国家重大安全上的需求出发,还是为了社会、经济和工程等领域的实际应用,深入研究社会计算理论和应用日显重要。随着国内越来越多学术机构和公司的重视和投入,我国社会计算学科必将得到更大的发展。
内容节选自《控制科学与工程学科发展报告》
往期文章推荐
🔗【重要通知】中国自动化学会关于2019年度国家科学技术奖提名工作的通知
🔗【重要通知】关于征集2019重大科学问题和工程技术难题的通知
🔗【全国学会优秀改革案例汇编】学会治理结构与治理方式:会员(代表)大会
🔗【重要通知】中国自动化学会关于组织推选2019年中国科学院和中国工程院院士候选人的通知
🔗【全国学会优秀改革案例汇编】学会治理结构与治理方式:理事会(常务理事会)