本站小编为你精心准备了话题下微博信息传播拓扑结构研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:
随着互联网的普及,论坛、微博、微信等新媒体已经成为人们获取和信息的重要渠道,而微博已经成为舆情传播的主要平台,研究微博上舆情信息的传播情况具有重大社会意义,文章基于话题研究微博信息的传播特点。首先,通过对话题传播过程中新增用户数和参与话题用户的累计概率分布的统计,研究用户对话题转发的参与度,总结出话题传播过程,包括产生期、爆发期和衰亡期;接着利用话题中用户的转发关系,整理出话题传播的拓扑结构,通过测量传播拓扑结构中的平均路径、网络直径和聚类系数,并与无尺度网络进行比较,对话题传播拓扑结构进行进一步的分析,总结出传播网络具有小世界特性,这些特性能够加快话题在网络中的传播速度并扩大传播范围。文章研究话题传播的拓扑结构,为研究网络上的微博舆情提供了基础。
关键词:
引言
随着互联网和互联网终端的迅速普及,涌现出了许多便捷的互联网应用,如电子商务、社交网络、微博等。从美国的Twitter到我国的新浪、腾讯,微博在中国乃至全世界迅速普及。据统计,中国的微博总注册量已经超过5亿人次,每天更新的信息量已经超过1亿条。微博流行的原因主要在于它让人们信息的门槛大大降低,任何人都可以发表内容而且不必具有专业的文学撰写水平,这满足了大众快速交流分享信息的需要。作为一种实时的交流、信息分享工具,用户可以在任何时候任何地点微博信息,和他人互动,此外微博用户还可以关注其他用户,使得微博平台成为了一个巨大的社会化网络。微博的普及、海量的信息以及庞大的用户群体,使得它也成为了一种实时信息来源工具,并且成了一种有着巨大社会影响力的社会媒体,近几年一些重要的社会热点话题都是由微博平台率先报道出来的。研究话题在微博平台上传播的过程和形成的网络拓扑结构,是对微博平台上用户行为、用户影响力等进行研究的基础。目前对微博平台上拓扑结构的测量和研究很多,GUO[1]等人对新浪微博上的用户进行分析,发现用户网络拓扑结构有很强的动态性,用户关注间的关系表现出马太效应;微博用户网络中存在着影响力巨大的用户,这些用户成为“核心”,这些核心加速了话题在微博网络上的传播。WANG[2]等人对微博上的信息传播进行研究,提出了一个微博的信息瀑传播模型,测量了微博的转发数分布,指出其分布情况可以用一个广延指数模型来表示。CHA[3]等人通过对入度、转发和引用的对比研究,发现用户的转发行为主要受微博自身价值的影响,而且对于名人和微博大V的微博应用明显要多于其他人。WEBBERLEY[4]等人对微博传播的深度和范围进行了研究,其目标针对一条微博,传播深度表示其最长的转发路径;传播范围表示其参与转发的用户群体数量;他们通过Twitter的数据进行验证,实验结果显示一条微博的平均最长转发路径为1.8,表示大多数消息被转发2次左右;平均转发规模在六左右,这和6度空间理论比较符合。平亮[5]等人基于网络中心性对微博平台上信息的传播进行研究,通过分析微博用户的点度中心度、中介中心性和接近中心性三个属性,证明了点度中心度可以衡量用户传播和获取信息的能力,中介中心性表示用户控制信息传播的能力,接近中心性能够衡量信息传播到其他用户的速度,这几个参数都可以间接用来表示用户的个人影响力大小。MISLOVE[6]等人对Flickr、YouTube、LiveJournal和Orkut四种社交网络的拓扑结构进行研究,对社交网络的幂率特性、小世界特性以及无标度属性进行了验证。CHA[7]等人在MISLOVE的基础上对Flickr上的图片拓扑结构进行研究,发现其中的信息传播需要依靠关键节点,并且时间可能较长。CHENG[8]等人对YouTube进行了测量,分析了上面的用户行为特征、社会网络拓扑结构等,总结出了YouTube特有的统计行为方式。GUO[9]等人在对三种不同的共享型网络(博客、书签共享、知识问答网)上的用户行为进行测量研究时,发现用户的使用时间长短不服从指数分布,用户的贡献服从广延指数模型而不是服从幂率分布,证明了这种共享型网络并不是由少数核心节点所支配。CHUN[10]等人利用用户之间的交互信息,如留言、评论等进行研究,发现利用这些信息形成的网络结构特征与好友关系形成的拓扑结构相似,并且二者的分布极为相似,得到了与Mislove相同的结论。袁毅[11]对微博的用户网络结构、信息传播路径以及影响因素进行研究,他们跟踪一条微博,采集所有相关的评论数据和用户数据,同时获取相关用户的好友关系。研究将信息传播归为3种类型:偶发型、偶遇机会型和强势节点呼应型。其中的强势节点越早加入转发过程,越有利于信息的扩散;另外,一个用户的微博转发数量与该用户的粉丝数有一定的相关性。本文通过跟踪腾讯微博话题,采集相关话题下的所有用户数据,根据用户间话题数据的转发关系,整理出话题在整个网络上传播的拓扑结构,测量话题传播拓扑结构的性质,总结拓扑结构的特征。相比于传统的通过好友关系和跟踪一条微博形成的网络拓扑结构,这种通过转发关系建立的拓扑结构更加完整,能够展现出整个话题的扩散速度和范围,更有利于舆情信息的监测和控制。
1微博数据采集
1.1微博爬虫设计
为了获取实验数据,本文针对腾讯微博设计了一款微博主题爬虫,根据特定主题获取微博网络上的微博信息和用户信息。本文设计实现的腾讯微博数据爬取系统从功能上主要分为API爬虫、Web爬虫以及分布式控制三个模块。其中,API爬虫模块通过微博平台的开放API实现对微博用户信息的采集,主要用于获取用户的个人好友关系、转发关系等;Web爬虫通过程序模拟浏览器进行Web页面浏览的过程,用于获取用户的微博信息,主要是对特定页面的源代码信息进行解析,进而获取相应的微博数据,该模块主要采集微博内容信息和微博相关属性信息;分布式控制模块按照指定的分布式任务分配策略从数据库中读取关键字,控制爬虫的爬取策略和速度。API爬虫和Web爬虫以数据库作为信息交互的媒介,通过为这两个爬虫设置合适的线程数来达到两者之间的供需动态平衡。爬虫系统的设计框架如图1所示。为了采集微博平台的话题传播信息,并保证数据的安全性,爬虫系统部署在四川大学网络与可信计算研究所的科研网络环境中,该科研网络利用文伟平[12]等人和王永娟[13]等人的的信息安全风险评估技术对网络安全性进行评估,并根据评估结果对网络进行改造升级,从软件层面保证数据信息的安全性;其基础设施安全防护借鉴卿斯汉[14]所论述的身份鉴别过程,加强基础设施保护措施,从硬件层面保证数据安全性。程序运行的服务器配置为:MicrosoftWindowsServer2003EnterpriseEdition;Intel(R)Xeon(R)CUPE55062.3gHz;8G内存。为了提高数据的采集效率,爬虫系统采用了分布式的爬行策略并行爬行。为了避免爬虫系统被腾讯微博平台识别为恶意程序而被封禁,保证爬虫系统的连续运行,爬虫系统的爬行间隔设置为5分钟。数据的采集时间为2014年7月至9月,系统持续跟踪了这段时间内的所有话题。图1爬虫系统设计框架
1.2数据采集结果
系统每天监测排名前10的话题,由于每天的话题有重复,在数据采集期间一共获取话题数量207个,获取与所有话题相关的微博信息超过870万条,用户总量超过400万。首先对话题的性质进行分析,通过统计发现,话题主要分为娱乐性质、社会性质和其他性质。娱乐性质的话题主要和娱乐界的事件、人物相关,例如某个明星开演唱会等;社会性质的话题主要和社会事件、人物相关,例如某地发生灾害或者草根爆料事件等;除了这两种话题之外的其他话题属性比较模糊,所占比例很小。表1是这3种性质话题的统计结果。从表1中可以看出,社会性的话题数量占比为17.39%,而娱乐性话题的数量占比为73.91%,用户比例表示相应话题下所有参与话题讨论或转发的用户占采集用户总量的百分比。在话题数量差距巨大的前提下,参与话题的用户数量却基本相同,甚至社会性的话题参与人数还要略高于娱乐性的话题。从话题的平均持续时间可以分析出原因,对于娱乐性的话题,其平均持续时间为4天,比第三性质的话题持续时间还短,远小于社会性话题持续时间,说明用户群体虽然对娱乐性质的话题关注度较高,但是没有持续跟踪的热情,但是对社会性质的话题有很高的持续跟踪热情。话题在持续发展的过程中,随着其影响范围逐渐扩大,会吸引更多用户参与其中,这和话题的传播特点有关。根据采集的数据,从中选择了“云南昭通市鲁甸县地震”和“江苏昆山工厂发生爆炸”这两个社会性的话题微博数据作为实验数据集,对话题传播的特点进行分析,测量话题传播过程中通过转发形成的拓扑结构。
2话题传播的拓扑结构
2.1话题传播的特点
微博平台是由关注与被关注的机制连接起来的社交关系网络,是人们在现实生活中社交关系在互联网上的映射和扩大。信息在微博上的传递大多数是通过转发方式来实现的。微博上话题传播的第一个特点是话题传播的间接性,信息不直接传递给用户,而是首先通过几个微博用户进行转发,然后关注这些用户的粉丝会选择性地对这些信息进行转发,这样经过层层转发,信息间接地传递给受众。根据YANG[15]等人对Twitter的研究发现,其中有接近25.5%的内容是从朋友的推文中转发而来。在采集到的腾讯微博中去除个人心情相关的博文,只统计和话题相关的博文,统计结果显示,转发博文所占比例的平均值高达54.7%。但是话题转发率高,并不代表该话题就可以大范围地传播以及产生巨大影响,话题能否产生巨大影响和话题本身以及受众的偏好有直接关系。根据研究人员对Facebook用户群体的研究[16],发现许多有影响力的用户更倾向于彼此之间进行关注,这个现象说明社交网络存在明显的同质性。同质性[17]是指有相似特征的用户之间形成好友关系的倾向,即通常所说的“物以类聚,人以群分”。有些话题与娱乐明星或者体育等相关,在关注这些人的圈子里,这方面的话题可以大量转发和传播,但却不能在整个微博网络平台上产生广泛关注,因为这些话题不能吸引圈子外其他人的兴趣。相比之下与社会性相关度高的话题,能够吸引更多人的兴趣。而且微博网络被证明符合六度空间理论。KWAK[18]等人对Twitter的转发路径研究表明,超过90%的转发路径长度都小于6,所以这类话题能够在微博平台上引起广泛的关注和讨论,传播范围更大。微博话题信息传播的另一个特点是具有很强的时效性,即话题从产生到消亡的持续时间较短,不能长时间地保持很高话题热度。话题的热度发展趋势可以分为产生期、爆发期和衰亡期,但是在产生期到爆发期之间可能会出现一个短暂的静默期,同时在爆发期后也可能进入静默期,在受到一些条件的刺激后,再次进入爆发期。其中话题在静默期表现为话题的热度基本维持不变或者是变化率很小;在爆发期时表现为话题的热度呈现线性增长,话题迅速扩散,用户参与话题的数量也呈线性增长趋势;进入衰亡期后,热度迅速下降,参与话题的总用户量达到稳定,变化率基本维持不变。根据从腾讯微博平台采集的数据,针对“云南昭通市鲁甸县地震”和“江苏昆山工厂发生爆炸”两个话题的数据进行分析,采用用户的参与度来衡量微博话题的热度。图2为两个话题每日新增用户数量统计,话题持续时间较短的是“工厂爆炸”,它的发展是一个典型的话题发展过程,从话题产生后直接进入到爆发期。图3是两个微博话题参与用户数的累计概率分布。从图3可以看出,前3天的新增用户量占了近90%,说明话题的传播处于爆发期。然后迅速进入衰亡期,持续时间只有一个星期,衰亡也非常迅速,充分体现了话题传播的时效性。云南地震话题的持续时间较长,它的发展是一个非典型的过程,首先它的热度持续了较长时间,超过了3个星期,而且它有两个爆发期,从图3中看出,前3天和第8~12天这两段时间的新增用户所占比例分别接近40%和30%,说明这两个时间段话题的传播正处于爆发期。两个爆发期中间还有一个短暂的静默期,从话题产生开始就迅速增长,其第一个爆发期持续了3天多,这和地震的黄金救援72小时时间基本吻合,这段时间内用户关注数量增长非常快。接下来新增用户数量逐渐减少,趋于平缓,然后就进入了静默期。如果这个时期没有其他的因素进行刺激,那么话题就有可能慢慢进入消亡期,热度逐渐消退。但是话题却再次被激活了,从静默期又一次进入了爆发期,因为这段时间内发生了较大余震,并且许多救援问题凸显,导致许多用户又开始关注这一话题,于是进入了第二个爆发期,新增用户量又开始剧增。第二个爆发期后,由于事件中的所有问题都得到了妥善处理,没有新的刺激点,用户的关注度也逐渐下降,新增用户数量逐渐减少,直至趋于稳定,然后话题就逐渐进入消亡期,热度逐渐消退。话题的发展趋势和事件的发展及处理过程非常吻合。
2.2话题传播的拓扑结构形态
微博话题通过转发的方式进行扩散,从一个或少数的用户开始,到被大量的用户发现并进行转发,最后进行大规模传播甚至扩散至整个微博平台,转发方式是用户获取和传播信息的主要途径。通过获取话题中有转发标志的微博用户,并标注出话题在这些用户中传播的路径,得到了话题的转发树,表示话题在传播时的拓扑结构。图4表示的是“昆山工厂爆炸”话题转发树的拓扑结构,表示的是用户之间的转发关系,一条线表示一个转发关系。其中包含许多不同的“类”,这些类是若干个节点的集合,在这些类的内部,各个节点之间联系紧密,而各个类之间则仅仅通过少数的几条边相连接。从图4可以看到各个点之间的联系,而且很容易看出网络的整体传播结构。形态。第1种形态是在关注朋友圈子里面的小范围传播,如图4中的a)部分的简单转发结构所示,话题微博仅仅被用户的直接好友大量转发,短时间内话题的转发量和用户参与数迅速增加,但是之后就不会再继续向外扩散,形成了一个小范围的扩散结构。第2种形态如图4中的c)部分的简单转发结构所示,话题微博也只是被用户的直接好友转发,但是参与数量很少,只有一个或几个,即使转发之后话题微博也难以向外扩散,很快就停止传播。图4中的两个简单转发结构表示的就是这种形态有共同的特点,就是扩散的用户多但是路径很短,扩散范围小,而且传播速度较慢。第3种形态就是图4中的b)部分所展示的方式,话题的传播路径相对较长,参与转发的用户数量很多,话题的传播范围很广,我们将针对这种传播范围广的转发树来进一步研究。
2.3话题传播拓扑结构的性质
网络平均路径长度[19]指网络中所有节点对之间最短路径的平均值;而网络直径则是指网络中任意节点对之间最短路径的最大值。这两个值可以用于描述网络的信息传输速率、传输范围等特性。节点的聚类系数[19](ClusteringCoefficient)表示一个节点与邻居之间相互连接的紧密程度,刻画了网络中节点的集团化程度;而网络的平均聚类系数是所有节点聚类系数的平均值,刻画整个网络的聚类特性。网络中的一个节点i有K条边将它和其他节点相连,这K个节点就是节点i的邻居,在这K个节点之间最多可能有K(K-1)/2条边。而这K个节点之间实际存在的边数E和总的可能存在的边数之比就定义为节点i的聚类系数,如公式(1)所示:很明显,Ca≤1。当且仅当所有节点都为孤立节点时,Ca=0。当且仅当网络是全局耦合的时候,即网络中任意两个节点都直接相连时,Ca=1。为了测量传播过程中拓扑结构的性质,本文利用分析工具产生随机网络与实际获取的社交网络数据进行对比,产生一个无尺度的复杂网络[20],模拟用户社交网络。首先要生成一个ER随机网络,这是Erdos和Renyi最开始研究的随机复杂网络模型,对一个节点数N>>1的复杂网络,任一条边都以相同的概率p连接任意两个节点,这就是一个典型的N个点,有pN(N-1)/2条边的ER随机图。对于大型的稀疏网络,p值非常小,表达起来及其不方便。因此,在产生ER随机网络时,利用一个更直观的概念:节点的平均度d,它的值定义为:………………………………………………(3)公式(3)中p为连接概率,v为节点数目,M为该复杂网络中最多可能存在的边数。先前产生的ER网络没有考虑到许多复杂网络的实际特性,其中有两个重要的特征,复杂网络具有动态增长和优先连接特性。动态增长是指在实际的复杂网络中网络的规模是不断变化甚至扩大的;优先连接是指新加入进来的用户,更倾向于与那些具有较大连接度的节点相连。基于这两个特性,在ER网络的基础上构造无尺度网络。1)增加网络规模:每一步向网络中增加一个新的节点,同时向网络中添加k条边。2)优先连接:边所连接的两个节点是在所有的节点(包括新增加的节点和原网络所有节点)中以某个概率来选择。其中,各节点被选择的概率的大小Pr(v)与节点的度有关,具体计算如公式(4)所示:其中,|E|表示原网络中总的边数(也就是原网络中各节点的度之和),|v|为节点数,而indeg(v)和outdeg(v)分别表示节点v的入度和出度,α、β和γ分别为三个常系数,且α+β+γ=1。利用上述的方法产生了两个分别包含50000和80000个节点的无尺度随机网络,用于和从真实社交网路获取的数据进行对比。从36个话题中随机抽取8个话题,这些话题包含的用户规模都比随机无尺度网络大一些。分别测量它们的拓扑结构,计算它们的平均路的径长度、网络直径和网络的聚类系数进行对比。表2中是部分无尺度网络与话题传播拓扑结构参数对比。从表2可以看出,微博话题传播拓扑结构与随机无尺度网络相比,其平均路径长度基本相同,但是网络直径要远小于随机无尺度网络,这说明实际拓扑结构中的节点间联系更加紧密,聚集系数的测量结果也证明了这一点,测量结果中实际网络的聚集系数的最小值0.2009要远远大于随机无尺度网络聚集系数的较大值0.000071。如果一个网络有较小的平均路径长度和较高的聚类系数,则可以成为小世界网络,从测量结果分析,话题传播形成的转发结构网络具有明显的小世界特性。与新浪微博和人人网的拓扑特征参数对比,他们的平均路径长度、网络直径和聚类系数都很接近,说明话题传播形成的拓扑结构与新浪微博和人人网的网络关系拓扑结构具有相同的网络性质。在这个转发网络中,网络的平均路径相对很短,但是网络的聚类系数很大,说明在整个传播网络中,用户间的联系更为紧密,这十分有利于信息的传播,而且网络的小世界特性会加速信息的传播过程,话题信息在用户之间进行层层转发,多次转发,从核心的用户逐渐向外扩散,用户参与数呈爆发式增长,话题传播范围越来越广。因此研究话题传播拓扑结构对研究如何进行舆情监控、网络监管以及研究用户的影响力具有重大意义。
3结束语
舆情信息的监管是当前网络安全监管的重要内容之一,微博已经成为了舆情信息传播的重要平台。为了研究舆情信息在微博上的传播模式和特点,本文利用爬虫程序从微博网络上获取话题数据以及相应的用户数据,通过对用户参与转发的过程进行分析,总结出了话题传播的一般规律和特点,并结合实际情况进行了验证。然后利用话题中用户间的转发关系,绘制出了话题传播的几种主要拓扑结构,对其中的大规模转发拓扑结构进行了深入的分析,并根据无尺度网络的定义,利用社交网络分析软件Pajek生成两个无尺度网络,通过真实的转发网络与利用分析工具模拟生成的随机复杂网络进行对比,测量其平均路径长度、网络直径以及聚类系数等参数,总结出了转发网络形成的拓扑结构具有明显的小世界特性。研究结果对网络舆情监控有一定的应用价值。本文主要针对微博社交网络上的话题传播过程进行了研究,目前的研究工作只利用话题中参与用户的转发关系来构建网络的拓扑结构,没有对用户的转发行为和用户关系进行进一步的研究。用户的个人行为对话题的传播也具有一定的影响力,用户的个人影响力能够加快话题的传播速度和扩大话题的传播范围,因此下一步的研究将是在话题传播拓扑结构的基础上,研究用户的行为和用户的影响力,发现网络中影响力大的用户,研究这些用户对话题传播过程的影响作用。
参考文献:
[5]平亮,宗利永.基于社会网络中心性分析的微博信息传播研究——以Sina微博为例[J].图书情报知识,2010(6):92-97.
[11]袁毅.微博客信息传播结构、路径及其影响因素分析[J].图书情报工作.2011(12):26-30.
[12]文伟平,郭荣华,孟正,等.信息安全风险评估关键技术研究与实现[J].信息网络安全,2015(2):7-14.
[13]王永娟,郝家宝.网络信息安全的威胁与防范技术研究[J].中国管理信息化,2015,18(20):146.
[14]卿斯汉.关键基础设施安全防护[J].信息网络安全,2015(2):1-6.
[19]张赛,徐恪,李海涛.微博类社交网络中信息传播的测量与分析[J].西安交通大学学报.2013,47(2):124-130.
[20]樊鹏翼,王晖,姜志宏,李沛.微博网络测量研究[J].计算机研究与发展,2012,49(4):691-699.
[21]李勇军.在线社交网络的拓扑特性分析[J].复杂系统与复杂性科学,2012,9(2):22-37.
作者:钟杰 王海舟 王文贤 单位:四川大学计算机学院网络与可信计算研究所 四川大学网络空间安全研究院