美章网 资料文库 基于数据挖掘的微博突发事件研究范文

基于数据挖掘的微博突发事件研究范文

本站小编为你精心准备了基于数据挖掘的微博突发事件研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

基于数据挖掘的微博突发事件研究

摘要:

如何高效地从海量数据中检测微博突发事件,成为近年来国内外学者的研究热点。分析突发事件的特征,采用词频增量、基于命名实体和微博传播特性的TF-PDF公式提取突发特征;引入项间关联规则,利用突发词的项间距离结合改进的Single-pass聚类算法生成突发簇集,识别出突发事件。通过新浪微博真实数据集的实验表明,该方法从海量微博中有效检测出微博突发事件。

关键词:

事件检测;特征;突发事件;聚类

0引言

Web2.0的兴起彻底改变了用户感知网络的方式,庞大的用户群体使得微博成为民众积极参与、传播、评论、转发的快捷社交平台。据中国互联网信息中心(CNNIC)的最新中国互联网络发展状况统计报告显示,截至2015年12月,中国网民规模达到6.88亿,互联网普及率达到50.3%,中国居民上网人数已过半,较2014年相比,网民规模增速有所提升。至此,全新的社交时代已来临。用户注册登录个人账户,通过140字左右的文字、表情符号、图片、视频等更新自己的最新状态,包括自己的心情、对某一具体事件的看法、评论、点赞及转发好友的微博,同时,还具备参与“#话题#”、“@好友”、私信好友功能。因此,迅猛发展的网络社交平台必然带来海量的微博数据。面对庞大的数据集,如何从多样化的微博数据中快速准确地检测出新闻话题,便于政府及时掌握各个时期微博中民众关心的热点话题,对舆情监控、监管预警、安全防范等方面具有十分重要的意义。同时,突发话题检测可以有效过滤用户不感兴趣的微博文本,获取用户关注的博文,改善用户浏览体验。因此,突发事件检测具有极为重要的现实意义。

1相关工作对比

传统文本数据,微博具有以下特点[1]:①微博字数较少,被限制在140字以内,文本稀疏性较高。②微博用户较多,必然产生繁冗的垃圾信息,文本冗余性较高。③微博用户的博文,非正式语法居多,用词造句较为随意,例如,网络用语、表情符号、文字缩写等。目前,国内外针对微博的突发事件检测也有一些研究。Yang等人[2]首先提出从新闻数据流中自动检测新闻事件算法,Xu等人[3]通过设置时间窗口策略结合改进TF-IDF算法检测新事件,缺点是未考虑到上下文语境。张鲁民等人[4]通过实时监测情感符号变化趋势,采用近邻传播聚类算法检测突发事件。张晓霞等人[5]将用以表征科学家贡献的H指数用于检测突发词,结合凝聚式层次聚类方法识别突发事件。该方法引入H指数对词语权重进行筛选抽取突发词,未考虑到微博传播特征对突发特征的影响。检测方法多数集中于两方面[6-9],基于文本的事件检测方法和基于突发特征的事件检测方法。其中,主要任务是话题识别和文本聚类。本文基于突发事件的突发特性,提出了一种微博话题检测的新方法。分为以下三个步骤:微博文本预处理、突发词抽取、突发词聚类。文本预处理阶段,采用中文分词工具对微博文本进行去噪、分词处理;采用时间窗词频增量和加权的TF-PDF公式提取突发词;最后,引入项间关联规则,利用突发词的项间距离和改进的Single-pass聚类算法生成突发簇集,识别出突发事件。

2微博文本预处理

据统计,新浪微博的每日用户量达到7500万条数据,如此庞大的数据量里面必然包含繁杂的垃圾信息,如用户个人心情、商业营销广告等。这些无用信息的存在必然会对实验结果产生影响。鉴于微博文本的高冗余性和特征稀疏性特点,需要对微博文本作相应处理。本文使用中科院张华平教授研发的ICTCLAS汉语分词系统,该系统具有中文分词、词性标注、支持自定义用户词典等功能,并结合以下预处理规则,对文本进行去噪,提高实验精准度。

(1)过滤词语数少于3个的微博。文献[10]指出,由于微博文本字数限定在140字内,综合考虑新闻六要素(5W1H)发现,何事、何地、何时三要素可以清晰描述一个事件。因此,过滤少于3个词语的博文。

(2)去除停用词。通常指无实际意义的代词和助词,如“我”、“他”、“的”、“吧”等。

(3)去除关注度为0的账号所发的微博。此类用户通常是由系统自动产生的恶意注册用户,行为极不活跃,其微博的多为转发商业广告,噪声极大。

(4)去除URL链接。博文中通常出现URL,此类链接多指向广告、视频,对于我们研究文本无意义。

(5)过滤包含“@”符号微博。包含“@”微博多用为两个用户间的信息交互,此类微博通常为个人琐事,不会成为突发话题。

(6)导入用户自定义词典,用于识别未登陆词、常用词。

3突发特征

抽取微博数据预处理完成后,如何正确抽取突发特征是微博突发事件检测的重要工作。在本文中,计算相对单位时间窗口内词频的增长率,综合考量命名实体和微博传播影响力对计算词语权重的影响,提出基于命名实体和微博传播影响力的综合加权TF-PDF算法,有效筛选出突发词。

3.1词频增量Kleiberg在2002年最早提出突发检测算法(BurstDetectionAlgorithm),他提出包含某个词的文献数量是在不同水平间的跳动,该词的重要性体现在词出现的密度,即频次相对增长的词汇,称之为突发词。本文将突发词定义为:在一段时间内,当前时间窗突然涌现且出现的频次急速增加,但在此刻之前的时间窗内极少或并未出现的词。本文中识别突发词的时间窗口设置为一天。在经微博数据预处理后,统计时间窗j内词i出现的频率f(i,j),给出词频在时间窗口内的增长率公式(1):Fi,j=fi,j-fi,j-11+fi,j-1(1)式中,Fi,j表示词i在j时间窗词频增长率,fi,j表示词i在j时间窗出现的频率fi,j,fi,j-1表示词i在j-1时间窗出现的频率fi,j-1。

3.2词语权重TF-IDF算法是信息检索和文本挖掘领域经典的加权算法,用于评估一个词对于整篇文档或整个语料库的重要性,其思想是一个词的重要性会随着它在文件中出现的频次成正比,随着在语料库出现的频次成反比。wi,j=tfk,j×idfj=mi,jMj×log(Nn)(2)公式(2)中,mi,j表示文档j中词i出现的次数,Mj表示文档j的总词数,N为总文档数,n为包含词i的文档数。该算法考虑到如果词出现在多个文本中就认为该词语权值较低,对于突发词而言,一段时间内该词是暴增的,因此使用TF-IDF算法计算突发词权重时缺少较好的区分度。本文采用文献[11]提出的TF-PDF算法计算词语权重,该算法为多个渠道多个文档频繁出现的词分配更高的权重,更符合突发事件的特征,公式(3)(4)如下:wi=nt=1Σ|fi,t|exp(di,tdt)(3)|fi,t|=fi,tnc=1Σfc,t2姨(4)其中,Wi表示词i的权重,n表示渠道的数量(即时间窗的数量),fi,t表示词i在时间窗t内出现的频率,di,t表示在时间窗t内包含词i的文档数(即包含词i的博文数),dt表示时间窗t内所有文档数(即所有博文数)。据研究统计,突发事件的文本多以命名实体组成,如“云南鲁甸地震”、“昆明火车站暴恐”,所谓的命名实体包括人名、地名、机构名、专有名、时间等以名称为标识的实体。本文在TF-PDF算法基础上引入命名实体的附加权重Mi,见公式(5)。Mi=1词i属于命名实体0.7词i不属于命名实i体(5)当包含特定词的文本在微博中广泛传播,该事件极有可能引起更用于多人的注意,引发热烈讨论,换言之,在微博传播过程中,一条微博的迅猛传播,极有可能引起突发事件。因此,本文引入微博传播影响力得计算。公式(6)、(7)如下:BIi,j=FWi,j3姨+姨CWi,j(6)Ii=120000<BIi0.810000<BIi<200000.6BIi<1000000000000000(7)其中,BIi,j为包含词i的微博j的影响力,FWi,j为微博j的转发数,CMi,j为微博j的评论数,Ii包含词i的微博的总影响力。为避免微博影响力过大,弱化其他因素,故将影响力控制在一定范围内。综合考虑命名实体规则及微博传播影响力,提出突发词权重公式(8)计算如下:Wi=wi×Mi×Ii(8)结合词语突发性和词语权重,最终提出复合权值评价一个词的权重,公式(9)中,α取值为0.5。Weighti,j=αlnFi,j+(1-α)lnWi(9)由以上词频统计和基于命名实体和微博传播影响力的词语权重计算算法抽取突发词,生成突发词集Burst={burst1,burst2,burst3,…,bursti}。

4突发词聚类

如何将突发词进行聚类从而识别出突发事件是本小节的研究重点。通过突发词聚类,生成大小不一的突发词类簇,每个簇即代表一个微博突发事件。目前,常用的文本聚类的算法有:划分聚类算法、密度聚类算法、层次聚类算法等。其中常用的聚类算法是K-means算法、凝聚型层次聚类算法、Single-pass算法。K-means算法需指定类簇的个数且聚类结果对初始簇心的选择较为敏感,凝聚型层次聚类算法时间复杂性高,处理大规模数据集速度较慢。传统的Single-pass算法思想是依次读入新文本T,将T与已有类簇进行相似度比较,判断T与距离最近的簇的相似度是否大于阈值,若大于阈值,将T归为对应的类簇,否则,建立新簇。为提高聚类结果的准确性,本文采用改进的Sin-gle-pass算法,实现对突发词的聚类。算法思想如下:①输入文档T;②计算T与已有类簇内所有文本的平均相似度,判断是否大于阈值;③将相似度与阈值比较,若大于阈值,则文档T归为该类,否则,建立新类簇T。④聚类结束;本文引入关联规则中项与项的距离计算突发词之间的距离,距离越大,相似度越小。将突发词集比作事务数据库,wordi和wordj是事务数据库的任意两项,它们之间的距离定义为:Dwordi,wordj=1-|R||R(wordi)|+|R|-|R|(10)(10)式中,Dwordi,wordj表示wordi和wordj间的距离,R表示包含wordi和wordj的文本数,R(wordi)表示包含wordi的文本数,R表示包含wordj的文本数。通过以上聚类方法,突发词被归类到不同的类簇,类簇大小不同,每一类簇内的突发词具有极高的相似度,整个类簇代表一个突发事件。前文中提到表征一个事件至少需要三个词,因此去除小于三个突发词的类簇。

5实验结果与分析

本实验的数据源取自新浪微博,通过新浪微博API和网络爬虫,共采集2014年5月28日-2014年6月1的590194条微博数据。包括微博用户信息(用户ID、粉丝、关注度、微博等字段),微博信息(微博ID、博文、转发数、评论数等)。通过前文数据预处理中提到的过滤规则对原始数据进行过滤、去噪,经预处理后筛选出398104条文本数据。使用ICTCLAS系统对微博文本进行分词、过滤停用词(1893个停用词)、增加用户词典(本文使用搜狗互联网词库,共157202个词语),词性标注。本实验中,时间窗口设置为1天,抽取单位时间窗口内权重最高的前20个突发词,最终构成突发词集如表1表示。本文使用传统TF-PDF权重计算方法和Single-pass聚类算法作为对比试验,评测标准如下:准确率(Precision)=两种方法实验结果如表2所示:从本文聚类簇中选取最大的5个类簇代表该类簇的突发事件,根据上文微博影响力的计算,选出与该簇相关的影响力较高的微博作为该簇集的突发事件,如表3所示。

6结语

本文通过分析突发事件的特点,提出利用词频增量和加权的TF-PDF公式提取突发特征,引入突发词的项间距离结合改进的Single-pass聚类算法生成突发簇集,识别出突发事件。通过新浪微博的590154条真实数据集的实验结果表明,该算法地能够有效地检测出突发事件,聚类效果较好。然而,在接下来研究工作中,本文还有以下几点可以改进的地方:

(1)突发词集抽取过程中,综合考虑用户的特征及微博传播、影响特性多方面因素计算突发词权重。

(2)Single-pass算法效果对文本输入顺序较为敏感,聚类结果可能存在误差。

(3)后续可进行突发事件的情感分析,分析突发事件是否为负面事件,给予积极的舆论导向。

参考文献:

[1]史剑虹.基于隐主题分析的中文微博话题发现[J].计算机应用研究,2014:701-704.

[2]张鲁民,贾焰,周斌,赵金辉,洪锋.一种基于情感符号的在线突发事件检测方法[M].计算机学报,2013:1559-1667.

[3]张晓霞,王名扬,贾冲冲,董煦.基于突发词H指数的微博突发事件检测算法研究[M].情报杂志,2015:37-41.

[4]赵洁,马铮,周晓峰,金培权.基于突发词项频域分析的微博突发事件检测[J].信息系统,2015:124-129.

[5]薛峰,周亚东,高峰.刘霁,赵俊舟,党琪.一种突发性热点话题在线发现与跟踪[J].西安交通大学学报,2011:64-70.

[6]逯万辉,马建霞,赵迎光.爆发词识别与主题探测技术研究综述[J].情报理论与实践,2012:125-128.

[7]郭跇秀,吕学强,李卓.基于突发词聚类的微博突发事件检测方法[J].计算机应用,2014:486-490.

[8]王勇,肖诗斌,郭跇秀,吕学强.中文微博突发事件检测研究[J].现代图书情报技术,2013:57-62.

作者:杨子 栾翠菊 单位:上海海事大学信息工程学院