本站小编为你精心准备了中文微博热点话题挖掘参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
《统计与信息论坛杂志》2014年第六期
一、相关理论
(一)话题检测与跟踪技术TDT作为一种主题检索技术,其特点主要在于关注与特定事件主题相关的数据。传统的检索技术是从内容来检索、确定文档的分类,而TDT技术是基于事件,利用分析文档与事件主题联系来获取特定主题信息,它从来源数据流中自动发现主题并把与主题相关的内容联系在一起。TDT的研究任务主要包括五部分:对新闻广播等报道进行切分(报道切分),检测未知话题(话题检测),跟踪已知话题(话题跟踪),检测未知话题首次相关报道(首次报道检测)以及检测报道间相关性(报道关联性检测)[7]。
(二)中文分词及词性标注中文分词就是将汉字序列切分成有意义的词,以字为单位,句和段则通过标点等分隔符来划界。目前主流的中文分词算法分为四类:基于字符串匹配的分词,基于理解的分词,基于统计和基于语义的分词[8]。词性标注是根据句子上下文环境给句中的每个词标记一个正确的词性,主要是机器针对多标记词(即有多种词性的词)和未登录词(即在训练语料中未出现的词)标记词性。词性标注技术与分词技术一样,在自然语言处理、机器翻译、文本自动检索及分类、文字识别、语音识别等实际应用中占有重要地位[5]。目前比较典型的标注算法归纳起来有:基于规则的方法,基于统计的方法,规则与统计相结合的方法。本文选用的是规则与统计相结合的方法。
(三)向量空间模型向量空间模型(VectorSpaceModel,VSM)是一个应用于信息过滤、信息撷取、索引评估相关性的代数模型,文本分析对象通常是以词为单位的VSM数据[9]。运用这个模型把文本表示为向量,就可以将文本处理简化为向量空间中的向量运算。当文档转化为向量时,文档中每个词对应向量的每个特征项维度,所有文档中的词所对应的维度构成了整个空间,而特征权重则是每个词对应每一维的取值,于是,一个文档Dj转化为特征向量Dj可表示为:其中tij是特征项,wij是特征权重,M是文本tij中的特征项总数。另外,文本中作为特征项的词不能重复,即各特征项tij互异,且文本的内部结构不需要考虑,因此特征项tij无先后顺序。
(四)K-means文本聚类K-means算法以欧式距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大,得到紧凑且独立的簇是聚类的最终目标。K-means算法中距离的计算公式如下:第一步,从数据对象中任意选择K个对象(K值需要预先设定)作为初始聚类中心。第二步,计算剩下的对象与这些聚类中心的相似度(距离),并分别将它们分配给最相似的(聚类中心所代表的)类。第三步,重新计算每个新类的聚类中心(该聚类中所有对象的均值)。第四步,不断重复第二、三步,直到标准测度函数开始收敛为止,一般采用均方差作为标准测度函数。该算法在处理大数据集时是相对高效和可伸缩的,计算的复杂度为ON(kt),其中N是数据对象的数目,t是迭代的次数(一般K≤N,t≤N,同时算法对顺序不太敏感,因此较适合对VSM表示的文本集进行聚类。本文聚类效果的验证采用类平均相似度,公式为:其中AVGT()SIM表示类T的平均相似度;CT表示类T所包含的微博条数;ft(avg(sim))表示类T中单条微博文t的个体平均相似度,即t与类T中其余微博文的相似程度之和取平均值。将类中所有微博文的个体平均相似度之和取一次平均值,从而得到类的平均相似度。
二、研究设计
(一)识别流程本文基于TDT技术设计出中文微博热点话题识别流程,主要环节如图1所示。首先通过微博爬虫系统获取所需的数据,如微博内容、评论数、转发数、受众数等;接着从获取数据中提取话题识别的数据源,利用中文分词处理过滤数据;对预处理后的微博内容中的每个特征词,利用特征词权值计算方法TF-IDF(TermFrequency–InverseDocumentFrequency)计算特征权重并建立向量空间模型,再利用K-means文本聚类来归纳出多个话题;最后对多个话题的影响力进行计算并分析,通过效果验证识别出热点话题。
(二)热点判定———话题影响力设计本文基于微博特点和话题本身,提出热度的判定因素———话题影响力。微博热点话题影响力为该话题中单条相关微博内容的影响力总和,单条微博内容的影响力又分为直接影响力和间接影响力。由于用户发表的微博文直接呈现给关注该用户的受众,因此单条微博的直接影响力与该条微博用户的关注人数(受众数)相关[10]。本文此处只考虑微博评论数与第一层的转发数。定义话题影响力相关计算公式如下:其中Inf()T为话题T的影响力;n为该类中与话题相关的微博条数;Inf()t为单条相关微博内容t的影响力。一个话题的影响力为话题中所包含的所有相关微博内容影响力之和。其中InfD()t为单条相关微博内容t的直接影响力;InfI()t为单条相关微博内容t的间接影响力。单条微博的影响力为直接影响力与间接影响力之和。题T的影响力为:
三、实证分析
本文实验数据随机选取了2011年12月8日到2011年12月14日这7天内的微博数据,通过新浪微博API接口共爬取微博内容2103条。根据研究设计的热点话题挖掘流程,对该周内新浪微博热点话题挖掘进行实证研究。
(一)数据预处理首先对微博内容进行文本预处理,即进行去重、分词、无效信息过滤、降维等操作。实验中使用C#版本的中科院ICTCLAS中文分词系统对微博文本进行分词处理,同时标注词性,并过滤微博内容,保留名词及名词性词语,然后将所有的单字过滤,再去除所有的英文字符、数字和一系列数学符号等非中文词,只留下有意义的中文词语。图2为关于“2012年伦敦奥运会期间英国女王出租宫殿套间”话题文本示例。
(二)话题识别文本预处理后,针对每条微博内容,利用特征词权值计算方法TF-IDF计算各个单词权重,以构成一个向量空间模型用于聚类。实验中,K值在最大值范围内通过多次实验结果验证来选取。经过多次试验,最终将该周的微博内容聚为10类,并对各类进行类关键词提取,结果如表1所示。以上10类中,所提取的关键词具有较强实时性的有6个,关键词所包含信息较为日常的类有4个。此时若设置类平均相似度阈值为0.01,则恰好包含较强实时信息的6个类别。将类平均相似度高于阈值且包含较强实时信息的类定义为一个话题,则从微博内容中发现话题数目为6个,分别为类3、4、6、7、8、10。
(三)话题影响力排序大多关于热点发现的算法认为,在聚类后出现的热点词频率较高,则该话题即为热点话题。这种原理是基于热点词与话题的附属关系,但却忽略了当话题较分散的情况下聚类也能进行,同时在聚类结果中,可能有些话题只是局部较热的小话题,整体来讲算不上热度很高[11],因此可以设置一个阈值来区分话题冷热,话题热度(本文中以话题影响力来衡量)高于阈值则表示聚类出来的话题为“热点话题”,低于阈值则视为“非热点话题”。热点与非热点的概念是相对的,因此也可以根据话题影响力公式计算出每个话题的热度,然后按照热度分数排序,分数越高表示话题影响力越大,热度越高。实验中,挖掘热点话题的数据来源时间段Δh为2011年12月8日至2011年12月14日。由于实验中发现话题的总数较少,故本实验不以预先设定话题影响力阈值来划分“热点”与“非热点”,只将话题按影响力大小排序,即设定所发现话题均为热度不同的热点话题。根据话题影响力相关计算公式(4)~(8),计算得到实验中所提取的6个话题在当前时段的影响力评分及排名,如表2所示。考虑到微博转发会使微博的影响扩散,相对于评论其影响力更大,因此公式(8)中α取值为0.4,β取值为0.6.从以上分析结果可以看出,在实验识别出的2011年12月8日到2011年12月14日的6个话题中,影响力从大到小依次是江苏丰县校车事故、南京大屠杀纪念日、韩国海警被刺事件、电影《金陵十三钗》即将上映、广东陆丰乌坎村群体事件、双子座流星雨爆发。
(四)效果验证话题识别与跟踪的效果一般使用准确率和召回率两个参数来衡量,公式如下:A表示已提取出的与话题相关内容,B表示已提取出的与话题不相关内容,C表示未提取出的与话题相关内容。在全部文本数据中,与话题相关的数目为A+C,而被判定与话题相关的数目为A+B。召回率和精度是不可能两全其美。当召回率较高时,精度反而降低;反之精度高时,召回率就会有所降低。因此,本文用这两个度量值融合而成的一个度量值F来衡量这个效果。F值公式如下:实验以“召回率”、“准确率”验证热点话题发现效果,根据公式(9)、(10)、(11)计算出每个话题的召回率与准确率,如表3所示。从表3可以看出,6个热点话题召回率从高到低依次为:韩国海警被刺事件,江苏丰县校车事故,南京大屠杀周年纪念,双子座流星雨,陆丰乌坎村群体事件,电影《金陵十三钗》话题,各类话题召回率均较高。相反,各类话题准确率均较低,最高为双子座流星雨,仅为0.769,最低为广东陆丰群体事件,仅为0.641。聚类准确率低与微博内容零散、谈论话题范围极其广泛有关,即话题聚类时噪声数据太多,导致β值较大。实验表明微博热点话题发现的“召回率”较高而准确率较低,这与微博内容的不规范性、随意性等特点有关。从综合衡量召回率和准确率的F值来看,热点识别取得了良好的效果。尽管微博内容存在一定的不规范和随意性,但从实证分析中可以看到,聚类所选取出的6类热点话题F值均保持在0.75以上。
四、结论
本文借鉴TDT技术,设计了一套中文微博热点话题挖掘流程,并利用一段时间内的少量新浪微博数据进行热点发掘实证研究。该流程可以使微博站点外部用户利用少量微博数据便能挖掘微博热点,以满足其监控舆情或发现商机的需要。本文主要的创新工作有以下两点:第一,将识别热点话题的主流技术TDT运用于中文微博平台,同时还在流程设计中结合了中文微博的特性。第二,微博平台往往以单一的微博数量指标来衡量话题热度,而本文则提出了以话题影响力的大小来评判话题热度。由于新浪爬虫程序爬取的数据有限,因而本文仅限于对能收集到的数据进行研究,实证结果难免有一定的局限。另外,微博内容较杂乱,噪声信息较多,话题聚类效果也有待提高,因此相关聚类算法的改进也是未来研究的方向。话题影响力验证方法还需完善,后期可以对热点话题进行动态跟踪,以发现热点话题的整体趋势变化。
作者:何跃帅马恋冯韵单位:四川大学商学院