美章网 资料文库 网络舆情参与者情感演化分析范文

网络舆情参与者情感演化分析范文

本站小编为你精心准备了网络舆情参与者情感演化分析参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

网络舆情参与者情感演化分析

互联网由于平台的开放性,己经成为除政府、企业、媒体外,普通民众获取信息和信息的主要媒体,是民众对政府管理以及各种社会现象、问题表达态度、意见和情绪的平台。由于网络的便利性和虚拟性,部分网民将互联网当成情感发泄的地方,虚假新闻报道、灰色言论、偏激言论正渗透式污染者互联网空间。特别是移动互联网络的迅猛发展,广大民众能够更随时随地、迅速接收到各方面的信息,并任意转发。因此,随着时间的推移,网络舆情的态势不断变化,如果不能够对网络舆论进行及时、适当的引导,就有可能形成不同规模的网下集合行为,甚至是一定范围的暴力性行为,形成一定程度的恐慌,更进一步影响到其他民众的正常社会生活。比如日本海啸后,由于缺乏权威科学机构的及时引导,民众听信海盐受核辐射影响的谣言,纷纷抢购食盐,这不仅影响到民众的日常生活,更是引发零售商、制造商和供应商的连锁反应。因此政府如何准确把握网络舆情参与者———普通民众情绪的具体指向并进行及时有效的引导是我们一直以来不断努力的方向。本文试图通过对民众情绪指向对象的准确定位,为政府机构舆论引导的方向和内容提供依据明确的参考。

1研究基础

近年来,学者们尝试对网络舆情的文本进行情感倾向性分析,揭示网民对舆情事件的整体态度,方便政府机关和媒体机构应对突发事件能够及时采取有效措施。情感倾向性分析的研究大体可被分为三个层次:词语级情感倾向性研究、句子级情感倾向性研究、篇章级情感倾向性研究。词语级情感倾向性分析是研究文本情感倾向性的前提和基础,一是通过建立同义词网络(WordNet)、基于语义相关法与语义相似度的方法扩展已有的词典生成系统的情感词典;二是基于机器自学习方法,如PMI计算方法、多语言模型、朴素贝叶斯和最大熵模型构建给出特定词语的情感极性与强度。句子级情感倾向性则是通过上下文关联和机器学习方法、具有多重冗余标记CRF的分级模型、依存语法距离的影响因子模型等提取与情感倾向性判断相关的论述的持有者、评价对象、论述本身的倾向极性、强度以及论述本身的重要性等。篇章级情感倾向性分析则综合使用朴素贝叶斯、最大熵和支持向量机分类方法、情感密度函数、依存句法关系判断文本的情感倾向。

篇章级情感倾向性分析默认文本是针对同一个对象进行评论,忽视不同评论对象观点的差异性,在涉及牵涉多方利益的社会舆情时,无法全面、真实反映民众的关注焦点及其态度,因此,基于话题的网络舆情情感分析成为近期研究热点。国外学者提出的ASUM、JST及TSM模型以获取网络文本的主题及对应的情感信息。国内学者提出无监督的主题情感混合模型(UTSU)、主题-对立情感挖掘模型(TOSM)、多粒度话题情感联合模型(MG-TSJ),对话题及其子话题的情感进行正负向判断,而本研究团队曾于2014年提出基于概率潜在语义分析(PLSA)的网络舆情话题情感分析方法,挖掘话题情感随时间演变的过程。综观网络舆情情感分析,普遍以整个事件情感的正向或负向程度作为研究目标,没有明确其具体指向的是事件的当事人、监管部门或事件本身,也没有展示情感指向的具体内容。比如对食品安全危机网民一般是愤怒,那么愤怒的是制造者造假、销售者售假、监管部门监管不力不作为还是医疗机构抢救不力呢?前期曾出现了南京城管和摆摊瓜农之间的争端,网民普遍表示愤怒,根据以往事件的经验,网民的愤怒一般指向的是城管的野蛮执法,相关舆论的引导方向就应该是进一步规范城管执法程序。但此次纠纷网民的愤怒指向瓜农不配合执法、甚至用西瓜砸执法人员的行为,那么舆论引导的方向就转变为民众要遵守城市管理相关规定,并积极配合城管执法行为。所以,如果单纯从网络舆情事件整体分析,是没有办法准确把握网民的情绪指向,容易导致言论引导的不当。充分挖掘民众对于话题所涉及人物、事件的情感内容及情感变化,为政府监管部门或涉事主体采取积极、主动、有效的言论引导提供科学参考是我们致力解决的问题。

2模型建立

2.1研究框架本文使用分词软件对纯文本进行分词、去停用词和无用词处理,构建文档———词共现矩阵来表达文本;利用PLSA模型建立网络舆情话题空间,去除话题中代表情感倾向的特征词,并通过TF-IDF对特征词进行修正,形成不带有情感倾向的子话题———特征词空间;将每个子话题中特征词对应的文本资料以句子为单位重新整理,形成以各特征词为核心的具有一定交叉性的文本集合,使用分词软件处理文本,提取其中情感词,利用TF-IDF函数构建出特征词———情感词空间;应用HowNet相似度算法计算每个情感词对应的正负情感倾向值,并综合考虑特征词对应的所有情感词,计算得出特征词的情感值,对舆情参与者的情感指向及变化进行准确定位。

2.2话题提取话题一般由数组特征词表达的子话题构成。ThomasHofmann在1999年提出了概率潜在语义分析(PLSA)模型在海量文本的潜在语义识别方面表现良好,且其概率统计模型能够准确表达潜在语义并描述语义特征,因此,本文将PLSA应用到网络舆情话题的识别中来,引入一个潜在话题,对应着PLSA中的一个潜在语义层,通过识别海量文本的潜在语义来确定网络舆情中的话题,并利用其概率统计特性,从而为进一步研究网络舆情话题特征词,以及为舆情参与者情感演化的研究提供数据支撑。

2.3情感分析情父具有情感倾向性的任何名词、动词、形容词等,话题文本的情感倾向主要通过情感词来传递,同样,话题特征词的情感倾向值也是通过指向特征词的情感词来测算。在话题提取的基础上,本文根据特征词对应的文本资料进行筛选,以句子为单位重新整理;然后将整理后的句子根据句中不同的特征词保存到不同的特征词文档中;利用TF-IDF函数在每个特征词文档整理出与特征词关系密切的情感词空间。词的语义倾向性是指这个词与它根本义项的偏离度,用偏离方向(direction)和偏离强度(strength)来衡量。偏离方向是指该词的意义是正面的还是负面的,在情感分类中这个词语是赞成的还是反对的,偏离强度指该词所表达的正面或负面倾向的强度。对于情感词倾向性分析,本文首先采用知网情感分析所用词语集中的一个子集:“中文情感分析用词语集”,利用正面的情感词语和正面的评价词语建成褒义词词典,将负面的情感词语和负面的评价词语建成贬义词词典,由于单个字或词在上下文环境中会表现出不同的褒贬性,所以在操作过程中人工去除这些难以确定情感倾向值的词,具体的词典规模如表1所示。

3实证分析

由于网络的复杂性和传播的日趋碎片化,在保障基本的公众表达与社会监督等积极功能之外,网络舆论潜在的负面效应对舆情的监测和预警提出了更高的要求。微博上,由于“大V”效应、明星效应、公众人物效应等所引起的热点事件总能在一段时间内占据热搜榜榜首,所以对微博热点事件进行监测与跟踪,研究分析突发事件的舆论导向,防止对社会产生不良的负面效应。本文利用火车头脚本编辑器实现了海量舆情文本的提取技术;通过ICTCLAS汉语分词系统对提取的文本信息进行分词;然后结合TF-IDF和PLSA模型提取子话题特征词,丰富实验文本,提高研究准确性;基于HowNet的语义倾向性分析技术,通过相似度的计算对话题特征词进行情感倾向性分析,间接得到舆情参与者的情感倾向性;最后得到一段时间内舆情参与者对于舆情事件情感的具体指向。由于微博文本短、信息量少、文本特征矩阵稀疏,本文利用PLSA模型得到的潜在语义结构保留了文本语义。在PLSA模型中,与话题密切关系的词语会以较大的条件概率出现在该话题上,可以认为就是这些关键词语定义了该话题,从而得到文本子话题。另一方面虽然PLSA模型使用EM算法避免过拟合现象,但PLSA模型的训练参数的值会随着文档的数目线性递增,只能生成其所在数据集的文档模型,但无法生成新的文档模型。所以本文实证主要是对已经产生的话题文本通过时间分割确定文本集进行话题提取和情感分析。

3.1话题空间本文采集2015年4月7日的热点事件“刘翔退役”的新浪微博建立文本集,作为本文网络舆情话题特征词提取的研究对象,建立话题空间。根据百度指数和微指数的统计数据表明:“刘翔退役”事件的生命周期为4月6号到4月12号,数据量达到顶峰的时间段位于4月7日———刘翔发表退役声明。此突发事件的生命周期如图2~图3所示。本文对2015年4月6日至4月12日关于刘翔退役时间的微博进行24小时的跟踪提取,得到表2所示的数据图表。表2中列出采到的原始数据以及实验数据量。在使用全机器采集,缺少一定的准确性,且计算机硬件条件不足等情况下,采集到的文本有限,对于采集到的文本还需要人工处理。人工处理包括:删去重复性文本;去除文本中不可识别的符号;采集到的文本按一定的比重作为实验文本等。

3.2话题提取利用PLSA模型对采集到的刘翔退役事件进行话题提取,以“天”为节点,提取每个时间节点的微博话题。根据百度指数,4月7日是刘翔退役事件的最热时期,所以本文以4月7日微博文本建立的话题空间,进行文本分词,构建PLSA模型。

3.3基于特征词的情感词提取以4月7日刘翔宣布退役当天所产生的一个子话题为例(见表4),首先将与“刘翔退役”有关文本资料进行筛选,以句子为单位重新整理;然后将整理后的句子根据句中不同的特征词保存到不同的特征词文档中;最后在每个特征词文档中整理与之相对应的情感词。利用Google搜索引擎对这些词汇进行搜索,按照返回的Hits数进行排序,选取出现频率最高的词汇作为基准词。本文选取20对基准词进行测试,基准词如表5所示。以特征词刘翔的情感关键词为例,通过基于How-Net的词汇倾向性计算方法得到部分词汇的倾向值,如表6所示。最后计算可得到4月7号“刘翔退役”子话题中特征词刘翔的情感倾向值。从计算结果可以看出,虽然两次因伤病奥运退赛的表现让大家颇为惋惜,但广大网民与各路媒体对刘翔本人的评价是非常积极的,认为他是一个伟大的运动员、在世界田径赛场上创造了中国奇迹,对于“刘翔退役”事件的主角更多的是对其所过往取得成绩的肯定。

3.4基于特征词的情感演化参考所有子话题文本中的话题特征词,根据实验模型和实验数据,选取最具有代表性和研究意义的几个特征词:刘翔、孙海平、退役、退赛、冠军、运动员、广告、耐克,利用上文所示公式和方法得到4月6号到12号期间舆情参与者关于话题特征词的情感演化趋势。为了方便之后的分析与比较,我们将特征词按照自己的属性分为四组分别制图(见图4~图7),第一组为:刘翔、孙海平;第二组为:退役、退赛;第三组为:冠军、运动员;第四组为:广告、耐克。通过研究舆情参与者对话题特征词的情感演化,得到上述图表。我们可以直观得观察到从4月6号到4月12号这一段时间内,网民对“刘翔退役”这一话题及其子话题中的特征词的情绪演变趋势。每一组图表的含义相似,但表中的特征词与突发事件的主体有着不同类型的联系,便于我们从各个角度有效分析舆情参与者对公众人物及其相关名词的情感演化趋势。第一组在人物情感上,对于刘翔基于其所取得的突破更多的是正向情绪,对于其教练孙海平则颇有微词;第二组在退役和退赛表现上,广大网民接受刘翔因为长期伤病离开赛场退役的决定,肯定其取得的成绩,但对于两次退赛的表现广大网民的情绪指向较低,在理解的基础上参杂着些许失望;第三组在身份定位上,广大网民更多是对冠军荣誉的追崇,对于运动员身份的情绪值则较低,这也体现了对运动员为国赢得荣誉的尊崇;第四组涉及商业行为的,明显情绪值低的多,正向情绪没有超过50的,而对广告则负面情绪值接近-150,这也体现了广大网民对于体育赛事更多的是对运动员表现的关注,而广告的植入和代言还是比较受抵制的。

4结语

虽然本文在情感倾向分析的研究思路和实现过程中做了一些创新,但仍然存在着需要进一步深入研究的方面。第一,本文在词语情感倾向分析中,假设所有情感词语的情感极性都只有一种,但在实际中并非如此。例如“演员”这个词,它本身是个专有名词,表示一种职业,不带有感情色彩,但是如果放在上下文语境中:“08年奥运会赛场上的刘翔就是一个活脱脱的演员!”,这时“演员”这个词就带有了评论者的负面情绪。因此,在今后的研究中,在判断词语情感倾向值时可以考虑上下文环境等因素。第二,在对话题特征词作情感分析时,需要采用部分人工方式以句子为单位重新梳理文本资料,在大数据背景下,人工方式是没有办法在海量数据中进行快速准确梳理资料的工作,也会因为速度较慢延误舆情引导的黄金时间,因此需要考虑进一步完善模型,能够采用完全机器作业的方式对大数据进行快速准确的处理。

作者:黄卫东 林萍 董怡 李宏伟 单位:南京邮电大学管理学院