文本挖掘的网络舆情论文范文

本站小编为你精心准备了文本挖掘的网络舆情论文参考范文，愿这些范文能点燃您思维的火花，激发您的写作灵感。欢迎深入阅读并收藏。

文本挖掘的网络舆情论文

1.相关研究背景介绍

1.1PDCA循环PDCA循环是由美国统计学家戴明博士提出来的，其中PDCA是指计划（P）、执行（D）、检查（C）和处理（A）四个节点，而“循环”是指这四个过程并不是运行一次就结束，而是周而复始的进行，每次循环完成都会解决一些问题，未解决的问题则进入下一次循环。PDCA反映了管理活动的规律，其流程图如图1所。PDCA循环是一种能使任何一项活动有效进行的合乎逻辑的工作程序，对于提高日常工作的效率有很大的益处，它不仅在管理工作中可以运用，同样也适合于其他各项工作。目前PDCA循环已被应用到了管理学、系统学、医学、建筑学以及计算机等领域，但是其在网络舆情管理领域应用的还很少。

1.2网络舆情信息简介网络舆情信息是公众在网络上发表的关于某个事件的看法、意见和情绪等主观性信息，有政治舆情、法制舆情、道德舆情、消费舆情等。某个突发事件一经报道，比如“黄岛输油管爆炸”事件，短时间便会引起公众的热议，形成海量的网络舆情信息，如不能及时对网络舆情信息进行处理，则有可能引发新的突发事件，造成政府管理工作的被动。网络舆情的预防以及处理需要建立一套完善的网络舆情监管体系。

2.基于PDCA循环和文本挖掘的网络舆情管理

结合上述的分析，本文提出了基于PDCA循环与文本挖掘相结合的网络舆情信息监管方法。该方法中PDCA循环负责制定网络舆情监管的框架，涵盖了网络舆情监管规划、网络舆情监管实施、网络舆情监管检查、网络舆情监管修正四个步骤。而文本挖掘则负责网络舆情信息的抓取，网络舆情信息情感分析以及对网络舆情走势分析等一系列的智能决策支持技术。PDCA和文本挖掘的结合将目前社会科学领域和工程技术领域的研究进行了有效结合，制定了一套相对完善的网络舆情监控体系，如图2所示：

2.1网络舆情监管规划（Plan）网络舆情监管规划包括设定舆情监管机构、确定舆情处置的目标、建立舆情监管的标准、制定舆情监管的具体措施：(1)设定网络舆情监管机构：网络舆情的监管如果仅仅停留在行业和民众自律的基础上，效果甚微，无法从根本上保证网络文化的安全。为此，必须设定相应的舆情监管机构，明确责任，这是舆情监管的第一步，只有这样才能保障网络舆情监管的持续性、可靠性、透明性和安全性。(2)确定网络舆情处置的目标：这是网络舆情监管中的关键一步，设定明确的目标才能使得监管工作有条不紊的进行，目标可以设定为及时发现网络舆情中的热点话题、极性话题、敏感话题等。(3)建立网络舆情监管的标准：什么样的话题达到什么样的扩散程度和舆论效果，什么样的信息需要过滤等等，都是舆情监管的标准，只有事先确定好舆情监管的标准才能对舆情采取正确的监管方法。(4)制定网络舆情监管的具体措施：主要是决定采取何种方式方法进行网络舆情监管，只有明确具体措施才能保证目标的实现。具体措施可以包括工作人员手工筛选还是通过具体的文本挖掘技术进行筛选，进一步地，需要采用何种挖掘技术，各种技术具体怎么实现等等。

2.2网络舆情监管实施（Do）面对海量的网络舆情信息，单纯靠工作人员进行手工筛选显然是不合实际的，所以本文给出的网络舆情监控方法中提出结合文本挖掘技术实现对网络舆情信息的分析，从而更好地帮助相关部门进行科学决策。应用到的文本挖掘技术主要有以下几种：(1)网络舆情信息获取：获取相关的网络舆情信息是对网络舆情信息进行有效监管的基础，为后续的智能决策分析提供充足的数据，目前基本是采用网络爬行器来获取相关网络舆情信息。(2)网络舆情信息数据清洗：网络舆情信息作为一种用户产生数据（UserGeneratedContent，UGC），其中包含许多噪声，比如灌水类帖子中的内容、各种语气词、停用词等等，为了提高后续智能分析的效果，必须首先对数据进行清洗，去除其中的各种噪声数据。(3)热点网络舆情识别：民众虽然会展开各式各样的讨论，但是一般情况下相关于某个突发事件的网络舆情信息会包含若干个讨论焦点，比如对于“黄岛输油管爆炸”事件，民众讨论较多的就是“为何没有及时公布漏油事件以至于出现如此严重的伤亡”等等，所以挖掘民众关心的焦点问题可以更好地疏导网络舆情，以采取正确的应对措施。本文采用话题检测与跟踪（TopicDetectionandTracking，TDT）研究中的话题检测技术实现热点网络舆情的识别。(4)网络舆情情感分析：情感分析主要是指判定网络舆情信息的褒贬倾向，即判定一篇网络舆情信息持有的态度是褒义的还是贬义的。挖掘情感信息可以帮助决策者掌握民众目前反对什么、支持什么，以便可以做到有的放矢，更好地进行科学决策。现有的倾向性判定方法一般基于两种方法：一是基于机器学习的分类学习方法，即把倾向性判定看成是褒贬类的分类；二是基于情感词典的方法，通过统计网络舆情信息中包含的褒义、贬义情感词的情况判定网络舆情信息的情感倾向。(5)挖掘结果可视化：结合图论、仿真以及拓扑等理论知识，通过高质量高解析度的立体动态多媒体显示手段，从时间上的可视化和地理空间上的可视化两个方面对分析结果进行可视化。如图3所示的界面是本文采用Timeline和GoogleMapAPI实现的关于网络舆情信息在时间（左）和空间上的可视化（右）。有了如图3所示的可视化结果，可以更为直观的把握网络舆情发展态势。(6)网络舆情分析报告：有了以上的智能分析结果以后，再由舆情分析人员对结果进行分析和评价，确认其可信度和有效性，最终形成网络舆情分析报告。

2.3网络舆情监管检查（Check）与修正（Act）网络舆情管理必须需要对所收集和处理的舆论信息进行监督与检查，一方面采用文本挖掘的方法从大量网络语料集合中挖掘所需要管理的舆情语料及语义的分析，对比管理前后舆情的发展趋势及舆情程度进行对比，为下一步舆情管理提供数据保障，另一方面对舆情的来源及处理方式进行反馈与检查。对于现有的舆情管理体制以及舆情分析结果进行修正与改善，只有不断的改善创新，才能发挥出舆情管理更好的效果，然后应用到下一次的网络舆情管理中去。

3.结论

目前我国的网络舆情监控研究还处于起步阶段，提出了基于PDCA和文本挖掘的网络舆情监控方法，将目前社会科学领域和工程技术领域的研究思路有机结合在一起，给出了一套相对完善的舆情监控方法。本文通过网络舆情监管中的PDCA循环模式及文本挖掘的解析，深入论证了将PDCA循环和文本挖掘方法结合起来进行网络舆情监管的可行性。

作者：姜姗赵华曾庆田单位：山东科技大学信息科学与工程学院

文本挖掘的网络舆情论文范文

扩展阅读

免责声明

学术顾问