本站小编为你精心准备了社交媒体信息系统设计论文参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
1系统架构
数据存储:负责存储社交媒体数据以及应急信息实时分类模型。采用MongoDB存储微博数据。MongoDB是基于文档存储的数据库,适合用于组织、管理微博数据。另外,微博数据具有位置信息,MongoDB支持空间索引,有利于进行后续的空间查询。数据挖掘:是系统的核心模块。结合GIS原理,运用“图片+描述”形式再现突发事件的发生情景;采用自然语言处理技术、话题模型、监督分类方法从实时的短文本提取和分类应急信息,标注在地图上;从社交媒体数据量和空间属性出发,统计、分析、探寻突发事件趋势,为应急决策提供依据。结果可视化:是系统的特色单元。该模块将数据挖掘产生的图片集、信息分类表、趋势线以图、表的形式,同时结合了WebGIS的相关方法,输出到Web浏览器端。
2关键技术
本文研究了基于社交媒体突发事件应急系统的多个关键技术:情景再现、应急信息提取、趋势分析等。情景再现:可整合社交媒体数据的直接信息,结合时间、空间对突发事件的图片文字等信息进行查询,展示事件发生情景;应急信息提取:利用实时应急信息分类方法,提取、分类出突发事件的状况、救援等应急信息,标注在地图上;趋势分析:通过分析微博的数量变化和空间分布,揭示突发事件趋势和公众关注点。
2.1情景再现
在突发事件中,目击者的照片(尤其是手机拍摄的照片)使得公众报道在灾害应对中越发重要[5]。因为图片给人们最直观的感受,特别是在自然灾害发生时,图片能够描述灾害的发生情景,客观反映灾害造成的破坏场面,为应急决策提供直接的证据。情景再现,是采用“图片+描述”方式,通过图片、文字描述突发事件在空间上的最新发展状况。社交媒体具有很强的时效性,加上人们对突发事件的最新动态较为敏感。所以,最近一段时间的图片适合表现突发事件的发展状况。另外,突发事件可以抽象为地理空间上的地理现象,社交媒体数据具有位置信息,可利用地图的可见范围来约束突发事件情景的范围。由此可见,情景再现实质上是多维信息查询,包括时间、空间、图片信息三个维度。多维度查询也很好地缓解了在浏览器端绘制时的效率问题和压力问题,特别是空间的限制,大大地提升地图交互能力。系统采用AJAX技术实现按需加载图片,加快浏览器的响应速度。
2.2应急信息提取与定位
微博的大部分信息以文本的形式存在。从文本自身特点来看,文本短小且信息杂乱,包括事件状况、求援、救援、评论、商家广告等多种多样信息。从信息流来看,微博文本是实时获取的,具有实时变动性。本文提出了一种从海量、实时的社交媒体数据中提取应急信息的方法,学习过程:系统初始化时,当文本积累一定量后,训练初步模型。取出数据库的所有文本,把每条微博文本看成一个文档,即得到文档集。文本预处理包括去掉重复微博,采用中文分词器Ansj分词、去掉停用词,获得分词后的文档集,作为话题模型LatentDirichletAllocation(LDA)的一个输入。设定好主题个数后,采用随机模拟的GibbsSampling算法,得到各个文档的主题和各个主题的单词分布(即词库)。如此,文档集的大部分文档被标记了。将单词为特征、主题为类别的文档集输入到监督算法SupportVectorMachine(SVM)做训练,调优并得到初步应急信息分类模型。预测过程:模型训练好后,新的微博文本经上文相同的文本预处理,得文本的所有特征(单词),输入到训练好的应急信息分类模型,输出所属主题;同时结合LDA生成的主题词库,判断文本的主题类型,并标注在地图上。更新过程:主要针对模型和主题词库的更新。考虑到信息采集速率,与上个模型相隔2个小时后,取出所有文本,重复学习过程重新得到模型和词库,以适应微博话题随时间的变化,提取新的应急信息。
2.3趋势分析
人们除了关注突发事件的最新情况、应急信息,还想了解事件的发展趋势。系统从时间趋势和空间分布两个方面来表现突发事件的趋势。研究表明[6]:社交媒体数据可以被用来甄别事件在时间上的发展趋势,甚至做出预测。为揭示突发事件时间发展趋势,我们统计每小时的微博总数、用户参与数、转发数,通过观察趋势线的最高点和拐点来发现趋势。另外,词云图利用中文分词技术处理一定时间内的微博内容并统计高频词汇,找出人们讨论的热点话题以及其随时间的变化。微博数据携带位置信息,反映了突发事件的空间分布。系统使用了聚类分析和核密度估计来发现事件空间分布规律。聚类分析通过对微博点在空间距离上做聚类,以便寻找事件在空间的分布状态,分配应急资源;核密度估计很好地反映了事件在空间上的热点区域,有利于发现问题区域所在。
3系统的主要功能
3.1查看、浏览图片功能
1)采用“图片+描述”形式,通过缩略图、大图与地图联动来展示突发事件的情景。当点击图片时,地图中心会移动到图片对应的坐标点,并弹出信息框,包括者、微博内容、时间和经纬度等;当点击地图上的点时,该点对应的图片出现在图片框中央。2)添加按时间、热度排序的功能,便于查看最新、最热的图片。图3展示了2012年“7.21北京特大暴雨”中某条微博的图片、文字、地点等情景。
3.2定位应急信息功能
1)利用实时应急信息分类方法,提取并分类好微博文本的应急信息。采用表格形式展现应急信息,每个表格与一个主题关联,主题以标签的形式表现在网页中。当点击相应标签,表格内容随之发生改变。2)每条文本与地图联动。当点击表格中文本时,地图中心会移动到文本对应的坐标点,方便定位应急信息,展开救援。图4展示的是“7.21北京特大暴雨”微博经过应急信息提取后得到“救援信息、天气预报、损失与影响”等主题,及“救援信息”主题下的救援信息。
3.3时空趋势分析功能
1)利用Echart图表,统计每小时的微博总数、用户参与数、转发数,以及趋势线(微博总数减去转发数),使用放大窗口查看曲线的局部细节,如图5所示。在A点和B点前一个小时,北京市气象台分别了暴雨橙色预警和暴雨黄色预警。2)当点击曲线上的拐点时,利用AJAX技术,在地图上动态加载每个小时的点数据。通过切换不同图层(热点图和聚类图),可查看暴雨微博的空间分布情况。图6左上部分为“7.21北京特大暴雨”微博的热点图,暴雨微博在地铁1号线和首都机场附近出现聚集现象,反映了暴雨事件空间热点分布。
3.4发现热点话题功能
另外,系统采用词云图和柱状图来展现最新微博的高频词汇,反映最近时间内突发事件的话题变化。图6右、下部分展示了截至7月22日10时“7.21北京特大暴雨”的词云图和高频词汇柱状图,直观地展现人们的讨论热点话题,如“大暴雨、回家、平安、积水”等。除了多种的表现形式,数据可视化还要考虑多图层绘制效率问题、大数据量的渲染压力问题。为了解决这些问题,我们可以采用图层控制、矢量绘制点、使用JSON包装处理结果等方法。
4结束语
系统利用社交媒体这种新型数据源,有效地从中挖掘突发事件应急信息,弥补了传统应急系统信息单一信息源的不足。首先,本系统利用社交媒体的多媒体数据———图片,直观地展现事件发生时的场景;其次,通过对实时文本流进行提取与定位,有效地提炼出突发事件应急信息;最后分析了突发事件的时空发展趋势,有利于制定后续应对措施。但目前系统还未能通过侦听突发事件而自启动,自动化不够。在今后的研究中,可利用社交媒体来侦察突发事件,自动开始获取数据。同时在突发事件后期,通过社交媒体数据做事后评估,如自然灾害的受灾范围和损失等。
作者:朱建奇王艳东叶信岳荆彤李剑萍单位:武汉大学测绘遥感信息工程国家重点实验室肯特州立大学地理系