本站小编为你精心准备了方向玫瑰图社会经济论文参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
1.1可视化效果图1中分别给出了利用三种不同的分析工具对相同的社会经济重心轨迹进行分析的结果。其中图1(a)为原始轨迹的显示结果;图1(b)为传统方向玫瑰图方法的可视化结果;图1(c)为本文中的语义方向玫瑰图。语义方向玫瑰图将社会经济重心轨迹各自对应的经济属性作为语义信息与全局轨迹方向玫瑰图的方法相结合,以可视化的形式表达。在语义方向玫瑰图中每个词的位置代表了该经济属性对应的重心轨迹在该方向区间内移动的距离大小即移动模式的显著性。同时,词汇的字体大小与该经济重心移动的显著性也成正比。因此,在图中词的位置离中心越远,字体越大,代表该经济属性所代表的经济重心轨迹在该方向上移动的模式越显著。对比图1中三种不同方法的实验结果可知:1)语义方向玫瑰图可从语义的角度对社会经济重心轨迹进行统计分析,最终直接以语义信息代表经济重心在图上表达。因此,语义方向玫瑰图给使用者提供了一种更直观更易理解的分析方法。2)语义方向玫瑰图从整体角度上看可反映经济重心轨迹的全局移动特性。同时,图中单个词汇又能反映其所代表的单条重心轨迹的显著移动模式,从而能更直接更全面的传递出经济重心轨迹的显著移动模式的信息。
1.2形式化定义语义方向玫瑰图是基于带有语义信息的重心轨迹Pj进行统计分析的,语义重心轨迹以式(1)的形式表达。式中n是轨迹上的采样点数,(xi,yi,ti,wj)表示的是在ti时刻移动物体状态;xi,yi为重心轨迹的空间位置信息;wj为语义信息,即轨迹所代表重心的经济属性名,如“国内生产总值”、“工业产量”等。
2生成方法
根据带有语义信息的社会经济重心轨迹数据,按照上式(3)即可计算出八个方向区间内每个语义词汇的词频,得到每个词在图中显示的极坐标位置。一般情况下,由于轨迹数量较多,为了保证语义方向玫瑰图分析的有效性和可行性,可根据轨迹语义词汇的重要性即其所代表轨迹移动模式的显著性大小进行排序和筛选,仅对移动模式最为显著语义词汇进行分析和表达。此外,由于词汇之间难免会出现许多重叠部分,影响可视化效果。因此,最后还可图中的词汇位置进行微调,以减少词与词的重叠碰撞。由此可知,语义方向图的生成过程可分为以下几个步骤:统计各个方向区间的词频;根据显著性对词汇排序和筛选;文字位置微调。接下来,本文将详细阐述语义方向图的生成过程。表1为实现语义方向玫瑰图的伪代码。
2.1统计各个方向区间词频先将[0°,360°]划分成8个等间隔的方向区间。根据式(5)确定轨迹Pj上的矢量kkkj,x,y,w所处的方向区间km。中[]代表取整数。2.2计算tf-idf并排序过滤在信息检索领域中,有研究人员提出了tf-idf的概念来衡量某一个词在整篇文档中的重要性[15]。在本文中,同样可以用tf-idf来词汇在语义方向图中的重要性。其中tf反映词代表轨迹移动模式在全局中的显著性,而idf则反映的是该词是否常见。由于各个方向的重要性实际上相同的,因此只考虑词频的距离值。其中,N和num分别代表所有方向区间的个数与所计算词出现的方向区间的个数。在取对数之后,idf的值能更好的表达一个词出现的区间越少,则这个词越重要的特点。此外,在idf的基础上加1是为了处理idf等于0的情况。从上式(6)中可看出,tf-idf值越大,表示这个词越有意义越重要,其代表的轨迹移动模式显著性越强。计算出各区间内各个词的tf-idf后,即可根据tf-idf值的大小在每个方向区间中选择出tf-idf最大的若干个词汇进行显示。此外,若数据在纵轴上出现小指聚集或有异常值的情况下,可以对纵向的R轴进行了一个如下式(7)的指数变换,以保证语义方向图的效果更好。式中R和R’分别为变换前后的纵轴距离值。下图2(a)即经过指数变换之后的可视化结果。
2.3文字位置微调为了提高空间利用率以及可视化显示效果,很多研究词云的人提出了各种不同的方法来避免词汇重叠。例如,FernandaB.Viégas使用了一种随机贪婪算法,即每次给与其他词重叠的词移动一个新位置,直至不再重叠,实现逐步逼近最优解的过程[16]。本文即通过这种类似的贪婪算法解决词与词之间相互重叠的问题。以下为实现文字位置微调的贪婪算法的基本流程:(1)碰撞检测首先依次对一个词与其他所有词进行碰撞检测。若检测得该词与另一个词有重叠时,则进行下一步;若与其他所有词都无重叠,则对下一个词进行判断。检测碰撞的一个比较简单的方法就是检测两个词的外接矩形是否相交。(2)位置随机微调若某两个词有碰撞,则随机选择其中一个,并对这个词的位置在一定的限制条件下进行随机的调整,包括角度和距离两个方面。其中限制条件有两个。第一,在进行调整时,其距离和角度的移动步长应该是在某一个范围内的随机值,不能太大。此外,对于字体较大即较移动模式较显著的词,其移动幅度应较小,尽量保持其原有的分布;第二,在微调的过程中,不能移出词汇所在区间范围。(3)循环至无碰撞或终止在完成对一个词的移动后,返回第一步检测碰撞,直至所有的词都不发生重叠的现象。在实际过程中,多数情况下很难找到最优解,即所有词都不重叠,特别是当显示的词数量较多时。因此,此处可以限制一个合理的循环次数。当循环了足够多的次数或者所有词都不重叠时,终止循环。
3应用研究
3.1数据来源与实验工具本文以1985年到2004年间我国大陆地区的国内生产总值(GDP)、客运量、医疗机构数、就业人口等40项经济指标的重心轨迹数据为例,利用语义方向玫瑰图的方法对其进行统计分析。根据得到的语义方向玫瑰图,发现隐含于经济重心轨迹数据中的显著移动模式,反映出在所研究时间段内研究区域内部各项经济指标重心的整体移动特征以及模式显著的单项经济指标重心移动特征。该实例应用数据来自统计局经济年鉴。本文中实现的分析工具和探索性分析方法都是由Python编程语言实现。其中主要用到python中专门用于绘图的matplotlib库。
3.2实验结果如图2(a)与2(b)为该实例应用进行文字位置微调前后的语义方向玫瑰图。结果表明:1)从整体模式上看,移动角度在[0°,90°]以及[180°,270°]之间的轨迹多,频率高,由此计算所得这两个区间内语义词汇的词频矢量中的r值较大,所以区间内词汇字体较大,颜色较深,即轨迹移动模式较显著。图上大部分语义词汇集中于东北与西南两方向上,即1985年到2004年间我国各项经济指标主要在东北、西南方向上移动。这主要与改革开放和西部大开发政策颁布初期我国整体社会经济活动主要向西南和东部聚集,但之后该趋势明显减弱,开始向东北方向扩散有关[17]。2)从单项经济指标移动模式来看,轨迹在某一方向区间移动的距离越长,即词频矢量中的r值越大,在图中就表现为词汇所处位置离中心越远,字体越大,颜色也越深,说明其往该方向上移动的模式越显著。由此可见,图中反映的重心轨迹移动模式最为显著的经济属性为客运量、卫生机构数、集体企业以及油料产量。在1985年至2004年间全国客运量重心显著往北方移动,这是由于北京是我国的经济政治文化重心,交通便利,与全国各地的经济文化等方面交流紧密,流动人口多,且改革开放以来,北京和天津的旅游业发展迅速[18];随着改革开放之后,上海、江浙及广东等东部沿海地区经济地位的快速提升和发展,特别是外向型经济[19],引起集体企业重心向东聚集;而且,东部沿海地区经济地位提升后,人口也随之增多,必然导致东部地区卫生机构数的增加;而反映了农业发展的油料产量重心主要向西南方向移动,与该时间段内西部大开发政策带动很大程度上带动了西部地区的发展的情况一致,且在全国范围内,西部地区经济地位仍然较低,因此农业在其经济产业中占主导地位[20]。
4结束语
本文详细描述了语义方向玫瑰图的生成过程与方法,并以实例数据为例,通过语义方向玫瑰图分析工具对社会经济重心轨迹移动模式进行挖掘。结果表明语义方向玫瑰图结合了轨迹语义信息与方向玫瑰图,从语义的角度进行统计分析,以一种更全面直观的可视化形式,有效的同时反映出显著的单条或多条相关社会经济重心轨迹的移动模式以及各经济重心移动的整体分布格局。下一步的研究工作主要有三点:1)在语义方向玫瑰图中添加时间维度,反映出重心移动在所研究时间段内的历史变化过程,以表达出经济重心轨迹移动的时空模式特征。2)增强用户交互,实现图中的语义词汇与实际地理空间内的原始轨迹的对应和链接。3)合理控制词汇位置微调的程度。在满足研究对词汇位置精度需求的情况下,尽量减少词与词之间的重叠碰撞,优化可视化效果。
作者:刘汝倩佘冰朱欣焰呙维单位:武汉大学测绘遥感信息工程国家重点实验室