美章网 资料文库 支持向量机空间聚类研究范文

支持向量机空间聚类研究范文

本站小编为你精心准备了支持向量机空间聚类研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

支持向量机空间聚类研究

《地理与地理信息科学杂志》2014年第四期

1方法原理简介

1.1空间自相关传统的统计学方法建立在样本独立与大样本假设的基础上,由于空间数据的特殊性,其独立性和大样本假设常得不到满足。空间统计学中的空间自相关技术很好地解决了经典统计方法在空间数据应用上的缺陷。空间自相关性使用全局和局部两种指标来度量,全局指标用于探测整个研究区域的空间模式,用单一的值反映该区域的自相关程度;局部指标计算每个空间单元与邻近单元某一属性的相关程度。由于全局指标有时会掩盖局部状态的不稳定性,因此在很多场合需要采用局部指标来探测空间自相关。常用的计算空间自相关的方法有Moran′sI、Geary′sC、Getis、JoinCount等,本文基于Moran′I研究四川经济发展的空间格局。Moran′I分为全局Moran指数[14,15]和局部Moran指数[16]:全局Moran′sI从总体上反映了研究目标的空间相关性,局部Moran′sI描述区域单元与其相邻区域单元之间的空间集聚程度。

1.2支持向量机支持向量机在解决小样本、非线性及高维模式识别中表现出如下特有的优势:1)SVM避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题;2)SVM是专门针对有限情况的,其目标是得到现有信息下的最优解而不仅是样本数趋于无穷大时的最优值;3)计算的复杂性取决于支持向量(SupportVector,SV)的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”;4)算法最终将转化成为一个二次型寻优问题,从理论上而言,得到的结果将是全局最优解,解决了在神经网络方法中无法避免的局部极值问题,因而它具有很好的泛化性能和预测能力[22]。从本质上看,SVM是一种监督分类方法,在对数据进行分类时,必须要有一个已知样本集训练SVM。在SVM的训练样本选择策略中,有随机选样策略、盒子类凸包样本选择方法[23]、Adaboost方法[24],也可以通过PCA或者NLM算法的分类结果选择典型样本。

1.3基于Moran的样本集选择通常,经济统计数据不包含已知正确分类的样本集,而基于不同选择策略的SVM分类结果差异很大,因此,样本选择策略是采用SVM分析经济统计数据的关键,其方法的正确与否直接影响到分析结果的正确性。在局部空间自相关中,滞后变量Wzi表示目标观测值相邻区域的加权平均对偏离平均值的度量,zi为对观察值x偏离平均值的度量。以(Wz,z)为坐标点的Moran指数散点图,常用来可视化研究局部空间不稳定性。Moran指数散点图的4个象限,分别对应于区域单元与其邻居之间4种类型的局部空间联系形式:第一象限(H-H区)代表高观测值的区域单元被同是高值的区域所包围的空间联系形式;第二象限(L-H区)代表低观测值的区域单元被高值的区域所包围的空间联系形式;第三象限(L-L区)代表低观测值的区域单元被同是低值的区域所包围的空间联系形式;第四象限(H-L区)代表高观测值的区域单元被低值的区域所包围的空间联系形式。从区域经济发展角度看,经济发展中心对周边存在很强的作用力,使得周边区域经济也发展良好,这对应于H-H类型;而经济落后区域由于地形、交通等区域条件的限制具有较强的集聚特征,从而对应于L-L类型;经济发达区域的边缘地带由于自然条件或者政策性等问题制约了发展,属于L-H类型;而在欠发达地区,某些区县旅游、矿产等资源优越,发展具有一定优势,属于H-L类型。这种多维经济统计数据的局部空间分布模式,可以揭示经济发达区域、较发达区域、欠发达区域及奇异点,并进一步提取经济发展中心和典型区域。这些典型区域在一定程度上可作为已知典型样本集训练SVM分类过程,从而减少选样过程的主观性。由此可以建立空间自相关-SVM耦合的空间聚类方法,图1显示了基于Moran′sI的SVM聚类(Moran-SVM)的流程,其步骤为:1)运用空间自相关分析经济统计数据的PCA和NLM降维结果,到Moran指数散点图和空间自相关显著性分析图;2)通过研究象限分布图和显著性分析图,提取高显著经济发达和不发达、较显著经济发达等各种不同发展类型的典型区域;3)将典型区域作为已知样本集导入SVM模型,得到聚类结果。

2应用实例

2.1数据说明本文以2007年四川统计年鉴数据为例,对四川省区县尺度的多维度经济统计数据进行分析。在行政单元为区县的经济统计数据中,大量属性维度的数据统计不完整。基于降维过程的维度应尽量最大化及其可获得性考虑,本文选择统计年鉴中最能反映地区经济发展情况的18个属性,分别是:国内生产值(第一、第二、工业、第三产业和人均生产总值)、民营经济生产情况(第一、第二、工业、第三产业和人均民营经济增加值)、从业情况(从业人员、职工人数、人均工资)、地方财政(财政收入和支出)、农林牧渔总产值、社会消费品零售总额、全社会固定资产投资。

2.2基于Moran′sI的SVM聚类笔者利用空间自相关对PCA和NLM的降维结果进行分析,得出四川经济统计数据的局部Moran′I散点图及其显著性分布图(图2-图5),通过分析典型区域的局部空间联系类型及其显著性,提取出若干经济发展情况明确且典型的区县,作为已知小样本集导入SVM中进行分类。对PCA降维结果进行局部Moran指数分析,得到象限分布图(图2):成都周边-东南区域沿线、攀枝花处于第一象限,即属于H-H类型;第一象限周边区域受高观测值邻域影响,属于第二象限,即L-H类型;广大的西北区域、中南、多数东北和少数东南区县属于L-L类型,区县本身和周边邻域的观测值都较低;H-L类型主要集中在东北区域及第二象限周边的区县,绝大部分与L-L类型相邻,表示其观测值比较高,属于经济较发达地区。分析局部Moran指数的显著性分布图(图3)可知:四川绝大部分区域属于空间聚集不显著类型,而成都周边12个区县的空间聚集非常明显,其外围的德阳市等3个区县也具有显著的空间相似性,宜宾市也表现出较为显著的空间聚集效应;广大经济不发达的西北区域和南部攀枝花市则表现出离散的空间分布形式,这与现状有一定差异。对NLM降维结果进行局部Moran指数分析,得到象限分布图(图4):东北区域-成都周边-东南区域沿线属于H-H情况;第一象限周边区域受其影响,属于L-H类型;广大的西北区域、中南和少数东南区县属于L-L类型;H-L类型主要集中在成都周边和南部区县,与L-L类型相邻,属于经济相对较发达地区。分析局部Moran指数的显著性分布图(图5)可知:四川东北、中南和东南区域都属于空间集聚不显著类型,而成都周边、广大西北区域空间集聚非常显著,较为显著的区县主要分布在显著区域的周边邻域地区。基于PCA和NLM降维结果的Moran指数显著性分类结果可知,成都周边为高显著H-H类型,西北地区为高显著L-L类型,可分别采集到第一等级和第四等级的小样本集;从两者的Moran′sI象限分布图可知,成都外围和东北广安市附近区县属于第一象限,经济较周边发达,而空间聚集效应又不显著,可作为第二等级;在东北区县和第四等级的交叉区域,存在部分相对高值区域,其较落后区域发达,可作为第三等级。依次每个等级采集3个样本,导入SVM算法中,并采用RBF核函数[13],调节参数,结果如图6。当γ取值较大(大于2)时,分类结果出现欠学习问题,有非H-H类型被划入第一等级;而其他参数条件下的分类结果差异不大,将成都周边、涪城区和攀枝花东区分为第一等级,将成都周围其他区县和东北少数区县分为第二等级,将东北和东南其他区县及南部分为第三等级,广大的西部、北部和东南区县则属于第四等级,这与四川经济发展现状完全吻合。与NLM分类结果相比较,具有很强的相似性,这也说明了结果的正确性。

2.3结果分析(1)采集于PCA和NLM的不同已知样本集的SVM聚类结果之间差异大(表1)。在PCA-SVM中,第二等级区县的数目非常少,而东北多数区县被划分至第四等级,并与PCA的分类结果相似,都未能准确展现四川经济发展现状;而NLM-SVM的结果与NLM类似,都能体现出经济发展的核心区域及经济较发达区域。由这两者结果之间的较大差异可知,已知小样本集选取的主观性对结果影响很大,所以需要进一步考虑样本集的合理选择。(2)针对上述已知样本集选取的主观性问题,笔者利用PCA和NLM的空间自相关分析结果选取样本集,证明该步骤不仅能大量减少样本集的选择范围,而且分类结果能揭示出成都经济发达地区、东北和东南经济较发达区域、西北经济极不发达区,能准确展现四川经济发展现状(表1)。SVM作为一种监督分类算法,需要已知样本集对聚类过程进行训练,由于经济统计数据不具有已知类别样本,需要利用一定的方法来选取,而选样过程的主观性对SVM的分类结果具有很大的影响,同时最优参数的获取是一个复杂的区间搜索过程,不仅较难获取最优参数,而且效率也较低。PCA和NLM降维结果的Moran指数分析结果能揭示出显著的H-H和L-L类型,而Moran指数的象限分布能提取出空间集聚不显著、但能揭示经济发展情况的典型空间单元,从而得到不同经济发展水平的典型区域,这些典型区域可作为小样本集训练SVM算法聚类过程。分类结果正确揭示了四川经济发展现状的空间格局,证明该方法能大大缩减样本集的选取范围,避免选样过程的主观性,并具有很好的分类效果,这为SVM已知样本集的合理选取提供了新方法。

3结论

SVM具有很好的数学理论基础,能避免“维数灾难”,具有很好的泛化性能,且算法效率高,能够最大化各类之间的距离,对具有已知样本集的数据能很好地进行分析;但它是一种监督分类,在分析经济统计数据过程中缺少已知样本,需要利用选样策略选取典型样本,比如在PCA和NLM等算法的降维结果中选取不同类别的典型单元,但该过程主观性较强,对聚类结果的准确性影响很大,为此笔者提出运用空间自相关分析数据的局部空间聚集模式及其显著性指数,并基于局部Moran′I散点图和显著性分布图提取不同类别的已知小样本集,再训练SVM聚类过程,以解决选样过程中的主观性和复杂性问题。本文论证了空间自相关不仅能大量减少特征样本集的数目,同时能准确提取不同经济发展水平的典型区域,这不仅简化了SVM算法小样本集选取过程,其聚类结果也能准确反映四川经济发展实际情况。空间自相关和SVM耦合方法不仅能大量缩减选样范围和简化选样过程,从而提取出不同类别的典型样本和解决样本选择的主观性问题,同时也能基于SVM的优点准确揭示高维数据的内在聚类结构。

作者:董承玮芮小平邓羽关兴良李峰单位:北京市测绘设计研究院中国科学院大学资源与环境学院中国科学院地理科学与资源研究所全国市长研修学院防灾科技学院