美章网 资料文库 空间数据挖掘探讨范文

空间数据挖掘探讨范文

本站小编为你精心准备了空间数据挖掘探讨参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

空间数据挖掘探讨

摘要:

空间数据挖掘方法在测绘实际生产领域具有良好的运用前景,特别是在“数字地球”的应用中初见成效。从数据挖掘及空间数据挖掘的定义入手,分析研究数据挖掘及空间数据挖掘现状,探讨对空间数据进行数据挖掘的方法。

关键词:

空间数据挖掘;数字城市;空间信息学

1引言

上世纪60年代,随着数据库的产生及大量原形数据库的建设,人们对数据库的研究热情不断加强,对数据库技术的研究也不断深入。上世纪70年代,研究人员已经把研究的视角从层次、网络数据库的方向转向了关系数据库,大力发展了数据库建模工具、数据库索引及其他分析工具等。进入上世纪80年代,研究者已经能够在数据模型分析方面,譬如基于对象的模型、基于演绎的模型数据库等等都得到广泛应用及深入研究。而后随着互联网的不断发展,数据库技术的更新也日新月异。但是,数据库技术的发展随之也进入一个体量越来越大了、信息获取难度不断增加的程度。特别在于,获取能够运用于决策层的关键信息却没有随着数据库本身的体量扩大而进一步增加。因而针对数据库的信息分析与数据挖掘的研究进入研究者的视野。进而,开发能够从超大体量的数据库资源中获取我们所需的关键信息的技术工具成为数据库研究人员的一个重要方向,数据挖掘技术进入了一个全新的时代,数据挖掘技术是一个针对数据库本体的研究手段,从数据库本体中发掘高效的有用信息,从而减少了数据资源的采集工作,增加了数据资源的利用效率。

2数据挖掘与空间数据挖掘的定义与研究现状

数据挖掘,又译为资料探勘、数据采矿。如图1所示,即是一个典型的数据挖掘系统的结构图。数据挖掘是数据库知识发现中的一个步骤。所谓KDD是在1989年于美国密歇根州底特律市举行的第11届国际联合人工智能学术会议上提出来的一种新型的技术手段。KDD是一个“从数据库中发现隐含的、先前不知道的、潜在有用的信息的非平凡过程”[1]。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标[2]。现阶段,数据挖掘系统已经发展了四代,第一代数据挖掘系统设计相对简单,一般运用一个或者几个算法,仅用来挖掘向量数据,而且在进行数据挖掘的工作是,一般一次性调进内存进行处理。第二代数据挖掘系统能够支持大体量的数据库和数据仓库,一般是针对数据库的接口进行设计,对数据库中的众多数据模型能够良好支持并拥有较强的高维数据、大数据集、复杂数据集的挖掘能力。第三代数据挖掘系统则能够对网络数据、高度异质的数据进行挖掘工作,这代数据挖掘系统的关键技术在于能够对异质数据进行相对复杂的预言模型构建及管理这些预言模型的元数据。第四代数据挖掘系统则是在一定程度上对移动系统、嵌入式系统、甚至普遍存在的数据进行复杂程度更高的数据挖掘工作。如图2所示,四代数据挖掘系统的特征与相关信息。从数据挖掘的定义我们可以很容易得到空间数据挖掘的定义的关键所在:即针对空间数据库的探索,发现空间数据库的中隐含的、用户感兴趣的或者是空间数据模式亦或者是非空间数据模式的一种数据挖掘技术。随着研究人员对空间数据库及数据挖掘技术的不断深入研究,空间数据挖掘技术取得了长足的进步。这里以加拿大SimonFraser大学开发的数据挖掘软件DBMiner中的空间数据挖掘扩展模块———GeoMiner为例,GeoMiner系统包含三大子模块,分别是空间数据立方体构建模块、空间联机分析处理模块及空间数据挖掘模块。GeoMiner系统采用人机交互式挖掘模式,在完成数据挖掘工作后能够即时显示挖掘结果。GeoMiner系统已经能够在一定程度上实现数据的自动挖掘工作,但其实现过程仍需要工作人员的不断干预,因而在自动化方面是研究人员未来重要的探索方向。

3空间数据挖掘常见算法空间

数据挖掘方法按功能的方式可以分为:描述、解释、预测。下面介绍几类常用的空间数据挖掘算法[3]:

1)基于概率论的方法基于概率论的方法这里主要是指通过计算不确定性属性的概率来对空间数据进行数据挖掘的方法。

2)空间分析方法空间分析方法是指采用综合属性数据分析、拓扑分析、缓冲区分析、密度分析、距离分析、叠置分析、网络分析、地形分析、趋势面分析、预测分析等在内的分析模型和方法,用以发现目标在空间上的相连、相邻和共生等关联规则,或挖掘出目标之间的最短路径、最优路径等。

3)统计分析方法统计分析方法则主要表现在通过对空间对象的信息采用统计学的方法进行评估、预测等方式进行数据挖掘。

4)归纳学习方法归纳学习方法即运用一定的知识背景的手段,分析提取空间数据库中的隐含的相关数据。

5)空间关联规则挖掘方法关联规则挖掘方法即运用空间数据库中的数据关联规律分析其一般的规则和运行模式。

6)聚类分析方法聚类分析方法即根据空间实体特征的一般性总结整个空间的分布规律及其典型运行模式的方法。

7)神经网络方法神经网络方法则是通过构建神经元网络的方法来实现适应非线性动态系统,从而构建其分布存储、联想记忆等功能,并使得系统具有自行学习、并行处理的能力。

8)决策树方法决策树方法采用的是一种基于树形表示分类结构的方法,从中发现规律,进而展示规则的数据挖掘算法方案。

9)基于模糊集合论的方法基于模糊集合论的方法主要是利用模糊集合理论中描述带有不确定性的研究对象来对实际的不确定性问题进行处理的手段与方法。

10)基于云理论的方法基于云理论的方法,主要是利用云理论中关于云模型及不确定性的研究方法对空间数据进行定性分析及定量计算结合处置的方法。

11)遗传算法遗传算法则是一种基于生物进化理论的数据挖掘算法,该算法突出的表现在对空间数据的高效并行计算及在处置过程中的自动获取知识、积累相关参数并实时适应挖掘过程从而得出最优的处理方案。除了以上算法之外,常用的还有数据可视化方法、计算几何方法、空间在线数据挖掘等等方法,均在一定程度上可以对空间数据挖掘产生有利作用。

4小结

从以上的各种方法分析,我们可以看到数据挖掘工作对空间数据利用非常重要。空间数据的体量及其大,数据结构及其复杂,通过简单的方式根本不能对空间数据的关键信息资源进行利用,只有通过空间数据挖掘的方法,才可以在更加直观的、立体的平台上对空间数据进行广泛而有效的利用。

参考文献:

[1]百度百科《KDD》

[2]百度百科《数据挖掘》

[3]百度百科《空间数据挖掘》

作者:江建华 单位:江西省基础测绘院