美章网 资料文库 海量数据挖掘系统探讨范文

海量数据挖掘系统探讨范文

本站小编为你精心准备了海量数据挖掘系统探讨参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

海量数据挖掘系统探讨

当前,云计算是一种新型商业计算模型,他可以将计算任务分布在大量互联的计算机上,使各种应用系统能够按需获取计算资源、存储资源和其他服务资源。在云计算平台的应用下,能够为海量和复杂数据对象提供基础设施,通过挖掘数据从而发现其中隐含的大规模数据,提升信息服务的质量。本文重点分析了数据挖掘系统中的关键技术,以及系统架构和各个功能框架的设计,通过快速部署应用程序,确保云服务基础平台规模,提升数据计算能力。

一、海量数据挖掘技术

海量数据挖掘的关键技术主要分为三种:(1)数据存储方式,建立该数据系统中,一般采用关系型数据库实现对用户所需数据的存储,基于云平台下,由于云计算中涵盖的数据量大,且具有一定的复杂性,无法建立科学的数据库。另外云计算数据存储中,部分应用要求非结构化进行存储,并没有一套完整的结构化存储方式,因此这就给云计算带来了严重的挑战。云计算平台针对非结构化的数据存储具有一定的难度,因此,该平台下,数据存储技术主要包含开源的HDFS与非开源的CFS,而HDFS技术应用最广泛。(2)数据预处理方式。为了实现数据预处理,云计算平台提供了大量的数据并行加载方式以及相关的概念分层组织结构,在此基础上,利用数据稀疏化技术以及高纬度约减技术,提高数据预处理的效率和质量,这就为数据挖掘以及数据的存储等提供了更有效的技术支撑。(3)海量数据挖掘并行算法,海量数据挖掘的重要部分是并行算法。基于一些先进计算模型的使用下,没有真正实现海量数据挖掘过程中的测量和并行化策略,无法对海量数据实施挖掘等,通过适用性的海量数据挖掘并行算法对大量数据进行分析和研究中,提高了云计算并行海量挖掘算法的效率,与此同时,该技术的应该还需要进一步分析和改造现有的云计算数据模型,不断创新数据挖掘算法,为云计算模型完全适用于海量数据的挖掘提供针对性平台。

二、云平台的海量数据挖掘系统架构设计

云平台下,为了解决海量数据的存储以及挖掘,因此,建立海量数据挖掘系统结构的设计十分有必要。一方面,构建系统架构,基于微软平台构建海量数据挖掘系统,为数据挖掘系统的开放接口提供更大的方便。基于互联网技术应用下,用户可以通过网络平台直接访问,同时还可以充分利用该平台内其他应用程序对开放结构进行调用或者是满足其他各项要求。在系统的构建过程中,用户需要在深入了解系统的基础上,根据自身的需要选择不同的数据算法来处理数据存储以及数据的计算等,同时,还可以将任务布置给系统,由系统自动解决用户的数据问题。在系统架构中,任务模块一般可以通过自主选择使用算法,根据不同算法给出的数据挖掘结果,在可视化输出过程中将数据提供给用户。通常在海量数据挖掘系统中,其模块主要分为:输出模块、输入模块开放接口,这些能够为用户提供更方便的数据服务。除此之外,开放接口所提供的服务中,还包含一些外部可见服务,在系统的调用中,为开放接口服务,实现内外互相调用的功能。

另一方面,海量数据挖掘系统功能框架的设计。根据数量挖掘系统的目标,将整个框架系统分为海量数据集层、算法层、任务层、用户层、用户界面层以及开放接口层五个层次。这些都是按照一定顺序排列的,每一层都为其上一层服务。然而系统开放接口与用户界面都处于整个系统的最高层。从最高层中用户可以收集到大量数据,布置任务,并且将最终的数据结果可视化展现出来,用户可以从计算结果中提取自己所需要的数据,体现了云计算平台海量数据的开放性。具体的数据挖掘系统功能中由互联网连接用户终端和应用程序两大部分,其中构建输入模块、开放接口、可视化输出、数据集、任务模块以及挖掘算法这六大模块,最终构成云计算平台。用户通过开放接口向系统布置任务,选择数据挖掘算法,最终得到的结果,可以通过可视化输出,实现了接口的统一调用,以及数据的深层挖掘。

三、结束语

基于微软云计算平台,为海量数据挖掘提供了一种新型服务机制,该平台通过可视化、虚拟化以及可用性功能,实现了数据的计算和存储以及调用功能。云平台的应用能够更加方便的部署应用程序,提高计算能力,最终通过数据层将数据存储,总之,微软云平台的海量数据挖掘系统不仅能够扩大数据服务规模,而且具有强大的计算能力,为解决海量数据的存储以及调用等提供了更便捷、更高效的平台。

作者:吴悦 单位:淮阴工学院信息化建设与管理中心