本站小编为你精心准备了经济统计数据挖掘论文参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
1数据挖掘技术在统计工作中的适用性分析
1.1较高的有效性数据挖掘技术作为一种数据的深加工技术,其本身是带有鲜明的目的性的,在实际应用活动中能够对长时间积累下来的经济统计数据进行基于数据使用者要求的深入加工。在实践应用活动中主要有两种重要的应用形式,一种是对积累经济统计数据的管理高效化处理,一种是对现有经济数据的目的性分析。其中第一种分析方式是从经济数据管理的角度出发的,在应用中主要是以固有数据信息的统计、分类为基础,将原本混乱的数据库信息进行科学、系统的归类,保证统计数据管理的高效性和使用的便利性。另一种工作方式是一种经济数据的再加工过程,以鲜明的数据统计、分析目标为指引对原有数据的呈现形式、组成内容和关联形式进行重新加工,以保证经济统计数据能够最大限度地服务于管理者的需求。
1.2综合应用性强如前文所述,数据挖掘技术是一个工具系统而不是单一的工具,能够实现使用主体的各种信息需求,随着现代社会经济的快速发展,当前我国经济管理的各个部门都需要大量的经济统计信息来作为经济管理决策的基础。但是因为各个管理部门经济管理的领域不同、经济管理的方式不同、经济的管理权限不同,所以相应的经济统计数据呈现形式的需求就不同。这就为经济数据统计系统提出了更高的要求,其不仅要对符合各个经济管理部门需求的数据内容进行统计,同时要将统计完成的数据换算成各种不同的呈现形式,并根据统计信息的来源和统计信息的计算方式对其可靠性进行评估[2]。最终这些数据信息的输出格式还应该符合所服务的经济管理部门管理系统的格式要求,保证统计数据能够在管理部门的管理系统中正常录入、应用,数据挖掘技术很好地满足了上述的复杂经济数据管理要求,其功能的综合性促进了其应用深度的提高和范围的扩大。
1.3宏观数据库有利于数据挖掘技术的应用当前因为经济管理部门的职权较为分散,各个经济管理部门的经济统计数据需求不尽相同。所以我国的经济统计活动绝大多数还采用传统的经济统计方法,统计收集的经济信息存在一定的局限性,不能够服务于经济管理活动的整体,或者造成一些数据统计工作的重复,对经济数据统计工作造成了一系列的质量和效率上的影响。经济数据统计活动急需一个能够整合各个统计系统,实现统计数据信息融合的新技术。宏观经济统计数据库为数据挖掘技术的开展提供了平台,数据管理系统的经济统计信息要正确无误,然后经过数据挖掘技术的整合,就能得到更加丰富的数据资源[3]。
2数据挖掘技术的应用
在社会经济管理活动中,管理主体对经济统计数据的要求主要有两个。一个是统计数据的真实性、一个是数据统计信息的实用性。单就这两个经济统计数据要求而言,数据挖掘技术能够很好地满足经济统计工作的需求,是适用性极强的一种经济数据统计技术,其在具体的经济数据统计活动中主要有以下三种应用方法。
2.1预处理方法在经济数据统计活动中,最为基础的一种处理方式就是经济数据的预处理方法,因为数据挖掘本身是一种基于提供基础信息的智能分析技术。其本身是受基础经济信息限制的,不可能无中生有代替经济数据收集系统的功能。所以所有作为数据挖掘系统数据基础的经济统计数据信息都应该进行预处理,处理的内容主要包括对这些数据中不正确、不真实、不准确,以及不同经济统计数据信息之间差距较大的现象。对这些基础数据存在的问题进行处理的过程被称为数据清理,当前数据清理主要采用的方法有均值法、平滑法和预测法。其中均值法是现代分析技术中模糊理念的一种应用形式,当基础数据中的一个数据点是空值或者噪声数据的时候,可以采用均值法进行处理,即用数据库中所有该属性已知的属性均值来填补空缺。保证数据挖掘系统对基础数据的分析和整理能够正常进行,得出相对而言准确度较高的统计分析数据。其中Ci表示当前数据点的取值,Cj表示当前数据点前后不为空的数据点,K表示当前数据点进行计算所取的参考数据点数量[4]。平滑法依然是对基础数据中空值和噪声数据的计算方法,其与均值法的区别是用加权平均数代替了平均数,考虑了计算过程中提取的每一个数据对数据结果的影响权重,所以计算出的结果往往更加接近真实的数值。其中Ci表示当前数据点的取值,Cj表示当前数据点前后不为空的数据点,K表示为对当前数据点进行计算所取的数据点数量。WJ表示Cj数据点的权值。
2.2集成化处理方法在数据挖掘技术的应用活动中,因为相同地区的数据统计主体不同,或者在不同地区对相同经济数据的统计标准不统一,会产生一系列的数据集成问题,如何对这些调查方向不同或者是呈现方式不同的数据进行有效集成而不影响经济数据统计的准确性,是数据挖掘技术的重要任务。在具体的数据集成过程中主要考虑以下几个方面的问题[5]。
2.2.1模式集成当前因为社会经济活动中经济数据的统计内容过于广泛,很多经济数据统计并不是来自于官方的统计局而是来自一些民间统计组织,或者是由一线社会经济主体直接提供的经济数据,在数据挖掘过程中将这些来自多个数据源存在多种数据呈现模式的经济数据信息进行集成就涉及实体识别的问题。例如在数据挖掘过程中如何确定一个数据库中“std-id”与另一个数据库中的“std-no”是否表示同一实体,当前一般使用数据库与数据库之间的含元数据对比来保证实体识别高效率和高质量[6]。
2.2.2冗余问题数据挖掘本身是对经济统计数据的一种深加工技术,经过其加工的经济统计技术应该在本质上达到最简状态。在数据挖掘过程中要将与其他数据呈现某种正相关关系的数据项目进行精简,以保证数据库中数据量维持在一个较低的水平,为数据管理和应用提供便利。在经济数据挖掘活动中人均国民生产总值就是典型的冗余属性,因为其数值是可以通过国内生产总值和总人口属性计算出来的,所以类似人均国民生产总值这种冗余属性在数据挖掘过程中就应该精简,应用的时候在利用国民生产总值和人口属性计算得出[7]。对冗余属性的判断主要通过相关度对比来实现。其中n表示元组的个数,分别是属性A和属性B的平均值,分别是属性A和属性B的标准方差,在这一公式中如果则表示A、B两个属性是正相关,也就是说A越大B就越大,值越高二者的正相关关系就越密切;如果则表示属性A、B之间没有直接关系,是相互独立的;如果则表示A、B两个属性呈负相关,属性B会随着属性A的减小而增大,的绝对值越大,二者的负相关关联关系就越密切。
2.3决策树方法在数据挖掘技术应用过程中,经过系统的分析和总结以后,分析数据的输出是一个关键的环节,其输出的数据形式会对使用者的经济管理决策产生直接的影响。决策树是一种较为常见的、直观的快速分类方法。其应用的关键是决策树的构建,具体而言主要分为两步:第一步是利用训练集建立并精简一棵决策树,建立输出分析的模型;第二步是利用构建完毕的决策树进行输入数据的分类,这一分类是一个递归的过程,从决策树的根部开始进入到树干、枝丫,直到输入数据的分类满足了某种条件而停止。在具体的应用中停止分割的条件有两个:一个是当一个节点上的所有数据都属于同一个类别的时候;另一个是没有分类属性可以对输入数据进行再分割[8]。在决策树构建完成后,还要根据使用者的具体要求对决策树进行“剪枝”,剪枝的主要目的是要降低因为使用训练集而对决策树本身数据输出产生的起伏影响。
3结语
经济统计活动是现代社会经济管理的重要基础数据提供主体,其本身对社会主义现代化市场经济建设的影响是广泛而深远的,所以其运行过程中的质量和效率至关重要。数据挖掘技术是针对现代数据管理活动中存在的数量基数大、构成复杂和数据缺失现象严重等客观问题而研发的一种高效的数据深度加工技术,其在经济统计中的应用能够更好地满足经济统计的需求。本文从数据挖掘技术概述、数据挖掘技术在统计工作中的适用性分析、数据挖掘技术的应用三个方面对这一问题进行了简要的分析,以期为数据挖掘技术在经济统计中应用水平的提升提供支持和借鉴。
作者:李荣单位:怀化学院经济系