美章网 资料文库 经济统计中数据挖掘技术分析范文

经济统计中数据挖掘技术分析范文

本站小编为你精心准备了经济统计中数据挖掘技术分析参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

经济统计中数据挖掘技术分析

摘要:

社会经济的发展,使得经济统计工作越来越重要,统计的数据能够将整个社会经济运行的情况进行准确科学反映,同时能够为国家政策的调整提供参考依据。一般而言,要想确保经济数据的实效性、可信性以及真实性,必须要在经济统计中充分应用数据挖掘技术,这样才能有效保证经济统计工作的顺利进行。随着数据挖掘技术在经济统计中的作用日益突出,因此社会各界开始广泛关注其在社会活动中的应用。本文就对经济统计中数据挖掘技术的具体应用进行深入分析和探讨。

关键词:

经济统计;数据挖掘技术;应用

自改革开放以来,我国的经济发展较为迅速,经济建设活动日益增多,累积了大量的经济统计数据。由于信息的多样性以及数据的复杂性,使得工作人员在统计数据时,仅仅只采用其中数理知识,而没有深入挖掘相关的统计资料。随着科学技术的发展,数据挖掘技术在经济统计中发挥出了十分重要的作用,其能够对数据进行纵横式开发,并通过挖掘基础数据,获得更多有用的信息,从而满足社会对统计数据的需求[1]。一般在社会经济管理活动中,在对经济数据进行统计管理时,必须要确保统计数据的真实性以及实用性。数据挖掘技术作为一种经济数据统计技术,能够有效促进经济数据统计活动的顺利进行,其在经济数据统计活动中的应用方法主要包括三种:一是预处理方法;二是决策树方法;三是集成化处理方法。

一、处理方法的有效应用

在经济数据统计活动中,预处理方法是最为基础的处理方式,其主要是对基础数据信息进行智能分析。一般来说,数据挖掘受基础数据信息的限制,不能代替经济数据系统的功能,并且在数据挖掘系统中,其数据基础的经济统计数据信息具有多样性和复杂性,因此必须要对经济统计数据信息进行预处理[2]。在处理统计数据信息时,主要就是对不准确、不正确以及真实的数据进行处理,并分析不同经济统计数据信息之间的差距。数据清理是指对存在问题的数据进行处理的过程,目前在对数据进行清理时,主要采用预测法、平滑法以及均值法。一般如果基础数据中的某个数据点是噪声数据以及空值时,对其进行处理时可以采用均值法,利用数据库中所有该属性已知的属性均值,并对其的空缺进行填补,从而确保数据挖掘系统能够正常整理和分析基础数据,使统计分析的数据具备较高的准确度。其中数据点的取值用Ci表示,数据点前后不为空的数据点用Cj表示,计算数据点所取的参考数据点数量用K表示。平滑法行为一种计算方法,其也是对基础数据中噪声数据以及空值进行计算。但是与均值法有所不同,其是用加权平均数来代替平均数,并对计算过程中提取的数据对数据结果的影响权重进行综合考虑,因此平滑法计算出的数据结果更为真实准确。其中数据点的取值用Ci表示,数据点前后不为空的数据点用Cj表示,计算数据点所取的参考数据点数量用K表示,Cj数据点的权值用Wj表示。

二、策树方法的有效应用

在应用数据挖掘技术的过程中,系统经过分析与总结之后,必须要对数据的输出分析,一般数据的输出形式直接影响着使用者的经济管理决策。决策树作为一种分类方法,其更为直观与快速,采用决策树方法的关键就是对决策树进行构建。首先必须要利用训练集监理决策树,并对其进行精简,建立出输出分析的模型。然后利用决策树对输入的数据进行分类,可以从决策树根部开始进入树丫,直到输入数据的分类满足条件之后停止。一般其停止分割时,必须要满足两个条件:一是某个节点上的全部数据属于同一类别;二是输入数据没有分类属性进行再分割。值得注意的是,在构建完决策树之后,必须要结合使用者的实际情况和要求,对决策树进行“剪枝”,因为使用训练集能够影响决策树本身数据的输出,这样能够有效降低该数据产生起伏影响。

三、成化处理方法的有效应用

一般在对数据挖掘技术进行应用时,由于数据统计的主体不同以及统计的标准不统一,往往会出现数据集成问题,因此为了保证经济数据的有效集成以及统计的准确性,必须要考虑数据集成过程中的模式集成以及冗余问题。

(一)模式集成社会经济活动中,经济数据的统计很多来自于民间统计组织,导致统计内容过于广泛,因此在数据挖掘过程中,在集成经济数据时必须要进行实体识别。如在数据挖掘过程中,怎样对一个数据库中的“std-no”与另一数据库中的“std-id”是否表示同一实体进行确定,目前主要是利用数据库与数据库之间的含元数据对比,从而提高实体识别的质量和效率。

(二)冗余问题经济统计数据经过数据挖掘技术的加工之后,能够达到最简状态。在数据挖掘过程中,必须要精简其与其他数据之间存在正相关关系的数据项目,这样才能使数据库中数据量保持在较低的水平,便于数据的应用和管理[3]。一般在数据挖掘中容易出现冗余问题,如国民生产总值,其数值的计算主要是利用总人口属性与国内生产总值加以计算。一般在判断冗余属性时,主要是利用相关度的对比。其中元组的个数用n表示,属性A和属性B的平均值用以及表示,属性A和属性B的标准方差用σA以及σB表示。其中如果rA,B>0,则说明属性A与属性B呈正相关,属性A增大,则属性B也随之增大;如果rA,B=0,则说明属性A与属性B没有直接关系,彼此相互独立;如果rA,B<0,则说明属性A与属性B呈负相关,属性A增大,属性B则减小。

四、结束语

一般而言,对经济数据进行处理时,传统的数据处理方式是利用树数理统计学的知识与软件,开发利用经济统计数据库中的数据,但是这样的处理方式往往形式单一,无法对数据进行深入挖掘,因此无法有效满足社会的需求。但是数据挖掘能够将虚假的数据加以剔除,从而提高数据的质量,并且能够对数据之间的联系进行深入挖掘,充分有效挖掘数据。因此在经济统计中应用数据挖掘技术显得十分之必要。

[参考文献]

[1]王康.关于数据挖掘技术在经济统计中的应用[J].财经界(学术版),2011,05:98.

[2]郝岩.数据挖掘技术在经济统计中的应用探究[J].现代经济信息,2013,11:294.

[3]崔丹.数据挖掘技术在经济统计中的应用探索[J].财经界(学术版),2014,03:149.

[4]刘秀华.浅谈数据挖掘技术在经济统计中的应用[J].商场现代化,2014,23:280

作者:田计乐 单位:河北省鸡泽县卫生监督所