前言:我们精心挑选了数篇优质数据挖掘论文文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
[关键词]数据挖掘数据挖掘方法
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
1.1数据挖掘相关技术数据挖掘相关技术介绍如下[6]:(1)决策树:在表示决策集合或分类时采用树形结构,在这一过程中发现规律并产生规则,找到数据库中有着最大信息量的字段,从而可建立起决策树的人工智能及识别技术。(2)聚类分析:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。(3)关联分析:关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、因果、关联或相关性结构。也可以说,关联分析是用来发现有关交易的数据库中不同商品(项)之间的联系。(4)神经网络方法:顾名思义,类似于生物的神经结构,由大量简单的神经元,通过非常丰富和完善的连接组成自适应的非线性动态系统,具有自适应、自组织、自学习、联想记忆、分布存储、大规模并行处理等功能。粗集方法:也就是在数据库里把行为对象列视为元素,将不同对象在某个(或多个)属性上取值相同定义为等价关系R。其等价类为满足R的对象组成的集合[5]。
1.2IBMSPSSModelerIBMSPSSModeler是一个数据挖掘工作台,用于帮助用户快速直观地构建预测模型,而无需进行编程。其精密的数据挖掘技术使用户能够对结果进行建模,了解哪些因素会对结果产生影响。它还能可提供数据挖掘相关的数据提取、转换、分析建模、评估、部署等全过程的功能[3]。通常,SPSSModeler将数据以一条条记录的形式读入,然后通过对数据进行一系列操作,最后将其发送至某个地方(可以是模型,或某种格式的数据输出)[3]。使用SPSSModeler处理数据的三个步骤:(1)将数据读入SPSSModeler;(2)通过一系列操纵运行数据;(3)将数据发送到目标位置。
2客户流失预测分析
2.1数据预处理数据预处理[6],将需要的客户投保数据按照业务预测分析的要求,将数据抽取到中间数据中,同时对数据清洗和转换,满足业务预测分析要求。每日凌晨调用存储过程将核心业务系统数据提取到中间数据库,寿险业务数据与其他数据一样,存在不安全和不一致时,数据清洗与转换可以帮助提升数据质量,进而提升数据挖掘进程的有效性和准确性。数据清洗主要包括:遗漏数据清洗,错误数据处理,垃圾数据处理[1]。
2.2数据选取数据预处理后,可以从中得到投保人的投保信息,包括投保人姓名,投保年龄(有效保单为当前年龄,无效保单为退保年龄),保费,投保年期,保单状态等。数据如图1所示。
2.3客户流失预测模型建立寿险业务按渠道来分可分为个人保险、团体保险、银行保险、网销保险、经代保险五类。由于团体保险在寿险公司发展比较缓慢,团险业务基本属于停滞阶段。结合寿险公司的营销特点,选定个人保单作为分析的对象,通过IBMSPSSModeler预测模型工具[3],使用决策树预测模型对客户流失进行预测分析。
2.4结果分析通过使用IBMSPSSModeler决策类预测模型分析某寿险公司2013年个人客户承保情况来看有以下规则:(1)投保年数在1年以内,首期保费在0~2000元或大于9997.130保费的客户比较容易流失。(2)保单终止保单中,女性客户较男性客户容易流失。(3)投保年数在2年以上,湖北及河北分支机构客户流失率比较容易流失。(4)分红寿险相对传统寿险,健康寿险的客户比较容易流失[1]。
3总结
关联规则最初是针对购物篮分析问题提出的,目的是发现事务数据库(TransactionDatabase)中不同商品之间的联系。关联规则是形如A=》B的蕴涵式,其中A称为该关联规则的前项,B称为该关联规则的后项。事务,是一个明确定义的商业行为,如顾客在商店购物就是一次典型的事务。由用户设定的支持度和置信度的门槛值,当sup-port(A=>B)、confidence(A=>B)分别大于等于各自的门槛值时,认为A=>B是有趣的,此两值称为最小支持度(minsupport)和最小置信度(minconfidence)。同时满足minsupport和minconfidence的这种关联规则就叫做强的关联规则。设任务相关的数据D是数据库事物的集合,当项集的支持计数≥D中事务总数|D|与minsup-port的乘积时,就叫做频繁项集,当项集的支持计数可能≥D中事务总数|D|与minsupport的乘积时,就叫做侯选项集。所有侯选项集K-项集的集合记作Ck,所有频繁项集K-项集的集合常记作Lk,很明显Lk奂Ck。如果仅依赖最小支持度和最小置信度这两个参数的限制,所挖掘出的强关联规则不一定是用户感兴趣的,因此,用户可以根据实际应用的需求,再结合自身的领域知识,通过选择与实际分析任务有关的数据集,设置不同的参数,限定前项和后项的个数,选择前项和后项包含的属性等操作,对关联规则的挖掘进行约束。
2模糊集理论的引入
在讨论实际问题的时候,需要判定模糊概念涵义,如判断某个数据在模糊集的定义和归属,这时就需要普通集合与模糊集合可依某种法则相互转换。模糊理论中的截集是模糊集合和普通集合之间相互转换的一座桥梁。
3基于事务间数值型关联规则的数据挖掘算法
假设有一就业数据库,先通过数据整理,将原始数据记录值区间[0,10]偏置10个单位。由此就得到了经过偏置后的数据库记录。再依滑动窗口方法,设maxspan=1(该值可以依实际情况的需要来定),就可将偏置后的数据库数据整理转化为扩展事务数据库。再把扩展事务数据库记录通过隶属度函数转化为对应的隶属度。
4结语
近年来,我国的部队管理体系已经逐渐向着自动化方向发展,部队中各个部门都建立了一定的管理体系,也逐渐脱离了人工管理模式,实现信息现代化模式,很大程度提高了部队工作的效率,但是由于外界因素与经济发展的多样化以及人们的思维模式也在不断改变,从而出现了一些新问题,使得部队管理体系存在着一定问题:第一、关联性小、系统比较独立。现阶段,部队采购食品系统的作用以及目的比较简单,思维面也比较窄,也就是说按照清单进行食品采购时,不能充分考虑到采购人员的健康、效率等问题,不能达到最优化采购方式,因此就变得比较独立;第二,数据功能简单,可靠性不高。现阶段,部队食品采购数据只是对采购的种类与过程进行简单记录,时间一久,就会被损坏或者丢失;第三,数据分散不集中。现阶段与部队人员健康、起居饮食、训练相关的数据分散在不同系统中,使得数据变得不一致、不完整,仅仅只能进行简单查询、汇总、统计等工作,不能对数据进行多角度分析、关联等,不能为采购食品提供很好的政策支持。针对部队采购存在的问题,可以利用数据仓库以及数据挖掘技术建立多为数据库,利用数据挖掘进技术对食品采购数据进行挖掘。依据现阶段部队的实际发展情况,建立一套新数据库的成本代价比较高,因此,选用了目前社会上通用方法,对已经存在的数据进行一定改革与拓展,合理优化系统数据,成为新的数据库。并且选取对数据挖掘影响比较大的系统性分析,包括训练系统,食品采购系统、人员管理系统以及医疗卫生系统。针对食品采购采购系统建立数据模型。
二、在部队食品采购系统中的应用以及其价值评价
在部队食品采购系统实际应用工程中,其实可以运用MicrosoftSQLServerAnalysisServices来对数据进行分析,并且在数据挖掘过程中对多维数据进行描述与查找起到一定作用。因为多维数据比较复杂,增长的也比较快,因此,进行手动查找是很困难的,数据挖掘技术提供的计算模式可以很好的对数据进行分析与查找。在建设部队食品采购仓库数据的时候,数据内容主要包括了人员的健康、兵员的饮食以及训练等,进行数据挖掘主要包括以下内容:第一,把每个主题信息数据进行收集、汇总、分析等,对人员情况、健康、饮食、训练等进行合理分析;第二,多维分析数据信息。根据部队的实际情况,利用数据挖掘技术对部队人员健康、饮食、训练等数据信息进行多维分析,其中包含上钻、切片、下钻等;第三,挖掘健康与饮食之间的内在关系。根据数据库中许多面向主题的历史数据,采用数据挖掘技术进行分析与演算得到部队人员的训练和健康情况与部队饮食之间内在关系,以便于为部队食品采购提供合理的、有效的保障,从而提高部队整体人员的健康水平、身体素质以及训练质量,对提高我国部队战斗力有着深远的意义。
三、结束语
根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从产品导向向客户导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。
一、客户关系管理(CRM)
CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。
二、数据挖掘(DM)
数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。
常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。
三、数据挖掘在客户关系管理中的应用
1.进行客户分类
客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。
2.进行客户识别和保留
(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户
这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为是或否会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。
(2)在客户保留中的应用
客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。
(3)对客户忠诚度进行分析
客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。
(4)对客户盈利能力分析和预测
对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。
(5)交叉销售和增量销售
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
参考文献:
苏新宁杨建林邓三鸿等:数据挖掘理论与技术[M].北京:科学技术文献出版社,2003
物联网数据挖掘处理功能需要在Hadoop平台和Map/Reduce模式基础上进行,对此需要划分2个不同层面的操作流程。
1.1Hadoop平台的具体操作流程
(1)对物联网中的RFID数据进行过滤、转换、合并的处理,并在分布式系统HDFS中保存PML文件形式的数据。同时,可采取副本策略来处理PML文件,在同一机构的不同节点或不同机构的某一节点上保存PML文件中的2-3个副本,进而可实现对存储、处理、节点失效问题的有效解决。
(2)在执行任务过程中,创建和管理控制是Master(主控程序)的主要工作,当Worker处于空闲状态时会接收到有关的分配任务,需与Map/Reduce互相合作实现操作处理,处理的最终结果由Master来归并,同时将反馈结果传送给用户。
1.2Map/Reduce的具体操作流程
(1)根据参数在Map/Reduce思想指导下对输入文件进行分割处理,使其细化为M块(16-64M大小范围)。
(2)Master、Worker、Map操作(M个)、Reduce操作(R个)是构成执行程序的主要部分,其中Map/Reduce的处理任务会由Master伴随物联网的快速发展和广泛应用,人们可以有效利用物联网来实现信息交换和通信的目的,不过物联网海量数据的日益增多大大降低了物联网服务的质量。在此,对基于Apriori算法进行物联网数据挖掘研究。摘要将其分配给空闲的Worker。
(3)在处理Map任务时,Worker会读取处理中的数据,并向Map函数传送<key,value>,而后产生中间结果在内存中缓存且定时向本地硬盘传送。此外,依据分区函数将中间结果分割为R块区,利用Master将本地硬盘接收到的数据位置信息传送给Reduce函数。
(4)ReduceWorker根据Master所传送的文件信息采用远程读取方式来操作,以在本地文件中找到对应的文件,对文件的中间key进行有序排列,并利用远程发送信息给具体执行的Reduce。
(5)ReduceWorker依据key排序后的中间数据向Reduce函数传送与key对应的中间结果集,而最后的结果需采取最终输出文件来进行编写。
(6)当Map、Reduce的任务全部完成之后,MapReduce将回归到用户程序的调用点处,同时以Master对用户程序进行激活。
2基于Apriori算法的物联网数据挖掘
2.1Apriori数据挖掘原理和操作流程
Apriori是提升物联网数据挖掘功能的一种最有效算法,其原理是在K项集中以逐层搜索迭代的方式来探索。具体的操作流程包括:
(1)扫描数据集以生成频繁1-项集L1。
(2)通过L1来探索频繁项集L2,采用不断迭代的方式来持续探索,直至频繁项集是空集。
2.2K次循环搜索后的数据挖掘流程
当已完成了K次循环搜索时,还需要进行2个数据挖掘的操作流程:(1)在LK-1生成CK(候选集)之后,开展JOIN操作。(2)支持度统计和剪枝的操作依据Apriori性质来进行,而后使得CK生成LK(频繁集)。为提高物联网数据挖掘的效率,节省系统的时间和内存消耗,在Apriori算法基础上还需要借鉴和移植云计算平台的分布式并行计算性质。如此以实现Hadoop架构的建立,在扫描数据库查找频繁项集中得到的并联规则需要存储在Hadoop架构中。同时,为取得各个计算节点上的局部频繁项集,各个DataNode节点需要经历并行操作的扫描处理,并使用Master来统计和确定实际全局的支持度、频繁项集。
2.3Apriori算法Map/Reduce化的处理流程
上述提及基于Apriori算法的物联网数据挖掘需借助于Map/Reduce模式,其数据挖掘功能的实现还应Map/Reduce化Apriori算法。主要的处理流程包括:
(1)用户提出挖掘服务的请求,且由用户来设置Apriori所需的数据,如最小支持度、置信度。
(2)当Master接收到请求后,通过NameNode来进行PML文件的申请,而后逐步完成访问空闲节点列表、向空闲的DataNode分配任务、调度和并行处理各个DataNode需要的存储节点算法。
(3)运用Map函数来处理每个DataNode的<key,value>对映射、新键值对,以CnK(用1表示每一个CnK的支持度)来表示所产生的一个局部候选频繁K项集。
(4)通过Reduce函数来实现调用计算,对每个DataNode节点上相同候选项集的支持度进行累加,以产生一个实际的支持度,将其与最小支持度(用户申请时所设置)进行比较,进而用LnK表示所生成的局部频繁K项集的集合。
(5)对所有的处理结果进行合并,从而实现全局频繁K项集LK的生成。
3结论
1.1代码理解在软件开发过程中,程序员面对着诸多的问题,具体内容如下:其一,项目代码的维护,但项目的原有文档已经过期,甚至出现了文档不存在的情况;其二,项目缺陷的修改,但此时项目中的代码程序员并未接触过;其三,项目代码的审查,面对众多的代码,程序员的工作开展较为困难;其四,项目架构设计的提取,但程序员仅掌握了源代码。面对上述的情况,程序员要对源代码进行分层聚类,对各个模块进行可视化的展示,此时,对代码及项目架构的理解将更加准确,因此,提出了分层聚类法。此方法有效分析了源代码,其聚类过程主要分为两个阶段,分别为基于调用入口的聚类与基于PageRank的聚类。在软件系统结构分析过程中,主要应用的方法为软件聚类,此方法作为关键技术主要应用于软件维护活动中,如:软件模块复用、软件模块更改影响及软件体系体系结构挖掘等。通过软件聚类,工程师能够获取软件系统的总体结构划分及局部细节信息。通常情况下,为了实现聚类结果的灵活切换,要提高软件聚类工具的性能,其特性如下:一方面,对软件聚类模块化层次进行划分;另一方面,根据使用者的选择对软件聚类结果进行动态调整。通过对软件聚类领域中图聚类的研究,提出了基于源代码分析的层次化软件聚类算法,此方法满足了多粒度显示软件聚类层次聚类结果的需求,此聚类方法拥有两个阶段,同时对于输出的聚类结果中的模块命名提出了新的方法,即:基于文本挖掘的方法,在此基础上,提取的文本信息拥有了语义信息的模块命名[2]。
1.2代码开发现阶段,JAVA应用中广泛应用着基于开源框架的编程,此时配置的逻辑控制是借助XML配置文件实现的,但现有的JAVA应用为单机版,同时框架的逻辑具有复杂性,开源框架的文档化相对较差。在此情况下,程序员在对框架使用与配置缺少正确性。为了实现上述问题的有效解决,提出了基于应用代码库中的XML配置文件及代码关联结构挖掘的XML配置片段推荐方法,将此方法应用到软件开发中,促进了程序员对配置文件的编辑。上述方法的核心为频繁子树挖掘,通过实验分析可知,该方法具有一定的有效性,特别是在XML配置片段中扮演着重要的角色,因此,它促进了软件的开发。目前,在软件开发构建新系统过程中,程序员需要利用编程框架从而实现编程,此时不仅利于通用性作用的发挥,还利于程序机构的清晰。在框架编程时,开发人员要对编程进行扩展,同时还要构建XML配置文件。框架编程有着一定的优势,但在实际应用过程中仍存在不足,逻辑缺陷极易被应用,在此基础上,程序员对框架的使用缺乏有效性与正确性。在此背景下,配置代码推荐被应用,它具有较强的可用性,分别体现在数据与方法两方面。
1.3回归测试在软件应用开发后,客户将对其进行使用,但使用前与使用过程中,均会出现代码修改的情况,造成此情况的原因为代码缺陷与功能更新。在代码更新后,重新前,要对代码进行测试,此时的测试便是回归测试。它主要是为了验证修改软件,使软件的功能得到有效的发挥。因此,回归测试对于软件来说是重要的,它直接保证着软件的质量[3]。
2结语
在当前的发展过程中,所谓的本体,即通过对概念对象及相互间的关联形成的表达方式,并借此对某领域知识模型或语义信息的描述,基于其本体具有较强的形式化能力,除此之外,亦有利用逻辑推理获取概念间逻辑关系的能力,使其得到的各个领域的广泛应用,诸如信息检索、知识工程、Web上异构信息的处理以及软件复用等等,采用本体建模技术,并以现实生活中顾客价值需求及行为理论为为基础,进而完成了对领域本体和任务本体的建立。
1.1领域本体对特定专业领域中的概念及之间关系的描述,即为领域本体,它是对一个应用领域的描述,具体来说,分为本体知识库和领域本体模式两种成分,进而描述特定的领域知识和信息,即为领域本体模式,此外,模式描述了应用领域的知识构成或静态信息。而所谓的顾客价值需求领域本体,描述的是逻辑关系、描述的对象是顾客价值需求目标概念机需求行为概念,明确则是指概念及约束是显式的定义,基于其具有计算机刻度的特点,构成了形式化,研究目的将领域体原语定义的具体情况如下:定义一:顾客价值需求领域本体的概念构成,Concerpts={Concerpts1,Concerpts2,Concerpts3},式中,顾客机制需求特性概念用Concerpts1表示,顾客的价值需求决策行为概念用Concerpts2表示,如环境约束分析、方略设计、实施等;顾客的基本特征概念则用Concerpts3表示。定义二:顾客价值需求领域本体形式化为三元组:ODomain={Concerpts,Relations,Instances},式中,领域概念的集合用Concerpts表示,领域概念间的关系集合用Relations表示,而ODomain为领域本体,本体实例的集合则用Instances表示,形成三元组。定义三:顾客价值需求领域本体的关系集合表示的是概念集合中各个概念之间的关系,具体数来,表现为n维笛卡尔积的子集。关系集合中存在5种关系,有Part-of:某个概念是另一个概念的属性。Means-end:不同需求概念之间因果解构关系。Subclass-of:概念之间的继承关系。Drive-adjust:不同需求概念之间因果解构关系。Attibute-of:某个概念是另一一个概念属性。也就是行为感知影响目标调整,且目标驱动行为,二者关系密切。定义四:领域模式在应用域的实例,即顾客价值需求领域本体的实例。如“大学生的移动产品需求”本体、“政府顾客的移动产品需求”本体等。
1.2任务本体对特定任务或行为求解方法的描述即为任务本体,对其的设计,应当以顾客需求管理领域决策信息及问题的需求为基础,有文献指出,顾客吸引、识别、保持及发展,为顾客生命周期管理涉及到的4个管理主题,如表1所示,也包括了上述主题的决策分析问题。综合数据挖掘的任务来看,其囊括了一个或多个挖掘子任务、挖掘算法等,结合本次研究,实施了对该领域的任务本体原语定义的设计,如下:OTaske=(Taskea,Inputsa,Methodsa,Outputsa)上式中,挖掘任务本体用OTaske表示;α管理主题下Taskea挖掘任务的输出变量用Inputsa表示,如兴趣参量、聚类变量、规则前、后件变量;α管理主题下的挖掘任务用Taskea,如顾客细分以及需求特征描述等;挖掘结果输出表达形式或格式用Outputsa表示,如聚类中心、“类”聚类变量均值、“类”样本数等;挖掘方法用Methodsa表示,如K-means聚类。另外,α∈(识别顾客,吸引、保留和发展顾客)共同构成了任务本体。
2对本体下顾客需求数据挖掘过程的改进
结合现实发展中的相关问题,在本体的顾客需求数据挖掘过程的改进方面,主要体现了挖掘目和任务、方法的选择及确定及数据源转化、约束参数的选择等。这种方式下,对目标的搜索范围进行了有效的缩小,进而在此基础上提高了挖掘质量和效率,如图1所示。
2.1支持管理决策的挖掘任务首先要进行的是对数据挖掘任务和目标的确定,基于操作中验证或探索可支持实际管理决策的信息结构,具有较大的价值,其知识内容包括了规则、规律、模式及关系等,结合文中研究主题,依据顾客需求相应决策问题来进行具体数据挖掘任务的设置,在对挖掘任务和目标的完善方面,有效地结合了领域知识的本体模型。在对应概念及关系语义匹配方面,根据该领域需求目标、行为信息的本体模型来进行,继而确定本次数据挖掘任务。
2.2挖掘数据空间及预处理在具体的实施过程中,以数据挖掘任务和领域本体模型为基础,指导完成数据集成、选择以及预处理3个环节,这便是挖掘数据空间及预处理,细分有以下内容:(1)提取、归并处理多数据库运行环境中顾客数据,以及遗漏和洗清脏数据等;(2)基于数据来进行数据的选择方面的需求,应依据数据挖掘任务需要分析的数据来实施,进而有效减少了不相关或冗余的属性,也得到了符合约束的数据挖掘有限数据基,实现了数据挖掘搜索效率的有效提高,使得相关属性或遗漏等现象得到了有效避免;(3)基于顾客“需求行为”领域本体的概念语义即为预处理,旨在检查转载的数据,确保其合法性,并及时修正其中的错误,预处理其中的异常数据。
2.3挖掘方法算法及执行流程依据本次研究的需要,在具体的执行过程中,设定先明确数据挖掘的任务和目的,详细可分为验证性、探索性挖两种,前者由用户事先给定假设,继而在挖掘中发现蕴含的某些规则或规律,对所做的假设进行验证;其次,对操作过程中的挖掘方法和算法进行确定,而挖掘方法和感兴趣参数的设置则要根据挖掘任务来进行,如表1所示;最后,确定挖掘结果的表达方式,一般有神经网络、树结构以及规则(模板)等[6]。
2.4评价挖掘结果作为整个实施过程的最后一个环节,对于挖掘结果的评价和诠释,对于整个操作过程具有十分重要的意义,在具体的评价过程中,不能有违背领域本体知识的行为,并要及时参与领域本体的概念关系,且还要采取相应的方法来提高综合评价的有效性,如置信度、支持度以及兴趣度等等,在必要的情况下,实施方应当反馈调整参数或约束等,继而形成对用户感兴趣知识的重新挖掘,对其进行完善,基于本体用严格的逻辑语言表述过程中产生的新知识,需及时在实践过程中的检验与完善,使得整个过程具有较高的可信度,收到良好的执行效益。
3结语
1.1关联分析。它是形如XY的蕴涵式,其中X和Y分别称为关联规则的先导和后继。用关联规则可以从大量数据项集中挖掘出它们之间有趣的联系。此外,关联规则也可用于序列模式发现。
1.2分类。它能将数据库中的数据项,映射到给定类别中的一个。分类[3]定义了一种从属性到类别的映射关系,给定样本的属性值,根据已知的模式将其划分到特定的类中。
1.3聚类分析。聚类是根据一定的规则,按照相似性把样本归成若干类别。在对样本合理划分后,对不同的类进行描述。聚类通常用于将客户细分成不同的客户群,如有相同爱好的客户群。
1.4时间序列。按照时间的顺序把随机事件变化发展的过错记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。
1.5孤立点分析。孤立点在数学上是指坐标满足曲线方程,但并不落在曲线上的点。它也可以被看作是在数据集合中与大多数数据特征不一致的数据。对孤立点进行分析极有可能发现重要的隐藏信息。
1.6遗传算法。它是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法;是一个以适应度为目标函数,对种群个体施加遗传操作,实现群体结构重组,经迭代而达到总体优化的过程。目前,将数据挖掘技术应用于烟草行业的研究逐步受到重视。欧阳秀君,刘文在《数据挖掘技术在烟草CRM中的应用》一文中[4],主要探讨如何将数据挖掘中的关联规则、聚类、分类方法应用于烟草CRM中。康江峰,陈辉[5]将基于数据挖掘的技术应用于对烟草精准营销策略的研究。王辛盟[6]采用数据挖掘技术,利用SPSS统计软件,以某烟草配送中心的订单数据和客户资料数据为数据源,用聚类的方法对客户群进行细分。郑阳洋、刘希玉[7]采用基于多层次关联规则挖掘技术,对2007年山东省内某地级市卷烟商业企业的销售数据进行分析,得到“消费者在购买品名为红河(软甲)的客户中,有57%会同时购买类名为八喜的卷烟”的规则。但以上对于烟草行业的数据挖掘研究的方法主要集中在关联规则、聚类分析和分类三种方法上,在接下来的研究中,我将探讨如何将更多的数据挖掘方法应用于烟草行业的数据分析上。
2数据挖掘技术在烟草行业中的应用
2.1聚类分析在卷烟销售中的应用为了便于日常卷烟销售及统计,通常根据卷烟的属性对进卷烟行分类,常见的卷烟分类方法如下:一是按照价位段划分,5元以下、5-10元、10元以上等;二是按照利润贡献度,分为一类烟、二类烟、三类烟、四类烟和五类烟;三是按照卷烟品牌划分,泰山系列、黄鹤楼系列、七匹狼系列等;四是按照产地划分,鲁产烟、沪产烟、外产烟等;五是按照焦油含量划分,低焦油卷烟和高焦油卷烟。以上就卷烟的某一单一属性对卷烟类别进行区分,极大的方便卷烟的销售管理工作,然而,消费者在选择卷烟时,往往会考虑多方面的属性,因此单一属性的卷烟分类无法解释消费者偏好。因此需要引入基于多属性的卷烟分类方法,由于卷烟规格多且本身具有多重属性,基于主观判别分类方法难以满足分类要求,需借助统计学的方法对卷烟进行科学分类。聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,同一类别的样本表现出较高的相似性。因此,可将聚类分析用于解决上述卷烟分类问题,根据多属性相似程度将卷烟分成几个类别,消费者在同一类别中的香烟偏好无显著差异,即同一类别中的香烟具有较高的替代效应。在实际销售过程中,当某一牌号的卷烟断货、紧俏时,可推荐此牌号所在类别的其它牌号的卷烟给消费者作为有效替代。
2.2时间序列用于卷烟销售趋势预测卷烟销售市场季节性特别显著,主要表现为两个方面:一是市场以节假日为节点,节前卷烟销售迅猛,节后消费趋于平淡;二是夏季是旅游市场的旺盛,旅游业带动外来人口流动增加,卷烟销售量也随同增加。同时,卷烟市场也受经济、人口结构等方面因素影响,使得卷烟销售量存在明显的非线性特征,波动范围比较大,传统线性预测模型难以准确预测。为了提高卷烟销售预测精度,建立一个基于时间序列、能够精确预测卷烟销售量的模型已经成为一种必然趋势。时间序列由四个影响成分所组成,分别是长期趋势、循环变动、季节变动、不规则变动。这四个影响成分与卷烟销售市场的变动规律相吻合。通过建立卷烟销售时间序列模型,对以往销售的历史数据进行分析,能够有效地预测未来卷烟销售市场的走势和发展规律,更好地掌握卷烟市场的供需关系。在此基础上,做好备货工作,设立合理库存,实现有效的货源供应。通过对区域市场变化趋势的预测并结合客户实时经营状况,能够对客户的需求总量做出相适应的预测,确保做好客户的合理定量工作,保障不同零售客户需求。预测结果还可为制定公平合理的货源投放政策提供依据,使得各类货源能够投放至有相应销售能力的客户手中,更好的满足消费者的需求。
2.3孤立点分析用于烟草专卖执法数据挖掘中的孤立点分析方法可以通过计算数据点之间的距离,稠密度等来模拟用户之间的属性差异,由此找到那些属性特征与正常点差异非常大的用户数据点。人们普遍认为孤立点的存在极有可能是度量或执行错误所导致的,因其不符合数据的一般模型,所以在研究普遍现象时,人们总是试图使孤立点的影响最小化,而尽可能排除它们。然而,孤立点可能隐藏着比一般的数据更有价值的信息。近些年来,孤立点挖掘作为一个重要的研究课题,已被广泛用于信用卡诈骗监测、市场内部交易侦测、工业设备故障探测等领域。在已建立的烟草分销数据库中储存着大量客户订单信息,这些订单信息包含多个维度,如用户ID、商品编号、订购数量、需求数量、同一品牌订货间隔等等。可利用孤立点挖掘算法对客户订单数据进行分析,建立客户评估监测模型,找到以下“孤立点”:订单金额高的,敏感牌号订购量大的,敏感牌号订购频繁的,以往订购敏感牌号频率低但最近一段时间频繁订购的,按照商圈不具备高端敏感牌号销路的却频繁订购等等。这类订单“异常”的客户,或者称为“孤立点”,可以被认为是存在相当大的“违规”可能性,我们的专卖执法人员应该对这一类的零售户采取进一步的跟踪调查。孤立点数据分析,势必成为专卖执法的又一利器。
2.4遗传算法用于车辆配送线路优化卷烟商业企业的销售收益主要来自于订单,销售成本主要产生在物流配送的环节。所以,在假设销售量不变的情况下,如何优化线路配置,降低成本,最大化公司利润,在当前烟草行业面临巨大的挑战和压力下,显得尤为重要。因此,采用科学的、合理的方法来确定配送线路将是车辆优化调度工作的重中之重,是物流系统优化、物流科学化的关键。烟草商业企业已有的线路优化系统中储存有客户商店位置、道路情况等信息,可以在此基础上,利用遗传算法对配送线路问题进行优化。将一系列实际中车辆配送的约束条件,转换成二进制编码(染色体)并随机产生初始种群,通过模拟达尔文的遗传选择和自然淘汰的生物进化过程,并借助于自然遗传学的遗传算子进行组合交叉和变异,逐代演化产生出越来越好的近似解,末代种群中的最优个体经过解码,可以作为最终问题的近似最优解,用以实现对车辆的优化调度,即合理地进行配货优化、货物配装优化,特别是配送路线优化。从而达到提高里程利用率,降低行驶费用,减少车辆空驶里程,增加货运量,节约燃料,降低大修费等,为企业带来更大的经济效益。另外,车辆优化调度在减少废气排放量,降低城市空气污染方面也起到积极作用。
3结束语
1.1结果优化中遗传算法的应用遗传算法由达尔文进化论与孟德尔遗传变异论进行模拟后得到,该算法所采用的算法因子具有随机性,故设备故障的出现往往不会受到常规故障规则的限制,但是遗传算法在实际应用过程中,其对故障的整合分析,并不是盲目式的,而是针对机械设备状态运行情况,以设备最优化为基本原则进行不断完善计算进行的。若设备状态监测和故障诊断当中,直接采用了与设备情况相应的参数进行适值计算,但又不需要对优化参数进行明确计算,在针对部分无法明确计算得到的设备参数时,即可采用遗传算法对结果进行优化。遗传算法的智能性与并行性较强,利用该方法,可以对设备故障当中还未得到有效解决的部分复杂问题进行妥善处理。目前,遗传算法在设备运行函数的优化、设备模式的识别以及设备运行信号的整合处理等相关工作当中有着较为全面的应用,在将复杂的运行数据进行优化时,遗传算法具有较为良好的性能。综合其相关特点,在建立设备状态监测和故障诊断的模型时,可采用该技术使得模型更为合理化,使得设备状态监测与故障诊断的结果更为准确。以滚动轴承的状态监测与故障诊断为例。在实际工作当中,运用各类运算符集,对滚动轴承的原始性特征向量进行测量后,采取最优的组合方式获得新型向量,配合采用遗传算法得到最终的滚动轴承参数,并利用分类法,对各项间距进行了调整,使得滚动轴承的诊断参数更为准确。此外,利用该方法,还有效区分了滚动轴承的不同工作状态,测量结果较为全面,效果显著。
1.2模糊集理论的应用要点该方法通过模糊集合与模糊推理两种方法,其研究测试的对象是各类不确定性因素,属于传统集合理论的创新。模糊集理论在设备状态监测和故障诊断中的应用,主要包含了两个方面。一方面,是在相关数据概念的形成时,采用不准确和较为模糊的语言变量,根据人们习惯,对设备状态的变化及变量变化状态进行描述。具有较强的直观性,且相关人员在接受该类概念时,也可以更方便的理解接受;另一方面,该方法通过提炼模糊性规则,在建模时模糊化,使得机械设备的控制、预测以及故障诊断等过程拥有更为广阔的空间。
1.3基于实例分析的方案优化及调整该种方法拥有较为简单的思路,在对设备未来运行情况进行预测时,系统会匹配与设备目前情况相似的实际案例,并从以往的解决方法中选出最佳的解决方案,再结合设备实际情况进行相应调整。此类方法的应用范围较广,且得到的计算结果也相对准确,但同时也具有一定缺陷,即无法全面整合以往设备数据及解决规律,缺乏充足的继承性。该方法进行故障诊断的基本理念是,在选红枣解决方法的过程中,利用历史诊断方法成功案例为奠基,进行全面的推理工作,并采用类比和联想法,较为全面的对故障进行诊断。
1.4多种数据挖掘法的联合应用除上述几种数据挖掘技术外,实际工作中还涵盖了以传统数据统计为基础的统计分析方法、人工神经网络元技术、等多种方法,考虑到每一种方法或多或少具有局限性,故为了有效提高各类方法的应用效果,可以将各类方法进行配合使用,代表性的算法组合类型如表1所示。
以遗传算法和模糊集理论的配合采用为例。由于模糊算法,主要是利用了最大隶属原理和阀值原理,故可以按照不同故障的发生原因以及故障征兆的相互联系,在综合考虑的基础上对机械设备故障的可能原因进行全面分析。而该方法在运用的过程中,会对各类故障征兆进行约简化从而得到较为普遍的规律,但是所得到的规律也可能存在不可靠问题。故在实际应用模糊集理论的同时,配合采用遗传算法,通过对模糊集理论所得到的结论及规则进行全面优化,使得诊断的结果更为准确与高效。上述案例方法在涡轮机故障诊断过程中进行应用时,可先建立完善的涡轮机故障集,在此基础上采用模糊集理论对涡轮机故障进行诊断,配合遗传算法对涡轮机故障规律进行优化,使得最终故障诊断结果更为准确。除遗传算法与模糊集理论课进行配合使用外,其他各类方法也可以根据设备实际情况进行搭配,使得最终诊断结果更为准确有效。
2结束语
1.1数据挖掘
数据挖掘(DM)融合了多个领域的理论和技术,如人工智能、数据库、模式识别、统计学等技术。数据挖掘常与数据库中的“知识发现”(KDD,KnowledgeDiscoveryinDatabase)进行比较,对于两者之间的关系,学术界有很多不同见解。数据挖掘属于整个知识挖掘过程的一个核心步骤。
1.2信息安全漏洞
漏洞(Vulnerability),又称为缺陷。对信息安全漏洞的定义最早是在1982年,由美国著名计算机安全专家D.Denning提出,D.Longley等人从风险管理的角度分三个方面描述漏洞的含义,M.Bishop等人采用状态空间描述法定义漏洞,权威机构如美国NIST在《信息安全关键术语词汇表》以及国际标准化组织的ISO/IEC《IT安全术语词汇表》中也对漏洞进行定义。世界上比较较知名的漏洞数据库包括美国国家漏洞库NVD(NationalVulnerabilityDatabase)、丹麦的Secunia漏洞信息库等,我国在2009年也建成了中国国家信息安全漏洞库CNNVD。本文选取Secu-nia漏洞库的漏洞数据作为样本进行数据挖掘。
2数据挖掘算法
2.1数据挖掘任务
数据挖掘任务主要是发现在数据中隐藏的潜在价值。数据挖掘模式主要分为两种:描述型和预测型。描述模式是对历史数据中包含的事实进行规范描述,从而呈现出数据的一般特性;预测模式通常以时间作为参考标准,通过数据的历史值预测可能的未来值。依照不同的模式特征,细分六类模式:预测模式、关联模式、序列模式、分类模式、回归模式以及聚类模式。本文主要针对关联模式进行深入探讨。
2.2关联规则分析及算法
关联规则算法是指相关性统计分析,基于分析离散事件之间的相关性统计而建立关联规则,关联规则算法是定量分析,所以必须将样本中的数据进行离散化操作,此算法是基于大量数据样本的优化算法。
(1)关联算法中的几个基本概念
关联规则算法包含4个基本概念项集。项集是一组项的集合,每个项都包含一个属性,例如,项集{A,B}。项集的大小是指向集中含有项的数量。频繁项集为样本中出现频率高的项集。支持度。支持度用来衡量项集出现的频率。项集{A,B}的支持度定义为同时包含项A和项B的项集的总数。
(2)Apriori关联算法
Apriori算法将发现关联规则的过程分为两个阶段:首先通过迭代,检索出数据集中所有的频繁项集,即支持度不低于最小支持度的项集;第二阶段利用频繁项集构造满足最小信任度的规则。
3运用关联规则算法挖掘Secunia漏洞数据库
Secunia漏洞库覆盖范围包含程序和系统中的各种漏洞。该数据库持续更新体现最新的漏洞信息。Secunia漏洞公告主要包括:漏洞名称、Secunia公告号、日期、漏洞等级、漏洞来源、影响范围、操作系统版本等。以Secunia漏洞库中的信息为样本,构建关联挖掘规则,反映出漏洞信息在不同系统中的关联性。
3.1构建关联规则
(1)挖掘任务
通过历史漏洞信息,挖掘分析不同软件出现同类型漏洞的概率。
(2)挖掘结构
结合挖掘任务,数据挖掘关联表为事例表结合嵌套表的方式。建立漏洞表Vulnerabilities,此表为事例表,漏洞id作为主键。嵌套表为Softwares表,记录软件名和软件版本类型,软件id作为两张表进行关联的外键。
3.2关联规则挖掘结果
通过采集的Secunia库的数据作为样本,应用Apriori算法模型。依据最低支持度(Min_S)和最低置信度(Min_P)的阈值,形成相应的规则集。通过调整Min_S和最低Min_P的值,得到如表1所示的值。通过上述例子可以看出,当关联规则的置信度越高、重要度越高,则该条关联规则的价值越高,根据具体情况,可以设置最低置信度和最小重要度作为该条规则是否有价值的标准,即(Confidence(AB)min,Importance(AB)min),根据对置信度和重要的综合考虑,可以得出价值更高的关联规则,从而对信息安全事件有更好的预警分析。
4结语
现在的网络购物深受广大网民的喜爱,它有着非常广泛的群众基础,在进行网购时一般有下面几方面的特点:
①有大量的成员,
②顾客可以在网络上对购买的商品发表看法从而影响到其他网民的看法,
③大量的购买数据也会为网民指明那个时间断的购物趋势,
④对于较好的商品,为了省事大多数网民会进行购买。而数据挖掘对于网络购物有着重要的意义,网络购物数据库储存了大量的数据信息,而这些数据信息依靠传统的统计分析方法很难做出准确的分析,但是通过网络数据挖掘我们可以对海量的数据信息进行科学的分析,他能同时搜索发现多种模式的信息,揭示隐藏的、不明显的、预料以外的数据,通过评估数据的特征、特性和规则,我们可以发现其中有意义的联系与趋势。这样对于网民在网购时做出准确的判断很有意义。
二、数据挖掘的网络购物现状
21世纪互联网成为了人们的联系沟通的重要工具,网络购物越来越流行,而想要在充满虚假的网络上面进行购物,就要有合适的方法与手段进行甄别。数据挖掘可以在一定的程度上发现网民购买商品数据的联系,找到它们之间的关联性,然后买家可以根据此来进行购买商品。在我国,数据挖掘应用于网络购物还处于试验的阶段,将它的理论基础转化为实践是具有一定的难度的,在进行数据挖掘时会遇到种种的困难,比如:网络购物数据库内的数据没有及时的更新,数据库中的信息不够完善,数据的利用率不足,人们对于数据挖掘技术的不信任等等。而且网络购物数据挖掘技术,它要么是对数据进行分析,要么是对网络关系进行分析,很少将二者综合起来进行全面的分析,这样也会影响到数据挖掘技术所分析出来的信息的准确性,很难对于网络购物的买家产生说服力。由于网络不能使用卡,以及网络宣传是的资质证明的可欺骗性及不完整,导致许多消费者的购买行为和网络购买欲望受限。对企业而言,资质证明是网上合法性和安全性的基本保障,资质证明的标示既有利于监管部门监督管理,又有利于消费者判别和选择。由于我国已有法律法规中没有明确规定在网页上必须标明表示哪些资质合法有效的证明,也没有明确规定这些证明应当标示于何种位置、以何种方式标示,而卡的使用是硬性的问题,可以推荐卡实施与支付宝相关的业务,为消费者提供更多的方便。应对已经消费了的顾客要进行有效的售后回访,在消费者确认收获的同时对消费者进行回访,试问对品的满意程度,在一段时间后对消费者提供使用回访,给消费者最满意的服务,让消费者成为网店的永久性顾客,同时让消费者周边的潜在消费者相信网络的可靠性。而且,据调查,目前大部分网上客服均采用QQ联系的方式设置客服体系,亦有部分网上建立了网页对话模式,但是消费者和师无法面对面沟通的问题就导致很多的消费者对于急需的问题无法解决,卖家可以设置关键字的自动回复设置,只要消费者输入相应的关键字就能得到相应病况的治疗品,而且对该情况的也有相对应的健康小常识介绍,这样就部分解决消费者的需求。如果可以设置“如果有消费者浏览网页,客服人员就能与其主动联系”这样的服务系统,即是消费者首先与客服人员联系,这样就能大大的增加消费者的数量,而客服人员无法及时发现消费者,这也就使网上提供学服务有所欠缺。例如:在网络上销售年轻人信任度高的品品牌,对网页的设计偏向于年轻、有个性、有活力的网页版面,设计简单的购物环节,将繁琐的购物环节都省略,设计简单、快捷的购物渠道。并且根据消费者的心理进行简单的消费促销,但要严格保证不减退消费者的对与的信任度。
三、总结
1.1数据挖掘技术
关联分析即找出两个或以上变量之间同时出现的规律、因果结构,即通过其他事物可对某个与之相关的事物做出预测。数据挖掘关联分析的主要作用就是分析海量数据中潜在的关联规则,对于高校图书馆个性化服务而言,即从图书馆数据库中发现相关的关联规则,针对用户的信息需求做出准确预测,提高信息推送的针对性,便于用户获取所需的信息。聚类即将数据库中的一组个体按照相似性归结为若干类型,应用于图书馆系统中,就是将相似的文献集中在一起,用户在搜索相关文献时可以查阅更多其他相关内容,便于其总结、归纳;在个性化服务中还可以通过聚类汇总用户所需的特定信息。分类与聚类相似,是按照分析对象的属性建立类组,用户查阅资料的过程中,每种信息的重要程度有所不同,通过分类可以将用户所需求的知识分为高度需求、中度需求及低度需求。在高校图书馆个性化服务中要对用户的使用规律做出预测,即根据用户历史查阅记录对用户所需的文献种类、特征等做出预测。时序模式主要是通过时间段对用户的访问记录、检索过程做出标志,再通过时间序列将重复率较高的内容挖掘出来,以预测其下个信息需求,提高用户查阅资料的便利性。
1.2图书馆中应用数据挖掘的必要性与可行性分析
图书馆应用数据挖掘技术的必要性体现在以下几个方面:首先,信息化需求。用户的借阅记录、检索记录均存储于图书馆数据库中,需要利用数据挖掘技术将这些海量数据转换为有用的知识信息,以便于馆员做出决策。其次,图书馆的管理需求。传统图书馆系统仅能为用户提供简单的访问、检索等功能,这些功能无法满足图书馆个性化的技术要求,因此要利用数据挖掘技术将用户借阅数据中隐含的关联性发掘出来,从中发现有用的知识信息。最后,用户服务的需求。数字化图书馆的发展越来越迅速,用户通过图书馆获得的资源也越来越丰富,如何从海量的信息资源中发掘出对用户有用的知识信息,仅依靠传统的图书馆管理系统无法解决这一问题,因此要利用数据挖掘技术对用户的借阅记录进行分析,从中获得更多有价值的信息,以提高图书馆的服务质量及馆藏利用率。而在图书馆个性化服务中应用数据挖掘技术也是可行的,一方面很多图书馆已具备比较好的物质条件及人才条件,这些均是图书馆个性化服务中应用数据挖掘技术的必要条件,而且政府在经济方面、政策方面也为数据挖掘的应用提供了更多保障;另一方面,近年来数据挖掘技术也有了长足的发展,其足以为图书馆的个性化服务提供必要的技术支持。图书馆数字化发展过程中需要采集、购置更多的数据资源,而利用数据挖掘技术可以为图书馆资源建设提供指导作用,挖掘图书馆的历史借阅记录,可进一步了解用户的借阅习惯、阅读兴趣及信息需求,并且可以对不同图书之间的关联性进行深入分析,图书馆员根据这些信息记录、分析结果等提供指导,可以提高图书资源分配的合理性,对馆藏布局进行优化。由此可见,数字化图书馆个性化服务中应用数据挖掘技术十分必要。
2图书馆个性化服务的具体体现
高校图书馆个性化服务是指根据每个用户的专业、爱好、研究方向、探索领域及特殊服务为其提供更具针对性的信息服务,帮助用户查阅更加完整的信息资料,便于其学习、研究。高校图书馆个性化服务具体体现在以下3个方面:
①用户可根据自己的需求定制相关信息,以保证其在图书馆中能够查阅到相关资料;图书馆利用数据挖掘技术发现用户的兴趣爱好,为其定制个性化的访问空间。用户访问图书馆数据库时会将其兴趣爱好间接地反映出来,如果用户不感兴趣,在页面停留的时间会较短,停留时间较长则说明比较感兴趣;利用用户的浏览路径信息时间即可将用户对信息资源的感兴趣程度发掘出来。
②提高图书馆资源利用率。利用数据挖掘技术可以识别图书馆网站内频繁访问的路径及用户访问次数较多的页面,可以将新书信息、重要的分类信息放在这些路径上,从而向用户主动推送其所需要的信息资源,提高图书的利用率。
③优化链接结构,提高用户应用的便利性。对Weblog进行挖掘,可以发现用户访问页面的相关性,增加联系比较密切的网页之间的关联性;发现用户的期望位置,如果用户访问期望位置的频率高于对实际位置的访问频率,则可在二者之间建立导航链接,优化站点。
④查新服务与定题服务。传统图书馆主要通过查询光盘数据库、文献数据库等进行查新服务,而随着网络技术的不断发展与应用,外部网络信息及更新的速度远远超过图书馆内部网络,因此要加强网络平台的建设,以保证服务结果的真实性与可靠性。数字图书馆在进行查新与定题服务过程中,可以利用可视化技术为用户提供在线即时信息分析。
3图书馆个性化服务中数据挖掘技术的应用
图书馆个性化服务数据挖掘技术的应用流程如下:建立读者数据仓库——数据收集——挖掘算法的选择——挖掘结果的显示——对结果的评价。
3.1建立读者数据仓库
数据挖掘过程中,在确定了挖掘目标后,即开始进行数据准备,从大量数据中选择一个与需挖掘目标相关的样板数据子集。此时需要建立一个数据仓库,其主要作用是将所有挖掘目标所需的数据保存其中,如果未建立数据仓库直接进行数据挖掘,可能会导致挖掘失败,因此数据挖掘的前期工作大部分用于准备数据,因此建立数据仓库是一个至关重要的准备工作。高校图书馆个性化服务中应用数据挖掘技术,第一步就是建立用户的兴趣库及图书馆自身的特色资源数据库。用户使用图书馆的过程中,必然会产生大量的借阅记录,访问图书馆网站会留下访问记录,这其中均潜藏了大量有意义的信息。
3.2数据收集
在建立用户兴趣库及特色资源数据库后,必须对这两个数据库中的数据进行分析、调整,以保证原始数据的质量,从而保证数据挖掘结果的质量。数据收集即数据的分析与调整可以分为数据抽取、数据清洗及数据转换等3个步骤。其中数据抽取的主要作用是将与挖掘目标相关的数据信息搜索出来;数据清洗则是对数据进行噪声消除、重复记录的消除及推导计算缺值数据等。图书馆每天会产生大量的用户相关的数据,并非所有的数据均对整个挖掘处理过程有正面作用,有些数据可能会对挖掘效果产生负面影响,因此剔除这些无用的数据十分必要。数据转换的主要作用是精减数据维数,从初始特征中分析出真正有用的特征,通过数据转换可有效减少数据挖掘时需要考虑的变量数。
3.3选择算法及建立模型
数据挖掘过程中不同的算法可能会实现同一个任务,但过程却大相径庭,因此要根据数据的特点、实际运行系统的要求选择适用的算法。有些用户比较倾向于获取描述型的、容易理解的知识,有些用户则希望获取预测型知识,因此要针对不同的用户选择对应的算法,之后就要进行数据挖掘模型的建立。通过对用户分类、聚类及时间序列的分析,将每类用户的普遍性需求及个性化需求抽象出来,从而建立一系列的关联规则模型。一个模型完成后不一定可以立刻解决问题,需要对其进行反复验证,如果可以解决问题证明模型有效;如模型存在缺陷,则要通过反馈对模型进行修改、调整,或者选择新算法,建立新模型,对不同的模型进行全面考察。
3.4结果解释与知识表示
在建立数据挖掘模型后,可利用建立挖掘模型时所用的算法规则进行运算,即可产生数据挖掘结果,图书馆只需对挖掘结果进行可视化、可理解化处理即可。要将抽象的数据解释成易读、易懂的结果,图书馆决策者及管理者即可根据可视化的挖掘结果进行决策。比如图书馆新引进了一批考古专业的学术论文,由数据挖掘模型分析结果可知,该批论文的查阅者90%均为考古专业的老师与学生,其他专业的师生查阅率不到10%,根据这一结果,即可将论文信息传递给考古专业的相关用户,以提高信息推送的针对性。
3.5结果的验证、应用及评价
产生挖掘结果后需要进一步实践,以验证结果的有效性与可用性,及对模型的实用性进行评价,并且挖掘结果还具备预测未来数据的功能。上一步的结果解释经过实践后,可对应用过程进行跟踪了解,获得用户的反馈信息,对结果的实用性进行验证。需要注意一点,即一个数据挖掘的模型与已有数据完全相符比较困难,且并非所有的环境、每个时间节点均适用于同一个数据挖掘模型,因此要对挖掘结果做出评价,如经过用户的反馈,数据挖掘出来的结果可以解决问题,实现了最初的挖掘目标,满足了用户需求,则可判定该模型是合理的。挖掘结果可以满足用户的要求,用户就会做出满意的反馈,将这一反馈信息提供给决策者即可做下一步的实施,完成该阶段后,图书馆就基本上实现了以用户为中心的个性化服务的数据挖掘过程。不过某些情况下模型的评价结果可能不尽如人意,即数据挖掘的结果无法满足用户的要求,这种情况就要由系统进行重新处理,重复上述步骤,重新抽取数据、选择另外一种数据转换方法、设定新的数据挖掘参数值、选择另外的挖掘算法等。由此可见,数据挖掘的过程是一个不断反馈的过程,体现出反复性的特点。
4结语
关键词:数据挖掘;财务流程;财务决策
1数据挖掘的概念和技术
数据挖掘是针对非常大的数据进行的研究和分析。它采用自动或半自动的程序,对数据中固有的先前未知的潜在有用信息进行抽取。数据挖掘的起源可追溯到20世纪50年代人工智能的早期发展。在此期间,模式识别和基于规则推理的发展提供了基础构建块,数据挖掘就建立在这些概念的基础之上。在最近10年中,大型业务数据库(特别是数据仓库)使用量的增长以及对这些数据的理解和解释的需要,再加上相对廉价的计算机的供应,导致数据挖掘在各种业务应用中的使用急剧增长。这些应用从零售业务的顾客细分和市场购物篮分析,到银行业务和金融业务应用中的风险分析和欺骗侦查,涉及面非常广泛。
多年来各国学者已开发了多种数据挖掘技术,用于大量的数据集中探索和抽取信息。总的说来,数据挖掘技术分为两大类:探索型数据挖掘和预测型数据挖掘。探索型数据挖掘包括一系列在预先未知任何现有模式的情况下,在数据内查找模型的技术。探索型数据挖掘包括分群、关联分析和频度分析技术。预测型挖掘包括一系列在数据中查找特定变量(称为“目标变量”)与其它变量之间关系的技术。预测型挖掘常用的有分类和聚类、数值预测技术。数据挖掘使用的算法很多,主要包括统计分析、机器学习、决策树、粗糙集、人工神经网络和径向基函数(RBF)等。
数据挖掘的程序主要分为以下5个步骤:
1)定义问题。清晰地定义出业务问题,确定数据挖掘的目的。
2)数据准备。数据准备包括:选择数据——在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理——进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
3)数据挖掘。根据数据功能的类型和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
4)结果分析。对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
5)知识的运用。将分析所得到的知识集成到业务信息系统的组织结构中去。
2财务决策中应用数据挖掘的必要性
一个财务决策的正确程度取决于所使用的事实和数字的正确程度。随着竞争的增加,财务决策的时效性也变得越来越重要了。因此,在财务决策领域应用数据挖掘是企业现实的需要。
(1)有利于提高财务信息的利用能力。解决企业财务决策问题需要以询问为中心的数据图解,其以序列导向和多维为特征。而传统的财务数据查询是一种事务处理,它是面向应用、支持日常操作的,对查询得到的数据信息缺乏分析能力,决策者不能够在大量历史数据的支持下对某一主题的相关数据进行多角度的比较、分析,得出科学的分析结果。因此,财务决策问题自身的多维特性驱动了数据挖掘领域的应用。
(2)有利于解决财务信息的噪音问题。由于网络技术的发展,企业可以通过Intranet、Extranet、Internet方便获取各种企业内部、关联方及外部资料。现今的问题已不是信息缺乏,而是信息过量,难以消化,且信息真假难辨,可靠性难以保证。所以,对企业来说,这时就需要高效的数据分析工具在浩瀚的信息流中分辨、析取、整理、挖掘对财务决策有用的信息,减少信息噪音的影响。
(3)有利于满足财务信息智能化的需求。由于决策本身的动态性、复杂性,决策者本身素质层次的多样性,不同的情况应有不同的处理方式。传统的数据析取是依靠程序人员在系统开发过程中设计的专用程序来实现,非常机械化。随着数据量的增大,查询的复杂化,这种方式越来越不可取。决策者希望信息的折取过程能够智能化,如不仅能对自己想到的信息进行访问,还能对自己想不到却需要的信息进行访问,对同样数据进行多次访问时,不必做重复操作;不同决策者作相似访问时,也不必进行重复操作等。
3财务决策中数据挖掘的应用流程
3.1优化基于数据挖掘的公司财务决策基础环境
1)硬件及其应用。数据挖掘需要有一定存储量和运算能力的计算机,要充分发挥数据挖掘在财务分析中的作用,还需要实现管理信息系统的网络化,构建财务业务一体化的企业管理信息系统。在IT环境下,网络是提供信息传递和信息共享的基石,公司应该根据自身的实际情况,构建适合的网络硬件解决方案。主要包括:选择什么样的技术架构、进行服务器和客户端的配置等。
2)软件及其应用。以会计信息系统为核心的企业管理信息系统是实现数据挖掘在财务分析中应用的基础,可以为数据挖掘提供各种财务数据。公司构建管理信息系统时,在满足核算和控制需要的前提下,应该充分考虑数据分析和信息集成的需要,为数据挖掘的应用提供支持。公司构建的信息系统应该能够保证在业务发生的同时尽可能收集分析所需要的各种数据,并以恰当的数据结构存储在数据库中,在需要时提取到数据仓库或数据集市中,供数据挖掘分析处理。
3.2建立基于数据挖掘的财务决策支持系统模型
数据挖掘是在大型数据库或数据仓库基础上进行深入的数据分析,从而获取海量数据中隐藏的关键信息的主要手段。因此,为了进一步提高财务决策的支持能力,可以将它们结合起来构成一种新型的财务决策支持框架。在数据仓库为财务决策提供完整、及时、准确和明了的综合数据的基础上,通过进行有效集中分析和深入研究,可以发现趋势,看到异常,并得到重要细节。而数据挖掘则可通过使用一系列方法进行分析,从中识别和抽取隐含、潜在的有用知识,并充分利用这些知识辅助财务决策。3.3建立财务决策中数据挖掘流程
财务决策中的数据挖掘流程一般由财务决策问题识别、数据准备、数据开采和结果表达和解释四个主要阶段构成,如图1所示。
(1)财务决策问题识别。典型的财务决策有投资决策、筹资决策、成本决策、销售决策等。在进行数据挖掘前,必须先对具体财务决策问题进行识别,即要确定进行什么决策、达到什么样的决策目标等。然后再将财务决策目标转换成数据挖掘目标,并进行定义。
(2)数据准备。这个阶段又可分成3个子步骤,即数据集成、数据选择和数据预处理。数据集成是将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。而预处理则是为了克服目前数据挖掘工具的局限性。
(3)数据采掘。这一阶段主要进行实际的数据挖掘工作,主要包括决定如何产生假设、选择合适的工具、发掘知识的操作和证实发现的知识等步骤。
(4)结果表达和解释。根据用户的财务决策目的对提取的信息进行分析,把最有价值的信息区分出来,并提交给用户。如果结果不能让决策者满意,则重复进行上述过程。
参考文献