本站小编为你精心准备了关联规则下的数据挖掘算法探讨参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
【摘要】随着大数据时代的来临,在有关信息化的各行各业当中,数据的计算、分析、处理都有其独特的作用。类似于云计算、天网等等有着巨大数据储存的数据库,由于信息时代的影响,需要他们处理的信息量变得越来越大。因此,根据实际情况研发出科学而有效的数据挖掘算法,对于整个信息行业来说都有不可估量的意义,在进行大规模数据信息处理的时候,在关联规则下的数据挖掘算法就体现出了它本身重要的优势。因此,本文将对关联规则下的数据挖掘算法进行详细的分析,以供参考。
【关键词】数据挖掘算法;关联规则;分析
1引言
随着“互联网+”在全球的不断普及,计算机信息技术的应用范围也变得越来越广阔。尤其是在数据库里信息分析、处理领域里面,数据挖掘技术当中的数据挖掘算法发挥了其独一无二的作用。大量研究中,关联规则下的数据挖掘算法作为数据挖掘技术的集中体现,便是其重要研究成果之一,本文将对此做出详细探讨。
2关联规则下数据挖掘技术(Apriori算法)分析及应用
数据挖掘技术在进行信息处理的时候,相比于传统技术,它是一种比较新型的信息处理技术,无论是从商业价值还是从经济价值上来看,它都能从根本上对传统数据处理技术提出挑战[1]。在关联规则下,数据挖掘的在进行的过程当中,主要有两个步骤。首先,相关工作人员需要从复杂的数据库当中筛选出比较集中的一部分高频项目组。其次,要将选好的高频项目组进行一定的分类、归纳,并且找到其中的某些关联。在归纳的过程当中,要对各种各样的数据进行统一的统计,并且对于数据库中一些相关的属性进行集中的反应,进而实现实时统计,这种方法被称为AQ法[2]。在进行实际高频组筛选的时候,需要注意的是高频的概率指的是一个项目组在所有数据当中出现的概率达到一定的水平,而不是单个的数据信息。而从专业的角度上来说,此概率可以被称之为支持度。在第二阶段当中,相关高频项目组,在进行关联规则,获取的时候也需要注意信赖度的问题,而这里的信赖度是指相关项目组当中所有的数据真实度达到一定的水平。在关联规则下,必须要信赖度达到一定标准的项目组才能被举例出来。在关联规则下,原创Apriori算法主要是用于对频繁项数据的挖掘。在进行Apriori算法使用的时候,主要应用的是迭代方法。并且,此算法的应用过程分为两个步骤。第一个步骤是连接步,通过把自身与kl-1连接起来,从而快速的找到频繁k项集,进而在一定程度上产生候选k项集Ck,在此过程当中,kl-1当中的元素都可以被直接连接起来。第二个步骤是剪枝步,这之后,Ck就作为Lk的超集,需要注意的是,在Ck当中的元素,它可以是具有频繁性的,也可以是不具有频繁性的。在Ck当中,包含了所有的频繁项集,因此,在对数据库进行实际扫描的时候,可以具体到确定每一个数值。从而使得Lk在一定程度上被确认,但是在此期间需要注意的是,Ck项集里面如果数值很大的话,就容易引起相对的偏差。所以通常情况下都会对Ck项集做压缩处理。
3关联规则下数据挖掘算法应用
3.1数据挖掘算法在数据交互上的应用为了有效避免数据重复这一情况,相关关联规则下的数据研究人员往往会对数据挖掘技术的研究过程进行整体上的改革,进一步加大研究力度,刷新挖掘目标,科学的完善整体的挖掘计算机制。比如,相关研究人员在进行实际研发的时候,要对数据挖掘计划做一个详细的数据总结,并且对整个系统当中的工作控制具体到任务分配环节上来。使得每一位研究人员都能够在一个理想的挖掘数据信息环境当中来指定挖掘算法的约束。进而从不同的阶段上面,来对数据挖掘技术基本形式进行实时的数据交互。
3.2数据挖掘算法在反馈机制下的应用在进行实际数据挖掘算法研究的过程当中往往会受到很多不可测因素的影响,所以在其间建立有效的反馈机制和负反馈机制是非常有必要的。针对于计算结果,要及时的进行验证,防止由于错误导向导致的算法数据修正。因为在数据修正的过程当中会消耗大量的人力、物力以及时间。建立约束机制是必不可少的,数据挖掘算法当中的各个阶段都需要约束机制的作用。确保逻辑上的正确性,并且根据客户的侧重面来进行实际主观改良。数据挖掘算法的约束是不变的,像数学上的逻辑性一样。在研究的过程当中一定要满足各方面的实际需求,符合逻辑性。
3.3数据挖掘算法在约束条件下的线性应用在进行约束类型选择的过程当中,一定要遵守相关的关联规则:在时态的约束条件之下。数据量的上升以及计算机的内存是呈线性关系的,倘若在一个数据库中,对数据挖掘算法进行扫描的时候,发现少了I/O个数的话,在关联规则之下,数据挖掘算法就有其必要性,此内容就是ISS的容量控制。ISS容量控制如果非常科学、合理的话,能够在一定程度上减少CPU的占用量,提升性能。
4数据挖掘算法的其他类应用
在我们的日常生活当中,常使用数据挖掘算法来进行各种问题的求解,数据挖掘算法转化成现实应用有多种类型。其中,C4.5算法是比较常见的,在运用C4.5的算法方式时,主要利用决策树来创建完整的分类器,其主要指的是和流程图比较相似,能够对各种新数据展开合理分配,从而构建了完整的决策树。同时,在对数据展开挖掘操作时,应用比较普遍的工具就是分类器,通过对各种数据进行明确划分种类,而且能够及时对一些新数据种类进行预测。在运用C4.5算法来进行计算时,必须充分结合C4.5来提供的相关表达内容,这样才能按照所给的数据性质,来分别组成不同的数据集合,并且展开数据分类。如果在数据集中含有的病人信息非常庞大,那么在已知病人的年龄、脉搏、血压、最大摄氧量以及家族病史等等信息之后,需要充分应用病人的数据属性集合与病人所反馈的相关类型保持对应,只有充分运用C4.5算法,才能针对病人的需求,充分结合病人的属性因素,构建科学、合理的决策树图形,实现数据挖掘应用。
5结语
在关联规则之下,数据挖掘算法是在数据挖掘技术当中所引发出来的非常重要的数据处理方法,它的合理应用能够使得数据库在进行大范围内的数据处理时,能够高效,及时并且容错率低地进行数据统计、分析、计算、预测。所以,本文中的主体主要是介绍数据挖掘技术以及数据挖掘算法,以供相关读者参考。
【参考文献】
[1]吐尔逊江•托合提.基于关联规则映射的生物信息网络多维数据挖掘算法分析[J].无线互联科技,2015(19):35-36.
[2]杨泽民,郭显娥,王文军.数据挖掘中关联弱化问题的解决方法分析[J].计算机科学,2013,40(08):220-222.
作者:潘燕 单位:福建农业职业技术学院