美章网 资料文库 数据挖掘在招生数据平台的应用范文

数据挖掘在招生数据平台的应用范文

本站小编为你精心准备了数据挖掘在招生数据平台的应用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

数据挖掘在招生数据平台的应用

近年来,我国大力发展职业教育,并投入了大量的人力和物力,高职教育也得到了前所未有的发展。但是随着目前各大高职院校的招生规模不断扩大,招生方式也在不断地改革与创新,各高校的生源竞争也日趋激烈,各高校都在努力地去对招生的数据进行研究,使用数据仓库、数据挖掘等技术,将招生过程中收集到的生源信息进行提取,采用分类、聚类、关联分析等方法,通过对大量的报考学生信息进行清洗、分析和统计。获取学生学习的需求、专业需求、就业需求等信息,找出科学与规律,从而更好的制定招生政策,招生计划,提高入学报告率和生源质量,促进学校的发展。

1数据挖掘的定义

数据挖掘(DataMining)是指人们从大量的、模糊的、零碎的、随机的、不完整、含有噪声的应用数据中,提取出一些有潜在价值的信息和知识的一系列管理与分析过程。主要的工作流程主要包括:首先对原始数据的整理,选择数据并对数据进行预处理,然后对预数据的进行转换,最后抽取出有用的信息并获取知识。数据挖掘基于数据库对模式进行发现,可将模式划分预测型模式与描述型模式两种。

2数据挖掘的常用方法

2.1聚类分析方法聚类分析的方法是目前数据挖掘技术中一个很常用的方法,主要源用于统计学、生物学及机器学习等学科。它是使用簇的集合,通过使用一个簇内的任意两个对象之间的相似性,找出对象间的相异性的过程。

2.2决策树决策树分为分类树和回归树两种,其中分类树是对离散型数据变量进行决策,而回归树主要应用于连接的数据变量进行决策。它的主要工作过程就类似于数据流程图中的树型结构,把整个结构分为根结点、中间结点和叶结点,在进行数据分析的过程就是把数据进行切分,每个问题对应一个结点。

2.3关联规则关联规则主要的思想是根据数据的出现的频率找到出现之间的相互关系,主要的目的是根据他们的关联信息找出其中的规律,并为之所利用。最核心的方法就是基本频集理论的递推方法。

2.4统计分析的方法常用的统计分析立法有回归分析方法、判别分析方法和探索性分析方法三种,它主要是要从大量的数据中,使用科学的统计方法,推断出事物之间存在可能的规律。3招生数据仓库的建模本文在创建数据仓库的过程中,主要通过数据驱动的方法,从不同的数据源中获得的数据存储到数据仓库中,根据决策的主题,实现招生数据的更科学决策分析,本文主要选用SQLServer数据库,从概念建模、逻辑建模及物理建模的三级模式来构建数据仓库。

4数据挖掘流程

我校是国家级示范性高职院校,招生类型多,招生管理工作复杂繁琐,把数据挖掘技术应用于招生数据的管理中,有利于对考生志愿的合理选择,同时也让更多的学生及家长了解当前的专业模式,以及对录取的新生报到率的预测,为下一年的设定招生人数和专业设置提供有价值的参考资料。数据挖掘技术在本校的招生数据管理的主要工作流程如图1所示。我们从最原始的学生填写的高考志愿信息表中,获取基础数据,从考生的高考成绩、学业水平成绩、高中毕业考试成绩、考生类别、生源地、家族信息等信息中,通过前端处理工具,主要使用Clementin工具,设置字段选项、选择记录点、对数据进行抽样,汇总等建立数据仓库,基于数据挖掘所要实现的目标以及数据所具有的特点,确定合适模型,通过聚类模型实现挖掘分析。最后评价数据挖掘结果,确定最佳模型,将其应用到具体实际问题中,与招生工作进行结合从而解释数据挖掘结果。

5数据挖掘在招生平台应用

建设招生数据管理平台主要是为了对所有的招生数据进行科学的分析,解决招生过程中专业的设置,冷热门专业分析,录取分数线分析,考生第一志愿的分析以及招生计划的设置等。

5.1专业设置招生平台中,可以以专业类别当成维度,采用关联分析,对各专业进行分析,与及对某一专业和其相关联的或相近专业,使用多维数据集与EXCEL的数据透视表工具结合,能方便地进行OLAP操作及结果的报表、图形等多种方式的可视化展现。

5.2冷热门专业分析以生源所在地的考生为基础,运用聚类算法进行分析,以发掘考生填写志愿的相关规律,确定哪些专业是热门,哪些专业是冷门专业,根据毕业生的就业情况以及对当前的市场变化趋势深入了解,持续地对热门专业进行支持与挖掘,对冷门专业进行控制。

5.3考生第一志愿分析第一志愿是志愿填报中最重要的一环,目前我校在录取规则上优先录取第一志愿考生,这样可以有相应专业人才的稳定生源,这批生源在最大程度上有志于自己所填报的志愿,而且在录取第一志愿考生时,学校热门专业通过第一志愿录取即可招满相应的新生。本文通过关联分析的方法,结合统计分析和聚类分析,根据考生的专业兴趣,高考成绩,以及兴趣爱好等,分析考生第一志愿的情况。

5.4招生计划安排以考生的专业类别为基础数据,对某一类考生的信息进行分析,主要包括对考生的填写志愿的行为分析,有针对性地对考生性质,考生的志愿爱好,以及考生的高考成绩中的单科成绩情况进行分类分析及关联分析,采用决策树法,合理地安排专业招生计划。在系统平台的运用中,挖掘出隐含的规则与特征,把相关数据信息传递到各二级学院,让二级学院根据挖掘的结果做出合理的招生计划安排。

5.5挖掘结果展现为了更好的展现考生的各种属性之间的联系,以“专业”、“成绩等级”、“生源地等级”作为前项,“报到状态”为后项,进行关联规则挖掘。

6结束语

目前,很多高校都使用了各自的招生数据管理系统,也深入地掌握了数据挖掘技术对招生数据进行分析与干预,本文主要是使用关联规则法、决策树、统计分析等数据挖掘技术方法进行计算、分析、研究,构建了以考生类别、考生生源地、高考成绩、专业志愿等关系模型,结合MicrosoftSQLServer2005中的数据挖掘功能,通过这个模型找出了各个因素与考生专业选择、考生报到率以及对学校招生政策等的关联关系,提高学校的生源质量,促进学校的发展。

作者:黄有福 单位:广州番禺职业技术学院