前言:我们精心挑选了数篇优质数据挖掘技术分析论文文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
关键词 技术情报分析;数据挖掘
中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)92-0211-02
1 概述
在面对海量的情报信息资源时,如何高效、准确的开展分析工作,为管理决策人员提供支持,已成为当今科技工作的重要组成部分。可以说,情报分析方法和相关工具的合理使用决定了情报获取的准确性和有效性,并将直接影响制定战略决策的有效性和科学性。
技术情报分析系统主要进行与技术相关科技论文、专利、互联网情报数据的分析,实现分析方法、算法、分析结果的表现形式以及分析报告自动生成等技术。该情报分析系统除了基本的维度统计分析外,更多的侧重于利用知识发现、数据挖掘等技术进行情报数据的深度处理与分析。通过情报分析系统开发设计,结合数据挖掘等技术的合理使用,使得系统使用者能够快速、有效、全面地获取技术的情报信息。
2 系统的设计与功能描述
2.3 数据挖掘技术设计
2.3.1数据文本特征表示
在进行文本挖掘时,对文本特征进行处理,实现对非结构化的文本向结构化转换。情报分析系统采用向量空间模型(Vector Space Model,VSM)进行文本的表示,并利用倒排文档频率TFIDF进行专利文本的特征提取,以此作为论文、专利文本挖掘的基础。
2.3.2关联算法
在挖掘论文专利作者之间、机构之间、国家之间的研究内容关联性上,采用了基于文本挖掘的关联算法。通过对技术关键词的共生关系(Terms Co-occurrences)计算来识别、确定一组文献内部所包含的技术组(群)。
2.3.3 层次结构可视化算法
情报分析系统中关于论文和专利的引证分析、专利同族分析采用了层次结构可视化算法Hyperbolic Tree,即双曲树算法。其主要原理是将树结构在双曲空间进行布局,然后映射到欧式空间的庞莱卡圆盘进行显示。欧式空间中两个相同大小的区域离庞莱卡圆盘中心越近,在双曲空间中所占用的空间越小;反之,双曲空间中两个大小相同的区域离原点越近在庞莱卡圆盘中所占用的空间越大。
4 结论
本文提出运用数据挖掘方法实现对大量数据的分析和判断,可有效帮助科技情报机构和人员提高综合情报分析能力和决策的质量。同时,该方法可按照不同需要进行功能拓展,实现向更多的技术情报领域延伸。
参考文献
[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一届亚太地区知识发现与数据挖掘国际会议(PAKDD),IOS Press出版, 2007.
[2]乐明扬.公安情报分析中的数据挖掘应用研究.信息与电脑.2012(8).
[3]蒲群莹.基于数据挖掘的竞争情报系统模型[J].情报杂志.2005,1.
数据挖掘技术是近些年发展起来的一门新兴学科,它涉及到数据库和人工智能等多个领域。随着计算机技术的普及数据库产生大量数据,能够从这些大量数据中抽取出有价值信息的技术称之为数据挖掘技术。数据挖掘方法有统计学方法、关联规则挖掘、决策树方法、聚类方法等八种方法,关联规则是其中最常用的研究方法。关联规则算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指从海量数据中挖掘出有价值的能够揭示实体和数据项间某些隐藏的联系的有关知识,其中描述关联规则的两个重要概念分别是Suppor(t支持度)和Confi-dence(可信度)。只有当Support和Confidence两者都较高的关联规则才是有效的、需要进一步进行分析和应用的规则。
二、使用Weka进行关联挖掘
Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。
(一)数据预处理
数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。
(二)数据载入
点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。
(三)关联挖掘与结果分析
WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。
三、挖掘结果与应用
以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。
1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是国家级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有国家级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。
2、副教授类的教师科研立项得分很高,而讲师类教师和助教类教师的科研立项得分很低,这样符合实际情况。因为副教授类的教师有一定的教学经验,并且很多副教授类的教师还想晋职称,所以大多数副教授类教师都会申请一些课题。而对于讲师类和助教类的教师,由于教学经验不足很少能进行省级以上的课题研究,因此这两类教师的科研立项分数不高。针对这样的结果,在今后的科研工作中,科研处可以采用一帮一、结对子的形式来帮助年轻教师,这样可以使青年教师参与到老教师的科研课题研究工作中去,在课题研究工程中提高科研能力和教学能力。
统计学论文2000字(一):影响民族院校统计学专业回归分析成绩因素的研究论文
摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。
关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩
为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。
一、数据选取
回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。
选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。
二、建立多元线性回归模型1及数据分析
运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:
(1)
线性回归模型通常满足以下几个基本假设,
1.随机误差项具有零均值和等方差,即
(2)
这个假定通常称为高斯-马尔柯夫条件。
2.正态分布假定条件
由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。
从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。
回归分析期末成绩y1的多元回归模型1为:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。
三、后退法建立多元线性回归模型2及数据分析
从模型1中剔除了x2变量,多元回归模型2为:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。
四、结束语
通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。
通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。
统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文
摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。
关键词:统计学专业;数据挖掘;大数据;教学
一、引言
通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。
二、课程教学探讨
针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。
(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。
(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。
(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。
(4)充分考虑前述提到的三点,课程内容计划安排见表1。
(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。
三、教学效果评估
经过几轮的教学实践后,取得了如下的教学效果:
(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。
(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。
(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。
(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。
教学实践结果表明,通过数据挖掘课程的学习,可以让学生在掌握理论知识的基础上,进一步提升分析问题和解决实际问题的能力。
关键词:文本 时态 关联规则 垂直数据 有效时间
引言
现代化的企业搜集了大量时态文本数据,但信息超载和无结构化,使得企业决策部门无法有效利用现存的信息,时态数据挖掘技术便应运而生。目前有关时态关联规则算法已较多,但是如果运用到时态文本关联规则的挖掘中则时间复杂度都太高。所以本文将对时态文本关联规则挖掘进行研究。
1.时态文本预处理
1.1时态文本处理
在挖掘时态文本关联规则之前,需要先对文本进行预处理,对英文而言需进行Stemming处理[5],中文的情况则不同,因为中文词和词之间没有固定的间隔,需进行分词处理。
对于本文研究的是医学病毒论文数据库,是一个英文数据库,文本预处理的具体内容如下:
①英文大写换小写(都以小写字母表示,方便文本识别);②删除空白记录;③将论文信息中的标题和摘要进行(可以提高关键词的比重,增加提取文本向量的精度);④处理时间DP列,只保留年份数字,方便提取有效时间;⑤对于记录太多的库,适当拆分表格(否则在程序处理时会内存溢出);⑥根据文本内容提取合适的停用词表,对文本内容进行去停用词处理。
1.2 时态文本表示
在对时态文本进行清理后,需将其进行表示。在文本处理时我们已提取论文的发表时间,所以将时间和文本分列处理,然后将文本单独表示。本文采用向量空间模型(VSM,Vector Space Model)进行表示[6]。
2.时态关联规则算法概述
以前的算法不能有效应用到时态文本数据库中,主要原因有:1)这些算法计算时时间复杂度仍太高。2)没有考虑每个独立文本项各自存在的有效时间;3)每个项目缺少一个合理的可以浮动的支持度数。所以本文根据时态事件模型及Apriori原则,本文在快速更新算法思想上产生新的算法:SPFM(Segment-Progressive-Filter-Miner)
该算法主要包括三步:1.数据库不断更新;2.对数据库按不同时间段进行划分;3.对每个时间段的事务集挖掘频繁项集。拆分后的数据库,每个阶段部分有不同的支持度阈值,我们按不同的支持度阈值进行计算来产生候选项集。
SPFM算法主要有三个特点:1)算法预处理时将文本数据转换成垂直数据格式,可大大提高程序效率;2)在挖掘时态数据库的频繁项集时,通过更新不同时间粒度的支持度数来确定频繁项集,并判断频繁项集在时间粒度上的连续性;3)如2)所述,时态数据库是和时间粒度有关的,那么从时态数据库挖掘出的关联规则也应该是和时间粒度有关的,即存在“有效时间”,本算法引入一种判断机制,使得发现的有效时间是由频繁项集本身决定的,最终我们获得的是一组浮动的“有效时间”。
3.实验测试
为了测试SPFM的算法性能,用Visual C++进行编程。对象为医学病毒论文数据库中1970~2010年间约50万条的记录,每条记录的属性包括fileno(论文标号)、TI(标题)、AB(摘要)、DP(发表时间)等。以“年”作为时间粒度,将数据库划分为40个阶段部分。minsup为0.5‰,minconf为35%,然后进行频繁项集的挖掘,并确定每个频繁项集的有效时间,依次循环直至2010年为止。
比如rous(含铁血黄素)和sarcoma(1979年、1981年、1983年),都是强关联规则,且COS判断值为0.8165>0.5,说明该规则有意义,这两者在1979~1983年是一个共同研究热点,它们之间有可能存在一些密切的联系,在医学上也可以深入研究。
通过对医学文本数据库的挖掘,我们挖掘出上百条时态文本关联规则,从这些规则当中我们能得到近40年学者们对病毒研究的规律以及病毒的发展规律,这些规律会是对以往病毒研究的较好总结,也会有助于更有效地治疗已产生的病毒。
在文本数据挖掘技术已经日渐成熟的背景下,把时态数据与文本挖掘联合起来,可将时态文本数据挖掘应用于医学、经营、管理等各个方面,通过对海量的时态文本数据进行关联分析,为管理者做决策提供参考数据;还能为新的经营模式提供目标和思路,减少盲目性,以获得更大利益。
4.结束语
本文提出了对医学病毒论文数据库中的时态文本如何进行预处理,需先将时间和文本分为不同的列,将文本表示为向量空间模型。然后确实频繁项集的有效时间,将文本数据转换成垂直数据格式,再通过新的算法挖掘频繁项集,最后对时态文进行强关联规则的挖掘。该实验是对时态文本进行预处理后再进行关联规则挖掘的,最后验证了该算法的有效性。
参考文献:
[1] 潘定.持续时态数据挖掘及其实现机制[M].北京:经济科学出版社,2008:36
作者简介:
张春燕(1987- ),女,硕士生,主要研究方向为数据挖掘;
关键词:中医证侯;研究概况;进展
【中图分类号】R255.2 【文献标识码】A 【文章编号】1672-3783(2012)05-0093-01
1 引言
辨证是中医学的特点与优势之一,也是中医药取得疗效的前提。中医是以传承性为主的实践医学,受生产技术水平的影响,前人在辨证的时候主要靠个人的临诊经验,掺杂了许多主观因素与模糊概念,加上众多的医学流派推崇不同的思辨方式,使证侯的外延与内涵愈加复杂而不可确定。随着计算机、生物技术的进步以及交叉学科的发展,中医证侯的研究开始了新局面,能否从病、证、症、生物学基础等不同层次中挖掘出其固有的规律性的联系,以确定不同证侯的概念范畴、使辨证更具重复性和临床可操作性,这成为大家所探求的方向。众多学者为此开展了不少研究工作,笔者就中医证侯近十年的研究概况进行论述并分析如下。
2 中医证侯近十年的研究概况
2.1 证侯研究成果检索结果与分析:利用“中医”、“证或证侯”、“文献”、“临床” 及“动物(实验)”等主题词检索CNKI数据库从2000-2008年所收录的论文,其中文献研究相关论文272篇,临床研究相关论文5323篇,动物实验相关论文238篇。统计结果如图1所示。从图中可以看出以下特点:1)临床研究是证侯研究的主要方式,这是由中医的临证性所决定的。2)中医古籍资源有限、研究成果转换周期较长,是导致文献研究数量低的主要原因。
2.2 证侯研究主要切入方向的研究成果检索结果与分析:在检索“证”或“证侯”研究论文的基础上,以“四诊规范”、“生物学”、“数据挖掘”等关键词结合手工进一步检索,获得近十年发表的论文中,与四诊规范研究相关的论文227篇,与生物学研究相关论文436篇,与数据挖掘相关论文220篇。其研究态势如图2所示。从图2中可以看出,相关研究论文均有逐年上升的趋势。就近十年而言,证侯生物学研究相关论文最多,数据挖掘类论文数量增长迅速。
2.3 证侯的具体研究概况
2.3.1 四诊的定性与定量研究:通过四诊收集到的症状(主要由患者自己叙述出来)、体征(由患者表现出来,通过望、闻、切可知的,包括舌象、脉象、面色、神志状况)等信息是证侯的构成基础。舌、脉和面色虽客观存在,但易受周围环境、自然光线及医者主观判断的影响,因此利用物理仪器、高分辨率的数码相机结合色彩、图谱分析软件力求量化已成为趋势。就舌象客观化而言,不少学者对舌色、苔色、舌苔的厚度与湿度、齿痕、纹理特征,甚至对舌体的胖瘦、歪斜,舌下络脉的长度、宽度、颜色进行了量化分析[2-5],具有一定的临床符合率。
此外,通过问诊所获取的信息在中医证候分类中起着重要的作用。如何控制和把握这些“软指标”,近年来不少学者也做了很多工作。有学者把社会学中的定性研究引入中医问诊领域[12],建议与患者进行深入交谈,对患者的语气、语言表达方式、神态、言语内容等进行综合分析,以期获取尽可能多的与病症相关的信息,这些信息可能容易被医生所忽视,但对证侯的判别起重要作用,能弥补定量研究的缺憾。
2.3.2 证侯生物学基础的研究:中医证侯的确立是依据表现型组资料得来的,对于现代生命科学而言,一个证候表现型的产生必然有从基因组层次到器官组层次的不同范围的功能异常[13]。从文献检索的结果来看,涉及细胞、基因层面的研究论文较多,技术相对成熟;蛋白、代谢组学层面的论文较少,研究技术有待完善。
就细胞层面而言,研究较多的是细胞因子、细胞外基质及细胞表面标志物在不同证侯下的特异表达。细胞因子的相关性研究趋于热化主要是因为:其介导细胞间相互影响、作用而形成复杂的人体调节网络,这可能是证的实质所在[14];其种类众多,功能各异,如白细胞介素、肿瘤坏死因子、趋化性细胞因子及其细胞膜受体和可溶性受体等,这些指标常见于诸多论文中;检测方法较为便利,且敏感性强。
2.3.3 利用数据挖掘方法的证侯研究:中医辨证的过程是医者凭借个人经验从患者的一系列症状、体征或生物学指征、外界环境等复杂的非线性现象[15]中提取出相互关联的、有内在规律的、特异的组合信息。数据挖掘[16]则是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。可以说两者在获取信息的方式与过程上有契合之处。
研究者常依据不同的研究目的及数据的特点选择不同的多元统计方式。如探讨饮食习惯、居住环境、体质因素等不同的致病因素或生物学检测指标或某一疾病下各证型的症状、体征与该证型之间的关联性多采用回归法,如进一步分析哪些症状、体征和生物学指标对区分不同的证侯有较高的贡献度,多通过逐步判别分析。
3 结语
就近年主要的研究成果来看,将宏观与微观、定性与定量的研究方式相结合是证侯研究的可行路径和发展趋势。然而如何将有一定组合规则和重叠涵盖关系的证侯要素进行合理的分解,四诊宏观信息如何定量,生物学微观指标如何定性,二者怎样结合,采用什么样的方式结合才能真正提示或反应、甚而揭示证侯的内涵,这是目前研究的困惑与癥结所在,借鉴现代计算机信息处理技术、生物学技术和多学科交叉的优势互补,可能会有所突破。
参考文献
[1] 郭蕾,王永炎,张志斌.关于证候概念的诠释.北京中医药大学学报,2002; 26(2): 5-7
[2] 卫保国,沈兰荪.舌体胖瘦的自动分析.计算机工程,2004; 30(11):25-58
[3] 卫保国,沈兰荪,蔡轶珩.舌体歪斜的自动分析.计算机工程与应用,2003; 25(10): 22-26
[4] 沙洪,赵舒,王妍,任超世. 中医脉象多信息采集系统的研制.中华中医药杂志,2007; 22(1): 21-24
[关键词]数据挖掘技术;软件工程;数据预处理
[引言]随着我国信息技术的进步,数据挖掘技术得到广泛应用,在软件工程中需要对数据信息进行搜集、分类与整理,通过数据挖掘技术的应用可以有效提高工作效率,推动软件工程的有序发展。我国对数据挖掘技术的应用与研究虽然处于初级阶段,但通过不断的经验积累也能够发挥技术的更多价值。
1数据挖掘技术概述
数据挖掘技术指的是在信息技术发展背景下,对信息数据展开处理的技术。与过去的信息处理技术相比,数据挖掘技术功能更加强大,可以应用在各个领域,无论是数据处理、数据转换还是数据分析,都能够完成相互之间的联系,并对数据进行最终评估。将数据挖掘技术应用在软件工程中,能够提高企业处理信息数据的效率,避免操作失误,保护企业数据准确[1]。
2数据挖掘技术在软件工程中的重要性分析
2.1高效整合多样化信息数据
由于数据挖掘技术的功能比较多,其中包含了传统处理技术的功能,实现多样化信息的收集与分类,并将数据按照类别存储与整理。数据挖掘技术可以在多样化数据中实现数据的系统化管理,为人们进行数据查阅工作带来方便。在软件工程中应用该技术,方便信息数据的高效整合,帮助企业全方位了解信息与数据[2]。
2.2保证信息数据的准确率
数据挖掘技术拥有强大数据运算功能,以往的数据信息系统运算数据时需要耗费大量时间与成本。如果信息数据体系庞大,系统运算时会面临瘫痪问题。在软件工程中,一旦系统发生瘫痪,系统将无法正常使用,数据也会受到破坏。应用数据挖掘技术之后可以有效解决以上问题,实现系统的优化,使系统可以在最短时间内处理数据,防止信息数据发生丢失现象,提高数据处理的时效性。面对大量的信息数据,有的数据得不到利用,但长期处于系统中会影响系统运行效率,应用数据挖掘技术可以将无价值的数据剔除,留下有用的信息数据,保证系统的运行效率和数据质量。
2.3缩短信息数据处理时间
在软件工程中应用数据挖掘技术可以分类处理杂乱无章的数据,实现数据的转换与调用。对数据进行深入挖掘处理时也可以应用数据挖掘技术进行数据的分类,并对模糊数据及时清理,提高系统内现存数据的实用价值。人们获取到的信息数据需要进行反复核对,以此保证数据真实性,通过数据挖掘技术的应用减少时间浪费,提高数据核对效率。
3数据挖掘技术在软件工程中的应用分析
3.1系统结构
数据挖掘技术应用流程主要分为三个阶段:数据预处理、数据挖掘、模式评估与知识表示。在数据预处理阶段中,高效得到原始数据的根本原因在于确定任务处理对象,得到符合软件工程需求的数据。通过数据清洗弥补原始数据存在的缺陷,确保数据的完整性。数据抽取需要从数据库中选择与软件工程任务相符合的信息。数据转换需要将数据格式加以转化,实现数据的适用性。在数据挖掘中需要制定一定的挖掘任务,通过对数据的分类与评价总结,合理应用运算方法进行数据推敲。在模式评估与知识表示中,其实际用途在于挖掘成功的表达,将兴趣度作为衡量标准,提高数据表达的识别能力。
针对软件工程中数据挖掘技术的优化应用,可以从系统结构方面入手,具体如下:(1)检测软件工程中的克隆代码。以软件工程为标准,将一部分代码复制,结合实际情况更改一部分代码,并对这些代码进行检测,代码检测与更改可以同时进行,能有效提高检测效率,实现系统的维护工作。当前应用数据挖掘技术进行克隆代码检测的方式一共有四种,具体为比较标识符、对比文本、检测系统程序结构与度量圈。在实际操作中,要求人们结合实际情况选择相应的克隆代码检测方法。(2)数据信息挖掘法。这是以横切关注点为主的挖掘方法,在软件工程中应用该方法可以改造系统,对数据信息达到良好的处理效果[3]。
3.2软件管理
为了让数据挖掘技术更好地应用在软件工程中,需要从软件管理角度入手,采用以下两方面举措。一方面,深入挖掘数据的组织关系,另一方面,挖掘版本控制信息。软件工程系统比较繁琐,挖掘组织关系时较为困难,人们需要合理调配各项信息,以此作为挖掘的依据。如果以软件工程管理流程作为主题,对电子邮件与共享文件展开组织关系挖掘,可以有效避免系统流程发生混乱,保护软件管理的秩序。当信息数据发生变化时,应用数据挖掘技术进行软件管理,将版本控制作为重要依据,将数据挖掘技术与版本控制相联系,降低系统运行成本,并达到警示的效果,提高软件工程的管理水平。
3.3软件开发
在软件工程初期阶段,人们将数据挖掘技术看成数据库,随着技术的发展,软件工程发展到现实应用,系统和现实共同发展。软件工程将各项指标与要求紧密结合,研发出最新产品,以往的软件工程中软件开发十分困难,而如今应用数据挖掘技术,可以将其与数据库相融合,发挥数据库内信息的最大价值,有效推动软件开发的进步。不仅如此,软件工程可以对信息进行更深层次的挖掘,充分发挥软件工程的价值,利用数据挖掘技术实现数据的更新,保证软件开发质量,优化软件操作流程。在技术的支持下,人们可以合理划分软件内部,方便及时发现问题,并展开积极有效的问题处理。利用数据挖掘技术可以进行网站设计,对网站内容进行挖掘,特别是对文本内容的挖掘,随后整合网站信息,通过自动归类技术实现信息的层次性组织。在软件或网站管理中,应用数据挖掘技术可以根据用户对网站的访问记录,进行记录信息挖掘,从中了解用户对该网站内容的兴趣,进而对用户提供信息推送服务和定制服务,以此吸引更多用户访问该网站。
在软件开发阶段,可以使用DataAnalytics轻量级业务数据可视化分析平台,这是数据挖掘技术的一项成果。该平台能够实现异构数据源的高效整合,可以兼容各种数据源类型,支持海量数据。可接入Excel/CSV等数据文件、企业各种业务系统、第三方互联网数据、公共数据服务平台等来源,轻松整合所有相关业务数据,帮助企业消灭数据孤岛。企业利用该平台可以完成数据的深度交互分析,DataAnalytics基于探索式分析,支持智能推荐图形与图表,二者可以协同过滤,帮助用户快速定位,通过数据挖掘找出问题,以拖拽式操作方法解决问题。
3.4聚类
在数据挖掘技术中聚类指的是对各个环节数据加以分析,结合软件工程的具体要求实现数据细化,以类型细化作为基础,为原始数据类型做出保障。通过聚类可以让同种类型数据具有相似性特点,在存在相似性的同时,也存在一定的差异,突出各自的特点。应用数据挖掘技术实现聚类划分时,面对的对象无法预测,与其他算法相比,聚类拥有更加广泛的应用范围,进行数据分析时更加独特,挖掘信息数据时可以确保检测结果的有效性与真实性。
4结论
总而言之,随着信息技术的深入发展,人们已经步入信息时代,数据挖掘技术也成为对信息数据展开处理和存储的有效方式。在软件工程中应用数据挖掘技术,有利于提高软件开发效率,提升软件管理质量,加强数据挖掘力度,使数据挖掘技术发挥巨大效果,人们可以应用数据挖掘技术完成数据的聚类和网站设计,为人们的生活带来便利。
[软件工程硕士论文参考文献]
[1]张立鉴.数据挖掘技术在软件工程中的应用研究[J].网络安全技术与应用,2019(6):47-48.
[2]王祥顺.数据挖掘技术在软件工程中的实践与探索[J].电脑编程技巧与维护,2019(4):82-83+100.
关键词 大数据;CiteSpace;教育
中图分类号:G642 文献标识码:B
文章编号:1671-489X(2016)18-0069-03
Abstract The advent of the era of big data has brought new vitality
and challenges for educational research. This paper uses bibliometric visualization software Cite Space to analyze thesis with key words data and education from CNKI based on Co-occurrence analysis of keywords, explore the hot issues in the field of educational research, summarize the research status and trends.
Key words big data; CiteSpace; education
1 引言
近年来,教育领域研究者开始关注大数据背景下的教育管理模式转变、教育决策研究等内容,大量基于大数据背景的教育领域研究论文逐年增加。以“大数据”“教育”为主题关键词在CNKI中国知网进行搜索,仅选择SCI、EI、中文核心、CSSCI四类来源期刊截止到2015年12月出版的文献,共检索到417条数据,从2010年开始呈现出逐年上升的趋势。对这些文章进行浏览和筛选,选择与本研究主题相关的论文,共247篇。对这247篇文章的关键词信息进行研究,分析大数据的出现对教育领域研究热点及发展趋势的影响。
2 教育领域热点问题研究知识图谱
CiteSpace软件是一款引文可视化分析软件,着眼于分析科学知识中蕴含的潜在信息,通过可视化的手段呈现科学知识的结构、规律和分布情况[1],能对文献进行作者分析、关键词共现分析、机构分析、作者共被引分析、文献共被引分析等。关键词共现分析是一种内容分析技术,通过分析在同一个文本主题中的款目对(单词或名词短语对)共同出现的形式,确认文本所代表的学科领域中相关主题的关系,进而探索分析学科领域的发展,发现学科的研究热点和研究趋势[2]。
使用CiteSpace软件对下载的文献进行关键词共现分析,生成图1所示关键词共现知识图谱,分析大数据的出现对教育领域研究热点和趋势的影响。关键词出现的频次由圆圈代表的节点反映,圆圈越大,表明关键词出现次数越多,最大圆圈代表的关键词是“大数据”。
根据图1得到表1所示文献关键词、被引频次、中心性等指标数据。中心性代表共现程度的高低,中心性越强,表明该关键词与其他关键词共同出现的几率就越大,也就表示该关键词在共现网络中的影响力越大。从知识理论角度分析,频次和中心性高的关键词一般是某一段时期内研究者共同关注的问题,也就是研究的热点和前沿。表1中,“大数据”是频次最高也是中心性最高的关键词;“学习分析”频次为23,中心性为0.22;“数据挖掘”频次为13,中心性为0.15,等等这些都是热门的研究主题。
3 大数据背景下教育领域的热点研究
依据图1和表1所示结果,将大数据背景下教育领域的热点研究总结为以下几个方面。
学习分析和数据挖掘 教育数据挖掘是数据挖掘在教育领域的新型应用,主要目标为知识发现、决策支持和推荐等。学习分析是测量、搜集、分析和报告学生及其相关的学习环境的数据,用以理解和优化学习过程和学习环境[3]。
教育数据挖掘专注于技术层面,侧重教育数据模型和模式的抽取,强调挖掘结果的自动化反馈;学习分析更注重研究有利于改善学习的干预措施。
2012年,美国教育部了报告《通过教育数据挖掘和学习分析促进教与学》[4],提出“数据驱动学校,分析变革教育”的大数据时代已经来临,要综合运用教育数据挖掘和学习分析,构建教育模型,探索教育变量,为教育教学提供有效支持。
在CNKI中以“学习分析”和“教育数据挖掘”为关键词进行检索,得到图2所示的文献数量趋势图。如图2所示,2010年以前的文献数量很少,但2010年之后开始呈指数式增长;2016年1―2月份刊登的相关主题期刊论文已有5篇,可以预计本年度,学习分析和数据挖掘仍将是大数据背景下教育领域的研究重点和热点之一。
在线教育――兴起与变革 以“在线教育”和“大数据”为关键词进行搜索,得到图3所示文献数量趋势图。目前在线学习的发展趋势主要有如下表现。
1)移动学习是大方向:随着无线网络的覆盖,移动终端特别是手机用户的增多,移动学习逐渐发展起来。
2)免费是大趋势:目前在线学习存在各式各样的免费现象,如免费试用、前期付费后期免费等形式。
3)细化管理是要求:任何一种在线学习方式,都离不开资源开发、管理和优化等工作,需要设定管理要求,细化规则。
4)实现互动是必然:交互功能是在线学习软件必然要设计的功能,大多数在线学习使用者表示学习过程中希望能有更多的互动交流。
5)个性化学习是亮点:学习分析和教育数据挖掘的出现,使得在线学习存储的大量数据能够被更快速分析和使用,学习者可以随时掌握学习状况,开发商也可以掌握学习者的兴趣点、学习特征等,为学习者推荐或制订个性化的学习方案。
教育信息化 我国的教育信息化主要包含两层含义:一是把提高信息素养纳入教育目标,培养适应信息社会的人才;二是把信息技术手段有效应用于教育,注重教育信息资源的开发与利用。教育信息化的核心是教学信息化,要求在教育过程中较全面地运用现代信息技术,促进教育改革,适应信息化社会提出的新要求,深化教育改革,实施素质教育。随着大数据时代的来临,教育信息化也在不断进步,未来的教育信息化将在教育云平台上进行展现,现有的教育网、校园网将全面升级,实现互联网、电信网、广电网等跨平台使用并支持移动设备。
在CNKI中以“教育信息化”和“大数据”为关键词进行检索,2013年共有3篇学术论文,2015年共有10篇,研究主题包括大数据时代的信息化教学、教师培训、课程资源建设、教育舆情监控等。
教育决策 以“教育决策”为关键词搜索到上千篇学术论文,以“教育决策”和“大数据”为关键词,2013年以来共有8篇论文。大数据将在教育决策中发挥越来越重要的作用已成为共识,但如何利用大数据进行决策是目前面临的难题,如何解决这个难题也是研究者重点关注的领域。教育决策离不开数据,大数据背景下的数据更加复杂、凌乱,呈现碎片化的特征,并且掺杂一些虚假数据,如何收集、选择数据,是第一步需要做的事情。大数据对于教育决策的价值在于为教育服务,将数据转化为支持决策的信息,需要数据分析者具备综合、全面的数据分析素质和能力。大数据的核心是预测,随着教育信息化和在线学习的持续发展,数据呈爆炸式增长,需要对数据进行整合、分析,发现新知识,为教育优化服务。
4 数据推动决策
传统决策过程主要依靠决策者的经验,主观性较强,或多或少存在一些不足,难以充分发现教育过程中的潜在问题,无法真正有效地优化教学、提高学生表现。信息化推动了人类发展,逐渐成为人类生活必不可少的重要部分;信息化技术普及的同时,也产生前所未有的海量数据。大数据时代的来临,颠覆了传统数据分析方法;大数据背景
下,利用数据挖掘方法发现问题、支持决策具有多方面的意义。
1)优化教学、提高教育质量。教师若能充分利用学生学习数据,分析学生学习过程,可以更加快速、便捷、有效地了解学生,发现不足之处并及时反馈,提供改进意见等[5]。
2)为学校管理者制订更加合理的教学计划和方案提供决策支持。基于数据的教育决策能够为管理者提供更加准确、合理的决策支持。基于数据的教育决策能够提供从数据到决策,实施决策后产生的数据再到决策的一种良性循环过程[6]。
3)帮助地区甚至是国家级决策者进行科学判断。数据推动决策具有相当明显的优势,能为决策者提供全方位的视角。大数据分析得到的结果具有全面性、多视角性、参考性强等特点,能够更好地为决策者提供决策支持。
5 结语
上文所分析出的教育领域热点研究问题,都紧紧围绕“数据推动决策”这一主题,学习分析和教育挖掘是分析方法和技术;在线教育是数据来源;教育信息化是信息化大数据环境;教育决策则是根据数据制定决策并运用于教育教学。可见,利用数据推动决策已成为教育领域在大数据背景下最为重要的研究问题之一。
参考文献
[1]陈悦,陈超美,胡志刚.引文空间分析原理与应用:Cite Space实用指南[M].北京:科学出版社,2014.
[2]潘黎,王素.近十年来教育研究的热点领域和前沿主题:基于八种教育学期刊2000-2009年刊载文献关键词共现知识图谱的计量分析[J].教育研究,2011(2):47-53.
[3]Siemens G. Learning and Knowledge Analytics-Knewton-the future of education?[EB/OL].[2011-04-17].http:///?p=126.
[4]Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics[DB/OL].[2012-10-12].http://ed.gov/edblogs/technology/files/2012/03/edm-la-brief.pdf.
关键词: 居民出行特征; 数据挖掘; GPS轨迹数据; DBSCAN
中图分类号:TP29 文献标志码:A 文章编号:1006-8228(2017)05-37-03
Research on the characteristics of resident travel based on the taxi
GPS trajectory data mining
Lin Jiyan, Zhang Yaqiong, Zhang Hui
(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)
Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.
Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN
0 引言
在城市的上下班高峰期,道路矶率浅鞘薪煌ㄎ侍庵凶钗突出的难题,这跟城市居民出行行为密不可分,因为出行的居民是交通量的主要来源[1]。一个城市的交通系统状况跟城市居民的出行行为息息相关,居民的出行行为会对城市交通体系产生影响[2]。对居民出行特征进行研究是城市和交通规划、城市公共基础设施建设管理中的一个基础性任务,不仅可以用来对目前的交通出行情况进行评估,也可以用来对居民的出行需求进行预测,对实施合理有效的城市交通规划起着至关重要的作用[3]。
出租车因其灵活性和便利性,已日渐成为城市交通系统的重要组成部分,同时,因为它的起点和终点由乘客决定,且24小时不间断服务,所以,出租车的运营规律能够反映出乘客的出行特征[4]。由于装载在出租车上的GPS和通信设备以一定的频率向城市交通客运管理中心传送出租车的实时经纬度、运营状态、行驶方向、速度等信息,因此,管理中心会积累大量的出租车GPS轨迹数据[5],利用DBSCAN对这些进行数据进行聚类分析,可以在一定程度上挖掘乘客出行的时空特征,也能为出租车寻找最佳的载客区域提供依据,有效的降低出租车的空驶率。
1 GPS轨迹数据挖掘设计
1.1 数据预处理
本文选取榆阳区(地理坐标为东经108?58'-110?24',北纬37?49'-38?58'之间)作为研究区域,GPS轨迹数据使用榆阳区1100多辆出租车五天的运营数据,对数据进行预处理后,出租车轨迹数据由车牌ID tID、、当前位置loc、GPS时间ct、营运状态tsta、行驶方向tdir、GPS速度dspe等六个属性组成,部分属性值如表1所示。
表1中,营运状态的取值为0-3,其中0表示空载,1表示载客,2表示驻车,3表示停运;GPS方向的取值为000-360,以度为单位,即与北极方向的夹角,代表车辆的行驶方向。
1.2 利用DBSCAN算法进行聚类挖掘
居民的作息和社会活动有明显的时间规律,比如上下班高峰期的载客点分布情况和非高峰期的居民出行特征有可能完全不同,因此,可以先将GPS历史轨迹数据根据时间特征分类,再进行密度聚类分析,如此便可充分挖掘在不同时间段上居民出行特征的空间密度分布情况,给出租车提供更加合理的时空载客区域分布数据,有效地提高其巡游过程中的载客成功率。基于此,论文引入了DBBSCAN算法,该算法需要3个输入参数:历史轨迹数据对象D,空间半径ε,以及密度阈值MinPts;输出参数为聚类簇C,部分MATLAB代码如下:
data=importdata('data.xlsx');
data=data.data.Sheet1;
……
num=size(data,1);
k=floor(log(num))+1;
k=round(num/25)+1;
k_dist=zeros(num,1);
for i=1:num
temp=repmat(data(i,:),num,1);
gx0=temp(:,1); gy0=temp(:,2);
gx1=data(:,1);gy1=data(:,2);
dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);
dist_s=sort(dist0);
k_dist(i)=dist_s(k);
end
x=1:num;
figure;plot(x,k_dist,'r-');
xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');
……
x=[(1:m)' data];
[m,n]=size(x);
types=zeros(1,m);
dealed=zeros(m,1);
dis=calDistance(x(:,2:n));
number=1;
……
img=imread('map.jpg');
[Ny,Nx]=size(img);
……
figure;imagesc(x00,y00,img); colormap(gray); hold on;
for i=1:m
if class(i)==-1
plot(data(i,1),data(i,2),'.r');
else if class(i)==1
if types(i)==1
plot(data(i,1),data(i,2),'+b');
else
plot(data(i,1),data(i,2),'.b');
end
elseif class(i)==2
if types(i)==1
plot(data(i,1),data(i,2),'+g');
else
plot(data(i,1),data(i,2),'.g');
end
……
plot(x1,y1,'r*');
xlabel('度'); ylabel('纬度');
2 实验结果
聚类结果如图1和图2所示,出行热点区域在图中用圆圈标出。
以上的聚类结果显示,榆阳区的居民出行呈现一定空间和时间特征。工作日和非工作日出租车热点区域不同,且工作日的不同时间居民出行的特征不同;在工作日,出租车的载客热点数比非工作日多;而载客热点分布,工作日比非工作日分散。该聚类结果也可以给出租车司机提供历史载客热点序列,从一定程度上解决巡游方式的出租车空载率高的问题。
3 结束语
本文利用DBSCAN算法对出租车的历史GPS轨迹数据进行挖掘,从挖掘结果可以分析出居民出行的时空特征,从而用来对目前的交通出行情况进行评估,同时也可以用来对居民的出行需求进行预测;再者,可以根据挖掘结果给出租车司机提供历史载客热点序列,帮助出租车司机降低空驶率。本文仅针对工作日和周末特定时刻给出了聚类分析,没有详细地分析一天中不同时刻的居民出行特征,以后的工作中会继续研究和改进。
参考文献(References):
[1] 卫龙,高红梅.基于轨迹数据挖掘的居民出行特征研究进展[J].西部交通科技,2016.10:87-92
[2] 冯琦森.基于出租车轨迹的居民出行热点路径和区域挖掘[D].重庆大学,2016.
[3] 陈世莉,陶海燕,李旭亮,卓莉.基于潜在语义信息的城市功能区识别――广州市浮动车GPS时空数据挖掘[J].地理学报,2016.3:471-483
[4] 张俊涛,武芳,张浩.利用出租车轨迹数据挖掘城市居民出行特征[J].地理与地理信息科学,2015.6:104-108
[5] 张薇,林龙.基于数据挖掘的增城居民出行特征分析[J].科技和产业,2015.7:61-64
[6] 赵苗苗.基于出租车轨迹数据挖掘的推荐模型研究[D].首都经济贸易大学硕士学位论文,2015.
[7] 童晓君.基于出租车GPS数据的居民出行行为分析[D].中南大学硕士学位论文,2012.
关键词 数据挖掘;方法;应用
中图分类号TP3 文献标识码A 文章编号 1674—6708(2012)76—0209—02
近几年来,随着数据库技术的不断发展,数据挖掘引起了信息产业界和整个社会的极大关注。因为人们所拥有的数据量在不断的增长,这就对数据的管理和分析提出了更高的要求,急需新的技术从大量的信息中提取或“挖掘”知识,于是数据挖掘(Data Mining)技术被受人们关注和使用。
1 数据挖掘技术定义
数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在大多数情况下,人们只知道储存数据,数据越来越多,可是不知道数据中存有很多重要的信息,数据挖掘就可以从这大量的数据中搜索出重要的信息。
2 数据挖掘常用的方法
1)决策树。决策树方法是把数据分类,构成测试函数,建立树每一层分支,重复下去就构成了决策树。在构造决策树时,树尽可能精度高,规模小。商业银行在对风险决策时经常用此方法;
2)人工神经网络。神经网络方法引用生物神经网络的方法,就好像人的神经网络,它连接输入、输出信号的枢纽。它在很大程度上模拟人脑的神经系统处理信息。人工神经网络具有四个基本特征:非线性、非局限性、非常定性、非凸性。用人工神经网络方法建立的模型具有很强的非线性拟合能力,学习规则简单,控制能力强等优点;
3)遗传算法(Genetic Algorithm,GA)。遗传算法是模仿达尔文生物进化的自然选择和遗传机制的一种寻优算法。群体中的所有个体为研究对象,利用随机化技术搜索编码,然后分别利用选择、交叉和变异这三个基本遗传算子对其进行遗传操作就能寻找到问题的最优解或者是最满意解。遗传算法的优点是过程简单,具有随机性,可扩展性。实用。在很多领域得到了很大的应用。缺点是编程比较复杂,需要对问题进行编码,找到满意解后还要对问题解码。算法速度比较慢,对初始种群的选择有依赖性等缺点;
4)聚类算法。聚类算法可以说是多元统计研究“物以类聚,人以群分”的一种方法,主要任务是发现大型数据中的积聚现象。聚类分析是把相似特征的样本归为一类,类内差异差距较小,类间距差距较大。聚类算法在好多领域有应用。在商务上,根据客户不同的消费模式进行分类,对客户进行划分,帮助商家获得更多利益。在生物学中,对动植物进行分类,了解各自的基因特征。聚类的算法也比较多,例如:基于模糊的聚类方法、基于粒度的聚类方法、量子聚类、核聚类、谱聚类,这些是新发展的聚类算法。还有常用的聚类算法—BIRCH算法、K—MEANS算法、均值计算方法等。
3 数据挖掘的应用
数据挖掘技术在好多领域有应用。例如:金融业、通讯、教育、政府管理部门等等行业。1)金融业。例如:金融事务需要搜集和处理大量复杂的数据,许多银行和金融机构提供多种多样的投资服务(如共同基金)、信用服务(如个人信用卡)和银行服务(如个人存款)。由于交易的频繁性、信息的不对称性和复杂性,必须从海量数据中挖掘信息,金融数据挖掘技术可以帮助银行系统查询客户以往的需求情况并预测未来;可以分析潜在的信誉较差的客户,及时采取措施减少资产损失;2)通讯业。例如:现今通信业务可以说是五花八门,多种多样,适合不同需求的人群。要想退出新业务,创效益。就必须先确定可能要试用此项业务的客户特征。确定完成后先让小范围的客户试用此项业务,当他们试用一段时间后,对客户的反馈信息进行分析,修改更新,反复这样下去,直至此项业务成熟后,推广进入市场。那如何从大量的客户消费数据中得到这些客户特征,这就需要数据挖掘技术对客户进行详细的深层次的分析,得到有效的,准确的数据;3)教育部门。例如:高校的招生可以说是任何一个高校的大事,招生好坏直接影响学校的生存。专业计划的是否合理,就直接影响招生。我们需要对大量的招生录取信息和就业信息进行分析,数据挖掘技术就可以从这些信息中提取重要的信息预测未来的专业计划如何投放,每个专业投放多少比较合理,不至于计划浪费;4)政府管理部门。随着社会的不断进步,政府部门内部以及部门之间拥有了大量的政务信息,要想掌握有效,准确的政务信息,我们可以利用数据挖掘中的决策树方法,从大量的政务信息中提取准确有效的信息,大大提高整个电子政务的智能化水平。可以通过对网络各种经济资源的深度挖掘,确定未来的经济形势,从而可以指定出合理的宏观调控政策。为社会经济提供有力的可靠的拐杖。
4 数据挖掘未来的展望
数据挖掘的应用越来越广泛,人们对数据挖掘技术的需求水平也就越来越高。它可以预测未来的发展趋势,所以今后研究焦点可能会集中到处理非数字数据;寻求数据挖掘过程中的可视化方法,便于在知识发现过程中的人机交互,使计算机真正实现智能化。这可能需要一段时间,需要计算机工作者的不断的研究探索,可能需要很大的努力。但我相信,不久的将来我们会看到数据挖掘据技术很大的进展。
参考文献
[1][加]Jiawei Han Micheline Kamber著.范明,孟小峰译.数据挖掘概念与技术[M].机械工业出版社.
[2]陈晓燕.遗传算法在数据挖掘中的应用[J].琼州学院学报,18(2).
[3]周明华.近代算法在工程领域中的应用研究[D].浙江大学博士学位论文,2005,1.
[4]曾令明,金虎.基于遗传算法的双向关联规则挖掘[J].微电子学与计算机,2006(23):35—37.
[5]周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用, 2012,48(12).
[6]郑红英.数据挖掘聚类算法的分析和应用研究[J].重庆大学硕士学位论文,2002,4.
关键词:推荐系统;云计算;数据挖掘;个性化
中图分类号:TP393 文献标识码:A DOI:10,3969/J.issn.1003-6970.2013.03.001
本文著录格式:[1]郭平,刘波,沈岳,农业云大数据自组织推送关键技术综述[J].软件,2013,34(3):1-6
0 引言
随着物联网、云计算、下一代互联网等新一代信息技术的快速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,推荐系统(recommender systems)被认为可以有效的缓解此难题,帮助用户从海量数据中发现感兴趣信息,满足个性化需求。
近年来,我国在农业个性化知识服务服务领域从本体论、语义网、知识工程角度开展了广泛的研究,成果主要体现在三个方面:以搜索引擎为代表的知识检索系统,需回答大量预设问题进行知识推理的专家系统,特定领域应用系统,它们在各自的场合都发挥了积极作用。然而知识检索系统不能满足用户个性化需求,专家系统的应用很难普及,特定领域应用开发成本高和重用难度大。物联网与数据挖掘云服务提供知识服务云实现物理世界的“感知控”,知识服务云的研究主要集中在制造和图书情报领域,云环境下的农业个性化知识服务的研究尚处于起步阶段,主要集中在服务模式的构建与展望。
本文是对科技部科技支撑课题“农村农业信息化关键技术集成与示范”(2011BAD21803)与“农村物联网综合信息服务科技工程”(2012BAD35800)研究成果的总结,也是对农业云推荐系统研究的升华。
1 农业云大数据自组织区域推送的提出
1.1 农业信息资源特点
我国自“十一五”时期以来,农业农村信息化发展取得了显著成效,主要表现在农业农村信息化基础设施不断完善、业务应用深入发展、物联网技术在农业中逐步推广应用等方面。从中央到省,市、县建立了“三农”综合信息服务平台,涉农企业、组织和科研院所也积极搭建了各具特色的农业信息服务平台,目前正向乡镇村发展。农村信息员队伍及以农业综合信息服务站和农业合作社为代表的农村信息服务机构发展迅速,“三电合一”、“农民信箱”、“农村热线”等信息服务模式应用深入。云计算利用海量的存储能力把农业信息资源形成高度集成和虚拟化的计算资源一“农业知识聚合云”,支持用户在任意位置、使用各种终端方便获取信息,但由于农业领域生态区域性和过程复杂性及农业区域发展不平衡和农民文化的多层次性也带来了“信息过载”、“资源隐晦”“资源迷向”等问题。
1.2 农业云环境下大数据自组织区域推送
物联网和云计算背后是大数据,在云计算模式下,用户不确定的、智能的交互,个性化需求更加多元化,信息交互行为更加频繁;在大量用户通过社会标注达成共识的过程中,逐渐形成不同社区,涌现出群体智能,形成“农业用户兴趣社交云”。利用云的海量存储、群体涌现智能、强大的计算能力和物联网感知控优势,可以提供面向用户复杂分析计算,实现业务重点由面向应用和资源的传统信息服务,转变为基于对海量农业知识进行动态划分,有目的、主动、定制、自组织推送给有需求的农业用户,为农业用户提供实时性、个性化知识服务,指导农业生产过程。
首先以Hadoop+MapReduce+HBaSe分布式框架为处理平台,对“农业用户兴趣社交云”,融合用户兴趣偏好和社交网络进行建模,将这些多元用户信息充分融入推送系统会更好产生推荐结果;将推荐对象“农业知识聚合云”按农业知识高维性、多样性、多层次性特征分类聚类为各种知识块静态和动态元数据;通过智能算法推荐和社会网络推荐为用户发现个性化内容;根据用户的地理位置、用户服务的评价以及云基础服务提供商信息将预测值最高的服务推送给用户实现与物理世界的互动(如图1)。
从以上分析可知,农业云大数据自组织区域推送的关键技术有用户兴趣模型、推荐对象模型,推荐算法、数据挖掘四个部分,以下分别对这几项技术进行论述。
1.2.1 用户兴趣模型
用户兴趣建模是个性化服务技术的基础和核心,包括数据收集、模型表示、模型学习与模型更新。用户兴趣建模的方法有很多,常用的有向量空间模型、神经网络、遗传算法、用户一项目评价矩阵、基于案例的表示、基于本体论的表示、基于加权关键词的表示,基于社会网络的表示等。几乎每种表示形式都是以一种私有形式进行知识表示,此外一些表示技术还依赖于模型学习,如广泛使用的基于向量空间模型的表示与TF-IDF学习技术联系在一起。表示形式的私有性和对学习技术的依赖性阻碍了用户模型在系统间的共享,这种共享对于减少用户建模工作量,提高推荐算法启动效率具有重要意义。因此开发独立于模型学习技术的通用用户模型表示技术是目前研究中热点,基于语义网和社交网络的用户模型在这方面表现了优势。
用户的兴趣或需求会随时间、情景发生变化,结合长期和短期兴趣及兴趣的变化用户兴趣建模的重点,目前的更新机制很难及时跟踪用户兴趣的变化,有更好的学习效率和动态变化适应能力的建模是未来的重要研究方向,国内外大量的文献对此展开了研究,遗忘函数、时间窗、用户兴趣的漂移特性等被提出。
在湖南农业云中,基于呼叫中心、互联网,手机报、手机短信,电视广播等用户在多应用系统中形成的兴趣偏好和社交网络特征,提出“农业用户兴趣社交云”建模思路:以图论模型表示用户“兴趣图”数据和“社交图”数据,根据经典的局域世界演化理论,综合考虑实际情况中用户之间的多重关系和关系的强弱程度,以用户之间相似度为节点连接概率因素,生成动态多维网络,进行用户数据的挖掘和更新;结合农业本体,在多维社交网络的基础上,将基于农业本体的区域用户兴趣融合在云计算平台上进行处理。
1.2.2 推荐对象模型
推荐本质上是将推荐对象的特征与用户的兴趣偏好进行推荐计算,所以推荐对象的描述和用户的描述密切相关。推荐系统应用不同领域,它推荐的对象也就各不相同,目前,湖南农业云主要是文本性数据;不同的对象,特征也不相同,目前没有一个统一的标准来进行统一描述,主要有基于内容、分类、聚类的方法。
基于内容的方法是从对象本身抽取信息表示对象,常见的是向量空间模型,使用最广泛的是加权关键词矢量方法进行特征选取,使用TFIDF计算每个特征的权值。向量空间模型对模型中的特征词进行权重估计(TF-IDF)过程中不考虑特征词之间的相关性,直接用特征词作为维度构建文档向量,降低了文档向量对文档概念表达的准确性以及对不同类型文档的区分能力。
基于分类的方法是把推荐对象放入不同类别,把同类文档推荐给对该类文档感兴趣的用户。主要有两种,一种是基于知识工程的方法,使专家的类别知识直接编码为分类规则,正确率和召回率高,但工作量大;近期研究最多的是另一种一机器学习,根据训练样本集建立分类器,方法有很多,常见的有概率分类、贝叶斯回归分析、决策树分类器、决策规则分类器、Rocchio分类器、神经网络分类器、支持向量机(SVM)、分类器融合、Boosting分类器、k最近邻方法(KNN)等。
研究文本聚类的最初目的是为了提高信息检索的查全率和查准率,近年来,文本聚类用于自动产生文本的多层次的类,并利用这些新生成的类对新文本进行效率较好的归类,已经提出了大量的文本聚类算法。传统的聚类算法在处理高维和海量文本时效率不很理想。针对这样的问题,将聚类分析与计算智能理论,并行计算、云计算等相结合,设计出高效的并行聚类算法,己经成为一个比较流行的研究思路。
在湖南农业知识云数据模型中,将能更好反映特征词相关性的超图模型引入,将文档中提取的特征项表示为图中节点,特征词条之间的关系构成图中边,用边上权值表示相关联特征项之间共现程度。通过对文本图模型K最近邻划分实现降维降噪的粗粒度数据切片;对切片后数据反映用户兴趣如地域、时间、诉求等多维度特征的智能聚类,实现细粒度的聚合与分割。
“农业知识聚合云”模型算法建立在基于MapReduce处理的大规模图上,得到各种知识块静态和动态元数据。
1.2.3 推荐算法
推荐算法是整个推荐系统中核心部分,大量的论文和著作都关注了这个方面。目前,基本包括以下几种:基于内容过滤推荐、协同过滤推荐、基于关联推荐、基于知识推荐、基于效用推荐、基于网络结构推荐、基于聚类推荐、基于社会网络分析推荐、混合型推荐等。通过对众多推荐算法进行比较分析,各种算法都有优缺点(如表1):
各种推荐方法都有各自的优缺点,在实际问题中采用多种策略进行混合推荐,主要有两种混合思路:推荐结果混合和推荐算法混合。目前大部分的推荐算法都是混合推荐算法,主要还是以协同理论为核心,再配合其他算法的优点或交叉学科的理论来改善推荐的质量。另外基于社会网络个性化推荐算法研究是一个趋势,基于社会网络的推荐是协同过滤的延伸,通过考察结点之间(用户和用户之间或产品之间)的相关性和结点之间的信任度可以获得比一般协同推荐更高推荐效果,如文献提出将社会网络关系结合到推荐算法中。纵观国内外在推荐算法上的研究,主要集中在基于用户显性评分数据的协同过滤算法上,对基于非显性评分行为数据场景下的研究却显得有点不足。目前在扩展性问题上学术研究不是很具有针对性,主要集中在通过各种交叉学科中的方法来对用户进行聚类或对行为数据进行降维、压缩等缩短推荐的项目集或减少计算量,从而提升算法的性能;有关基于云平台上的推荐算法研究目前主要集中于协同过滤算法MapReduce化。而实际应用中,己出现利用分布式集群解决算法扩展性方法,如Google News的推荐算法就是部署在分布式环境下,从而满足海量数据下的推荐服务。
根据农业云大数据自组织区域推送实际情况将推荐结果和推荐算法混合,提出“三层推荐”策略:在丰富的知识块云元数据基础上,将知识块属性和用户兴趣行为基于频繁模式的知识关联撮合推荐;通过复杂网络聚类算法识别一个用户多个社区兴趣,融合“兴趣图”和“社交图”协同过滤推荐,突破算法推荐的局限性,让用户信任的朋友圈子为其发现和推荐内容,取得社交推荐的时效性和算法推荐的长尾性之间的互补,从而针对每个社区成员提供精准个性化推荐;根据基础设施服务供应商、用户所在的地理位置以及用户对服务可用性评价值的相似性等,将大量用户云终端聚类为一定数量的社区,提高云端推送服务的有效性,最终形成通过大众参与,支持云间变换,集电信网、广播电视网、互联网合一的自组织区域推送,较有效地处理一般推荐算法中存在的稀疏性、冷启动以及大规模实时计算的问题。
1.2.4 云计算下个性化数据挖掘
数据挖掘采用了多种领域中的思想,包括来自统计学的抽样、估计、假设检验以及人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。随着数据挖掘的不断发展,也采用了包括最优化、进化计算、信息论、信号处理、可视化、信息检索、云计算、并行计算等技术。与传统的数据挖掘相比,云计算下的个性化数据挖掘的目标,就是通过云计算中心,向用户提供针对其即时演化需求的数据挖掘SaaS(Software as aService,软件即服务)服务,其基础问题主要为:对于用户不同的数据挖掘需求以及针对用户特点进行个性推荐的建模和表征;数据挖掘算法适应云计算的并行分布式化;使数据挖掘的结果和算法能够支持云间变换并形成一种面向用户、即时组合的、变粒度的云服务,其中数据挖掘的云服务化是研究的难点。
(1)云计算下个性推荐的建模和表征
云下的个性推荐建模和表征与传统上个性化推荐明显的不同在于海量异构大数据和用户间群体涌现的社交网络,它们本质上形成了多个顶点的大规模图。云计算可以为大规模个性化提供技术支撑,云服务本身也有大规模个性化定制应用需求,目前研究两者结合的文献还很少,张泽华从计算资源的角度基于复杂系统理论对云计算联盟体系结构进行建模,并基于蚁群优化算法和复杂系统理论进行了负载均衡研究;郭昱就有效处理客户需求信息该如何选择与分布云计算平台中的关键节点问题,提出了基于云计算的大规模定制客户需求模型。赵东杰对复杂网络、数据挖掘与群体智能有效结合进行了探索研究。农业云大数据自组织推送通过“农业知识聚合云”分解的静态、动态知识元数据和“农业用户兴趣社交云”形成的兴趣图、社交图基于用户行为和知识元数据的关联撮合,通过人工智能和社交圈子帮助用户发现内容,实现搜索和推荐的无缝结合,为智能个性化推荐实现“内容找人”愿景。
(2)算法并行分布式与高性能计算
对于大规模数据的处理,典型系统结构大致分为三类:基于MapReduce模型的分布式并行处理系统、基于BSP模型的分布式并行处理系统和分布式图数据库系统。数据挖掘算法现在的发展趋势是基于云计算的并行数据挖掘,它的同一个算法可以分布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式,数据用DFS或者HBASE,编程模式采用MapReduce这种方式。Bhaduri等整理了一个十分详尽的并行数据挖掘算法文献目录,包含了关联规则学习、分类、聚类、流数据挖掘四大类分布式数据挖掘算法,同时还包括分布式系统、隐私保护等相关的研究工作。
2 基于云计算推荐系统研究的重点、难点与热点
2.1 云环境下用户偏好获取安全与可信问题
推荐系统中,用户数据集的数量和质量问题,影响用户模型的精确度、可用性,导致问题的根本原因在于用户对隐私和安全的考虑。而云环境下,数据的安全与隐私是用户非常关心的问题。既能得到准确用户信息而提高推荐系统性能,又能有效保护用户信息同时检测并能预防推荐攻击(一些不法的用户为了提高或降低某些对象的推荐概率,恶意捏造用户评分数据而达到目的)将是未来推荐系统的一个重要研究方向。
2.2 模型过拟合问题
过拟合现象是指系统推荐给用户的对象与用户刚刚看过的不是太相似或者太不相关。过拟合(过学习)的问题本质上来自于数据的不完备性,这在实际应用中是无法完全避免的。在于兴趣偏好获取方式或隐私等原因使用户没有对足够多类别的对象进行评价。目前解决的主要方法是引入随机性,使推荐算法收敛到全局最优或者逼近全局最优,关于既要保证推荐的多样性,又不能与用户看过的对象重复或毫不相关这一问题的研究是推荐系统研究的一个难点和重点。
2.3 稀疏性与冷启动问题
稀疏性和冷启动问题困扰推荐系统很长时间了,前者的解决办法主要过滤和降维。目前针对冷启动问题提出了一些解决方法,主要分为两大方面,一是直接利用传统协同过滤的评分数据结合特定的方法进行解决,二是新用户或新项目的内容属性信息与传统的协同过滤评分数据相结合的方法进行改善冷启动问题。稀疏性与冷启动问题一直是推荐系统研究的一个难点和重点。
2.4 数据挖掘的结果和算法智能服务化
将数据挖掘算法融入针对海量用户的使用记录和计算资源间协作进行优化组合,利用这些特性通过大众参与的交互作用,提高云间服务的智能性、有效性将是大数据时代推荐系统研究的一个制高点。将数据挖掘任务及其实现算法服务化,通过SaaS方式向云计算中心索取所需的相应的数据挖掘,这可能是目前突破数据挖掘专用软件使用门槛过高、普通大众难以触及、企业用户使用成本太大、挖掘算法和结果难以实时得到评价和相应修改等问题的最有希望的解决方案之一,也是数据挖掘走向互联网大众、走向实用化的重要的一步。
2.5 大数据处理与增量计算问题
目前对大数据的研究仍处于一个非常初步的阶段,半结构化和非结构化数据给传统的数据分析带来巨大挑战,尤其算法如何快速高效地处理推荐系统海量和稀疏的数据成为迫在眉睫的问题。当产生新的数据时,算法的结果不需要在整个数据集上重新进行计算,而只需考虑增量部分,对原有的结果进行微调,快速得到准确的新结果,是增量计算的理想状态。但一般而言,随着信息量的增多,算法的误差会累积变大,最终每过一段时间还是需要利用全局数据重新进行计算。一个特别困难的挑战是如何设计一种能够保证其误差不会累积的算法,也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升,要达到这种程度,还有很长的路要走。
结束语:
随着新一代信息技术的快速发展和信息内容的日益增长,搭载在云计算平台的自组织区域推送具有它天然的优势:云的海量存储使得推荐系统能有效获取训练数据;云的分布式计算能力提供了较高的响应能力;海量用户的使用记录和计算资源问大众参与的交互涌现,最终形成自组织优化组合的智能个性化云推送。因此,农业云自组织区域推送具有重要的研究意义和广阔的应用前景,对云环境下其他领域的个性化推送应用具有借鉴意义,但目前存在大量问题需要进行深入细致的研究。
参考文献
[1]孟祥武,胡勋,王立才,张玉洁,移动推荐系统及其应用[J],软件学报,2013,24(1):91-108
[2]杨涛,基于本体的农业领域知识服务若干关键技术研究[D],上海:复旦大学计算机科学技术学院博士论文,2011,1-50
[3]杨晓蓉,分布式农业科技信息共享关键技术研究与应用[D],北京:中国农业科学院博士学位论文,2011,3-35
[4]赵春江,农业智能系统[M],北京:科学出版社,2009,1-210,
[5]何清,物联网与数据挖掘云服务[J],智能系统学报,2012,7(3):1-5,
[6]黄卫东,于瑞强,共享学习模式下知识服务云平台的构建研究[J],电信科学,2011,12:6-11
[7]丁静,杨善林,罗贺,丁帅,云计算环境下的数据挖掘服务模式[J],计算机科学,2012,39(6):217-219,237
[8]邓仲华,钱剑红,陆颖隽,国内图书情报领域云计算研究分析[J],信息资源管理学报,2012,2:10-16
[9]胡安瑞,张霖,陶飞,罗永亮,基于知识的云制造资源服务管理[J]同济大学学报(自然科学版),2012,40(7):1093-1101
[10]程功勋,刘丽兰,林智奇,俞涛,面向用户偏好的智能云服务平台研究[J],中国机械工程,2012,23(11):1318-1323,1336
[11]刘波,方逵,沈岳,可重构的农业知识服务模式研究[J]农机化研究,2011,36(11):66-70
[12]赵星,廖桂平,史晓慧,陈诚,李文圃,物联网与云计算环境下的农业信息服务模式构建[J],农机化研究,2012,4:142-147
[13]郭永田,中国农业农村信息化发展成效与展望[J],电子政务,2012,02-03:99-106
[14]李道亮,中国农业农村信息化发展报告(2011)[M],北京:电子工业出版,2012,87-150
[15]钱平,郑业鲁,农业木体论研究与应用[M],北京:中国农业科学技术出版社,2006,1-100
[16]吴丽花,刘鲁,个性化推荐系统用户建模技术综述[J],情报学报,2006,25(2):55-62
[17]李珊,个性化服务中用户兴趣建模与更新研究[J],情报学报,2010,29(1):67-71
[18]王国霞,刘贺平,个性化推荐系统综述[J],计算机工程与应用,2012,48(7):66-76
[19]王巧容,赵海燕,曹健,个性化服务中的用户建模技术[J],小型微型计算机系统,2011,32(1):39-46
软件杂志欢迎推荐投稿:http:///
[20]张华清,动态多维社会网络中个性化推荐方法研究[D],济南:山东师范大学硕士学位论文,2012,16-31
[21]丹,面向跨系统个性化服务的用户建模方法研究[J]_情报杂志,2012,31(6):156-161
[22]邓夏玮,基于社交网络的用户行为研究[D],北京:北京交通大学硕士学位论文,2012,4-43
[23]马尧,基于多维用户特征建模的个性化社交搜索引擎的设计与实现[D],广州:华南理工大学硕士学位论文,2012,12-55
[24]陈恩红,徐童,田继雷,杨禹,移动情景感知的个性化推荐技术[J],中国计算机学会通讯,2013,9(3):19-24
[25]Jong Hwa Kima,b,,Hyun JoonLeeb,Extraction of user profile based on workflow and information flow[J],Expert Systems with Applications,2012,39(5):5478-5487
[26]南智敏,钱松荣,引入漂移特性的用户兴趣模型优化研究[J],微型电脑应用,2012,28(3):30-32
[27]郭新明,弋改珍,混合模型的用户兴趣漂移算法[J],智能系统学报,2010,5(2):181-184
[28]程显毅,朱倩,文本挖掘原理[M],北京:科学出版社,2010,9-45 [29]李涛,推荐系统中若干关键问题研究[D],南京:南京航空航天大学博士学位论文,2009,31-80
[30]姜伦,模糊聚类算法及其在中文文本聚类中的研究与实现[D],哈尔滨:哈尔滨理工大学硕士学位论文,2010,18-48
[31]冯汝伟,谢强,丁秋林,基于文本聚类与分布式Lucene的知识检索[J],计算机应用,2013,33(1):186-188
[32]陶红,周永梅,高尚,一种基于语义相似度的群智能文本聚类的新方法[J]计算机应用研究,2012,29(2):482-532
[33]孟海东,刘小荣,基于聚类分析的图模型文档分类[J]计算机应用与软件,2012,29(1):117-174,229
[34]饶君,张仁波,东呈晓,吴斌,基于MapReduce的大规模图挖掘并行计算模型[J],应用科技,2012,39(3):56-60
[35]于戈,谷峪,鲍玉斌,王志刚,云计算环境下的大规模图数据处理技术[J],计算机学报,2011,34(10):1753-1767
[36]吕善国,吴效葵,曹义亲,基于网络结构的推荐算法[J]_实验室研究与探索,2012,31(7):278-280,368
[37]周佳,罗铁坚,一种基于内容关联的学术资源协同推荐算法[J],中国科学院研究生院学报,2013,30(1):117-123
[38]唐晓波,张昭,基于混合图的在线社交网络个性化推荐系统研究[J]情报理论与实践,2013,36(2):91-95
[39]王立才,孟祥武,张玉洁,上下文感知推荐系统[J],软件学报,2012,23(1):1-20
[40]刘建国,周涛,汪秉宏,个性化推荐系统的研究进展[J],自然科学通报,2009,19(1):1-15
[41]许海玲,吴潇,李晓东,阎保平,互联网推荐系统比较研究[J]软件学报,2009,20(2):350-362
[42]孙冬婷,何涛,张福海,推荐系统中的冷启动问题研究综述[J],计算机与现代化,2012,5:59-63
[43]张亮,基于聚类技术的推荐算法研究[D],成都:电子科技大学硕士学位论文,2012,7-18
[44]Liu, F.,Lee, H.J. Use of social network information to enhance collaborative filterinperformance.Expert[J] Systems with Applications. 2010, 37(7):4772-4778.
[45]Jiang, J., Lu, J., Zhang, G., Long, G. Scaling- Up Item-Based CollaborativeFiltering Recommendation Algorithm Based on Hadoop[C].2011 IEEE World Congress onServices.IEEE[A]. 2011, 490-497.
[46]周源,基于云计算的推荐算法研究[D],成都:电子科技大学硕士学位论文,2012,26-64
[47]吕雪骥,基于云计算平台的智能推荐系统研究[D],合肥:安徽大学硕士学位论文,2012,25-43
[48]刘晨,改进的聚类挖掘算法对网络自助出版“长尾”文本的推荐应用[D],上海:复旦大学硕士学位论文,2011,10-19
[49]陈桂生,张海粟,刘玉超,云计算下的个性化数据挖掘服务[EB/OL],[2011-2-28]中国人工智能学会通讯,http://www,/contents/50/119,html
[50]张泽华,云计算联盟建模及实现的关键技术研究[D],昆明:云南大学博士学位论文,2012,26-114
[51]郭昱,吴清烈,基于云计算的大规模定制客户需求响应模型及其节点的选择与分布[J],系统工程理论与实践,2011,31(增刊2):1-6
[52]赵东杰,张海粟,韩言妮,杨海涛,何宇,基于网络化数据挖掘的群体智能研究方法[C],Proceedings of 2010 The 3rdInternational Conference on Computational Intelligence andIndustrial Application(Volume 9).IEEE[A].2010,239-243.
[53]AnandRajaraman,Jeffrey David Ullman著,王斌译,互联网大规模数据挖掘与分布式处理[M],北京:人民邮电出版社,2012,1-253
[54]Bhaduri K, Das K, Liu Kun, et al. Distributed data mining bibliography[EB/OL]. [2011-01-03]. http:// cs. umbc. edu/~hillol/DDMBIB/
[55]杨健,汪海航,王剑,俞定国,云计算安全问题研究综述[J],小型微型计算机系统,2012,33(3):472-479
长久以来信息的不完备是影响管理者进行理性判断和决策的直接原因之一,而现有的数据库系统虽然可以高效地实现数据的录入、查询和部分统计等功能,但是无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。因此,杭州市西湖区院为了在检察业务信息、队伍建设情况和综合行政事务方面辅助领导决策,建设应用行政决策辅助系统,将各科室以往分散的数据资源进行整合,并充分发挥电子政务平台的优势,通过系统提供的多种分析功能进行多角度、多层次的分析,将各类数据转化为院领导决策所需要的信息。它的实施使得行政决策者可以在广泛了解决策所需信息的前提下进行决策,避免了靠经验决策和决策信息不完备导致的决策的盲目性现象,从而提高了行政决策的科学性和合理性,支持与强化行政决策过程。
一、系统架构及技术分析
系统架构主要由数据仓库系统、模型库系统、知识库系统及可视化接口4部分构成。采用的关键技术是数据仓库技术(DW)、数据挖掘技术(DM)、在线分析处理技术(OLAP)。
(一)数据仓库的作用
电子政务的决策过程是一个从非结构化数据中抽取结构化信息,再提供非结构化决策分析结果的过程。因此,为了营造良好的电子政务决策数据环境,获得高质量的数据分析结果,建立适合政府决策的数据仓库系统是电子政务决策支持系统的关键环节,以确保政务系统中的数据能够更好地发挥分析、决策的作用。这种数据仓库系统的功能要能向两个不同方向拓展,一是广度计算,二是深度计算。广度计算是使数据仓库系统的应用范围尽量扩大,能基本涵盖市级政府决策、服务的领域;深度计算使数据仓库系统克服了以往数据库简单数据操作处理(即事务处理)的缺点,对数据处理提出了更高的要求,使其能更多地参与政府对数据分析和决策的制定等工作。
(二)模型库系统的功能
模型库系统包括模型库及其管理系统,模型库是一个包含有财务、统计、运筹和其他定量模型的软件包,存放解决行政管理问题的经验模型,是为决策提供分析能力的部件,给予决策者通过推理、比较、选择来分析、预测和解答整个问题的能力。因此,研究一些决策支持模型,建立一个政府决策的模型库系统是完成系统的关键环节之一。这种模型库系统应具有以下两个特点,一是能实现多目标决策;二是能实现多领域、多部门、多用途的决策,即按经济内容来看应具有预测类模型、综合平衡模型、结构优化模型、经济控制类模型等,按决策活动来看应有规划模型、推理模型、分析模型、预测模型、评估模型等。
(三)知识库系统的功能
知识库系统包括知识库及知识库管理系统,其功能是对知识进行系统化组织与管理,存储、增加、删除、修改和查询知识,以及对知识进行一致性和完整性校验。知识库与数据库既有区别又有联系,从知识的逻辑表示观点来看,关系数据库是一种简单的知识库,数据库中的每一个关系是一个原子公式,即一个谓词,关系中的元组即是知识中的事实,因此利用关系数据库来建造知识库,就可以充分利用关系数据库管理系统的功能,便于知识库管理系统的设计与实现。
(四)可视化接口
可视化接口包括预测、分析、查询和维护等4个子系统。通过数据分析和预测工具对数据仓库中的数据进行多维分析、汇总,结果可以用二维表、饼图、折线图和直方图表示。
二、数据挖掘的技术工具和基本过程
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘常用的技术有神经网络、决策树、遗传算法、近邻算法和规则推导等。数据挖掘常用的工具有:
第一,基于神经网络的工具。由于对非线性数据具有快速建模能力,神经网络很适合非线性数据和含噪声数据,所以在政府数据库的分析和建模方面可以应用。
第二,基于关联规则和决策树的工具。大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法。
第三,基于模糊逻辑的工具。其发现方法是应用模糊逻辑进行数据查询、排序等。
第四,综合多方法工具。不少数据挖掘工具采用了多种开采方法,这类工具一般规模较大,适用于大型数据库或者并行数据库。数据挖掘的基本过程包括数据准备、模型搜索、结果分析和生成报告。
数据准备:收集和净化来自数据源的信息并加以存储,将其放入数据仓库中。
模型搜索:利用数据挖掘工具在数据中查找模型,搜索过程可以由系统自动执行,也可以由用户参与执行。对于一个主题的搜索,可用神经网络、专家系统、统计方法等。
结果分析:一般地说,数据挖掘的搜索过程需要反复多次,因为当分析人员评价输出结果后,他们可能会发现一些偏差或一些新的问题,要求对某一方面做更精细的查询。
【关键词】 商业智能; 财务指标体系; 财务预警
一、引言
随着我国高等教育的改革和发展,高校进入大规模举债办学的阶段,高校财务面临的局面越来越复杂。高校不仅有基础建设、事业单位经费收支,还涉及到科研经费、校办企业投资等,高校一旦发生财务问题,影响的不仅仅是高校本身,更会引发各式各样的社会问题,因此需要对影响高校正常运行的各种财务问题进行实时有效的监控。
传统的财务分析方法单纯以财务报表为基础,就多个指标进行分析,也就是单纯地看最近一年或几年,或者某个院系的指标。与这些静态的分析方法相比,把商业智能运用到财务预警系统,即将财务数据和各种外部数据进行收集、归纳、量化(ETL技术)建立数据仓库,高校财务部门可以通过提取有用的数据经过联机分析处理工具(OLAP)或数据挖掘工具(Date Mining)结合财务部门的专业知识进行分析,转化为对高校财务分析有用的信息,从而为高校财务提供一个动态的风险预警方案。总而言之,将商业智能运用于高校的财务分析系统,可以根据不同的决策层灵活地展现财务分析结果,也可以连续分析财务问题,还可以与高校其他院系联合在一起进行综合分析。
二、高校财务指标体系的构建
高校财务指标是高校财务预警的一个核心,相关学者对高校财务指标体系已经有了一定的研究,本文针对高校过度举债、资金利用率低等问题,就高校财务指标作了相应的调整,再结合指标选取原则初步建立了有效的高校指标体系。
(一)偿债能力
为了反映高校偿还债务能力和资产负债水平,选取流动比率、资产负债率、长期负债率、贷款收入比重、利息保障倍数五个指标。
(二)营运能力
为了反映高校的经营状况选取现实支付比率、潜在的支付比率、公共经费支出比率、投资收益比率、自有资金余额占年末货币资金比重五个指标。
(三)发展能力
为了反映高校的成长性以及开源创收的能力,选取净资产增长率、固定资产增长率、现金净额增长率、自筹收入比率四个指标。
(四)非财务因素
一些非财务因素也能体现出高校的办学效率和发展实力,为了全面反映高校的发展状况选取了师生比、教师人均科研经费和教师贡献率三个指标。
即使指标选择严谨,这些指标中某些指标间还是有一定的相关性,并且过多的指标会增加信息的收集和整理难度,降低工作效率,所以要对这些指标进行优化。将初选四个方面的所有十七个指标汇总进行正态性检验,将服从正态性分布的指标体系进一步做T检验,以确定哪些指标具有显著性作用,筛选出显著性指标,删除不显著的指标;将没有服从正态性分布的指标体系进一步做非参数检验,同理确定这部分指标中的显著性指标,删除不显著的指标,最后汇总所有显著性指标用于构建高校财务预警模型指标体系。此优化过程不仅解决了预警指标体系的显著性问题,同时也达到了尽可能降低预警指标体系维度的目的。
三、高校财务预警基于商业智能技术的实现
高校商业智能系统主要包括三部分:高校数据仓库、多维分析和高校数据挖掘。高校数据仓库用于存储有用信息;多维分析可以从不同层面进行全面了解储存在高校数据仓库中的信息;高校数据挖掘则是发现问题找规律,并对将来进行预测。高校商业智能实现的大体过程是收集数据,对数据进行清理、转化,存入数据仓库,将仓库数据变为信息,并用OLAP工具、数据挖掘工具对信息进行处理,将信息变为对决策有用的知识。其架构如图1。
(一)财务数据仓库的设计
高校数据仓库的目的是通过对整个高校的相关数据进行梳理,构建一个体系化的数据存储环境,把大量分散复杂的数据转化成集成的、统一的信息,将正确的信息方便、准确地传递给需要的人。数据仓库与传统的数据库的最大区别在于传统的数据库是未经整理的一堆杂乱数据,而数据仓库是经过整理、规划过的系统数据库的子集合。数据仓库可以使高校面对大量的错综复杂的数据进行灵活的处理,为内部各个信息使用者提供他们所需要的有效信息。
1.数据仓库概念模型的设计
数据仓库的概念模型主要任务是界定系统边界和确定主题域及内容,星形概念模式是由一个事实表和一组维表组成,是一种多维的数据关系,相对于别的概念模型来说,星型虽然不节省空间,但是操作相对简单,所以创建高校数据仓库的概念模型采用星型。
高校各类指标的多维分析是商业智能技术构建高校财务预警的核心问题,所以在设计概念模型时,应选择财务指标作为数据仓库的主题,并以这一主题建立事实表,然后从高校财务分析的角度来确定维度,如时间、项目、部门等。各高校可以根据自身的情况来设定维度,文章根据自身了解的情况拟设了六个维度作为介绍:院级单位、项目、部门、指标、往来单位、时间。星型结构设计如图2。
2.财务数据仓库逻辑模型设计
逻辑模型主要是根据星形维度的选择,构建维度的层次关系,层次关系以高校相关人员对信息的需求为主线,分析各维度的层次关系以及粒度的划分、事实表的设计等。比如之前的高校数据仓库概念模型设计分了六个维度,时间维度就可以从日、周、月、季度、年来进行划分层次;院级单位可以按一级单位(校),二级单位(院),三级单位(部门)依次划分;指标可以根据前文中所示的指标类型进行划分;项目可以按照高校所承接的国家级项目、省级项目以及其他项目类别进行划分;部门可以按党委部门、行政部门、教学单位、教辅单位、附属单位依次划分;往来单位按照政府、金融机构、企业等进行划分。
3.财务数据仓库物理模型设计
物理模型需要确定数据的存储结构、索引策略、数据存放位置及存储分配等,主要目的是提高性能和更好地管理存储数据。
4.数据ETL
ETL包括抽取、转换、装载。其中,抽取是将数据从各种原始存放系统(如各种帐套数据和Excel文件)中读取;转换是按照预先设计好的规则将数据转换,使数据格式统一;装载则是将转换好的数据导入高校数据仓库。
(二)基于OLAP技术的财务分析模型实现
OLAP技术(联机分析处理技术)以数据仓库为基础,针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给使用者。OLAP技术的一个重要特点是通过多维交互的方式对数据进行处理,与多维数据组织的数据仓库相互结合、补充,这些多维分析操作可以使用户从不同的维度和角度来分析数据,其中主要方法包括切片、切块、钻取和旋转。
而对于已经建立并装载完成了高校数据仓库的,可以在此基础上建立OLAP系统。首先对OLAP的多维数据结构进行设计,包括维度和多维数据集的设计,然后创建维度和多维数据集,可以采用Analysis Service做分析服务器,最后利用SSRS展示查询数据。高校财务预警正是运用OLAP技术实现各监控指标的多维综合评价,达到对高校财务数据的实时分析。
例如,通过对高校财务部门的调查研究,发现其需要了解高校不同时间、不同院系的科研收入、教学成果以及偿债能力等,那么信息使用者可以在选择范围内的维度和量度来进行有意义的组合,还可以从其他不同的角度来了解高校的财务状况。通过报表展示,可以选择对不同维度上涉及到的数量进行分析,并找到有价值的信息。高校可以选择“时间”、“各级院”、“偿债能力”组成一个三维的偿债能力立方体,以表示在不同的时间,各个二级院校的偿债能力如何。具体如图3。
OLAP对于数据的即时处理和分析充分体现出财务分析的时效性和真实性,实现了商业智能技术与财务分析的融合。OLAP通过多维的方式对数据进行了分析、查询和定制报表。维是人们观察数据的特定角度,多维分析方式符合思维模式,减少了混淆并且降低了出现错误的可能性,它能使用户多侧面、多角度地观察数据库中的数据。OLAP可以通过切片、切块、钻取及旋转等操作来分析数据仓库中的财务数据,以对高校的财务数据进行更透彻形象地分析。
(三)基于数据挖掘技术的财务预警模型的实现
对于已经存在的财务信息,可以利用OLAP技术从不同的维度由高校数据仓库中获取,但是高校数据仓库数据中潜在的、隐藏的关系和信息很难得到充分的体现,以确定高校的财务发展趋势。因此需要利用数据挖掘技术对它们进行深度的挖掘,构建高校财务危机预警模型。
数据挖掘技术提供了多种财务预警计算方法,如神经网络算法、逻辑回归算法、聚类分析算法、决策树和关联规则等,在前文已建立数据仓库的基础上,可以根据财务预警的具体需要选择适当的算法构建财务预警模型,分析数据挖掘的结果。具体说,将已经准备好的数据分离到定型数据集中,并生成挖掘模型,通过创建预测查询,运用测试数据集验证模型的准确性,以确定是否是性能最佳的模型。当模型确定以后,进行财务预警分析。
鉴于高校财务问题与一般企业的财务问题有着本质的区别,高校财务数据并不如上市公司一样公开,数据量不丰富,导致成熟的企业财务预警模型很难适用于高校,所以本文认为数据挖掘方法中的灰色关联计算方法更适合高校财务预警。运用灰色关联的数据挖掘技术进行财务预警相对于传统的财务分析方法能够消除数据的噪声,将非标准的数据标准化,在应对高校面临的外部环境多变的形势下,运用该项技术是必要的。具体做法是首先将数据从数据仓库中提取出来,然后对数据进行处理,如无量纲化,将处理后的数据带入灰色关联模型,得出结果并进行分析。具体步骤如图4。
四、结论
对于高校的财务预警问题,需要一个动态的监控系统来进行实时监控,而商业智能技术能够促进这一设想的实现。运用商业智能来构建高校财务预警系统可以将潜在的影响高校正常运行的各种财务状况实时反映出来。数据仓库技术能够使高校的数据进行自动的更新存储,OLAP技术能够对高校现有的财务数据进行多维的分析,同时应用数据挖掘技术建立财务预警模型,实现了对高校财务进行动态的监控。
【参考文献】
[1] 田隆.基于财务数据中心的商业智能平台设计与实现[D].北京:北京信息控制研究所硕士学位论文,2010.
[2] 陈俊.财务商业智能系统的研究及其实现[D].中国航天第二研究院硕士学位论文,2008.
[3] 丁博.基于商业智能的A央企财务分析系统研究[D].北京:北京交通大学硕士学位论文,2012.
[4] 徐玉鹏.数据仓库、OLAP和数据挖掘在商业智能中的应用研究[D].南京:南京航空航天大学硕士学位论文,2010.
关键词:LIMS,数据仓库,数据挖掘
1 引言
食用菌实验室管理系统LIMS以食用菌研发数据管理为核心,系统利用数据仓库技术将菌种、营养环境参数、试验方案、研发人员、海量实验数据等信息进行抽取清洗和存储,采用数据挖掘技术对以上各类数据进行分析。目的在于整合应用HACCP控制体系,对产品研发过程进行智能化监控。通过对工厂化研发食用菌产品的各项关键技术、风险评估、比较执行度等参数进行管理和监控,实现食用菌产品研发管理流程过程管理目标。
美国试验与材料学会(ASTM)在概念模型中将LIMS的功能分成了3个级别。三个不同等级在全局功能、数据库结构、数据采集和分析、实验报告、实验室管理以及系统管理方面都有明确规定的描述。
国内真正构建和全面应用LIMS的实验室还不多,且大部分偏重于管理,其功能与LIMS国际标准存在较大差别,系统通用性与专业性无法平衡,不能满足食用菌实验室研发数据管理的需要。国内部分单位开发的食用菌方面的软件可以帮助实验室处理一般数据和转换格式,但缺少对食用菌实验室的实验流程、实验资源、研发数据、实验结果等全方位信息进行管理分析的网络化LIMS。
2 相关技术介绍
目前关于农作物研发实验数据分析领域主要分成两类:具有人工智能特点的推理机系统和一般的信息系统。前者通常需要预先建立知识库,然后在此基础上创建知识原型系统。这样的专家系统存在很多不足,一方面它们仅能罗列一些简单知识,而且随着专家知识的不断积累,增加或者修改库中的知识都会引起知识大爆炸和推理时的逻辑混乱,使得产生错误的结论而失去了专家系统的意义。一般的信息系统系统则只能提供咨询服务和信息查询,没有数据分析和建模的功能。将数据仓库和数据挖掘技术应用到食用菌LIMS中,实现实验参数的电子化管理和监控,帮助发现食用菌实验数据内部的规律性联系,解决实验过程管理和决策优化辅助问题。
数据仓库中的数据面向主题,与传统数据库面向应用相对应[1]。数据仓库的典型技术包括:数据的抽取转换和装载,数据的存储和管理,数据挖掘和呈现等等。
2.1 数据的抽取转换和装载
用于数据挖掘的原始数据源可能是多个数据库或数据仓库,而这些数据源的结构和规则可能是不同的,这将导致原始数据非常杂乱和不可用,即使在同一个数据库中,也很可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理[2]。ETL过程就是对原始数据进行抽取转换清洗等预处理,按照预定义好的数据仓库模型,将数据装载至数据仓库中。
2.2 数据的存储和管理
数据仓库在数据存储和管理上有三个明显的技术特征:首先,系统要求对大量数据进行存储和管理。其从,要求能够解决并发处理的问题,也就是说能够将用户的请求进行均衡分担。第三个问题是针对决策支持查询的优化。第四个问题是支持多维分析的查询模式。数据仓库专家们发现,关系数据库若采用“星型模式”来组织数据就能很好地解决多维分析的问题[3]。因此面向决策支持扩充的并行关系数据库在这四个个方面都有不错的表现,是非常成熟的管理系统,大多数厂商提供的数据仓库解决方案也都采用此类系统[3]。
2.3 数据呈现和挖掘
数据呈现技术主要集中在多维分析、数理统计和数据挖掘方面。食用菌分析应用中一个很重要的任务就是找出食用菌培育各困素之问可能存在的相关性,利用分类决策树、关联规则、时间序列算法来创建分析模型[4]。通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。
3系统设计
3.1 功能设计及模块详述
系统包括如下业务功能模块:试验方案管理、研发过程管理、食用菌CCP管理、风险管理、发菌管理、出菇管理、基本信息管理模块。如图1所示。
图1 功能结构图
现针对上述结构图,分别对功能模块作详细描述。
(1)试验方案管理
该模块用于工厂化研发食用菌产品试验方案的管理。每个试验方案创建时,系统会自动分配方案的唯一标志号,为以后查询、修改方案提供方便。试验方案中的详细数据项可为系统其他模块如发菌管理、出菇管理、智能决策、警提供数据来源。
HACCP定义数据包括:
(2)研发过程管理
该模块以食用菌研发周期为基础,对食用菌研发管理的各个流程全程记录,准确的实现产品溯源,提高产品研发过程的质量管理。通过与HACCP系统有效整合应用,用户能够对系统所定义的食用菌的栽培过程中的每个特性值进行采集、分析,实现对企业技术中心各部门、各试验实施环节运行情况的监测。具体包括数据采集、曲线图表、历史查询、报表统计、报警监视、培养料配置、带装灭菌、接种管理、发菌期管理、出菇管理、采收管理等
(3)菌种生产管理
菌种生产管理用于食用菌菌种生产计划和菌种生产的过程管理,辅助实现菌种规范化、标准化生产,有效提高菌种质量。
其中菌种生产计划HACCP数据定义包括:母种、原种、栽培种培养基的选择、配制,包括配方选择和培养基配制记录,其中涉及日期、培养料级别、配方原料种类、数量、总数量(瓶/kg)、制备负责人、验收结果、验收人、对不合格的处理措施)等主要内容。
灭菌消毒操作HACCP数据包括:灭菌方式的选择,如常压灭菌/高压蒸汽灭菌。不同的焙养基选择不同的压力指标、灭菌时间、灭菌形成温度。灭菌消毒记录表:涉及日期/灭菌设备号/物品名/数量/操作人/检验结果/检验人。论文参考。
菌种培养作HACCP数据包括:涉及日期、菌种名、种类、数量、培养室编号、检验依据、检查情况等。
(4)风险管理
本模块在检测各项关键技术因素的基础上,比较执行情况与其原始方案的差异,从而进行合理的技术风险评估,推算出与之相关的研发栽培措施,及时调配研发人员,体现了强大的交互功能。
① 风险评估:将已识别的技术风险因素,通过执行情况与原始方案的差异比较,利用一定评估方法计算出风险的大小,并分析风险因素的敏感性(或称影响度),最终以风险评估报告的形式呈现给用户。
②应对方案:根据风险的大小即可确定技术风险的严重性,根据严重性风险排序,即可制订风险应对方案,决定下一步任务,及时调配技术人员解决问题。有些技术风险与其他风险紧密相关或交叉重叠,需要综合分析和处理;有些技术风险还需进一步跟踪研究,待时机成熟再加以控制。在制订应对方案时,通过风险影响度分析,将影响度高的风险因素作为风险控制的核心。
③ 风险追踪:通过技术风险跟踪,可以监视技术风险状态.当技术风险超过需控制的标准,即通过预警功能,进入制订风险应对方案阶段。
④报警处理:对研发过程中出现的报警记录及时进行处理
⑤ 风险数据库构建:该模块用于管理食用菌研发过程各项环节中各项风险知识,包括创建、存储、修改、删除等功能。其中知识存储的数据结构和知识独立性是实现关键。
(5)基本信息管理
该模块用于人员及产品信息管理,为管理层提供便捷的信息服务,提高管理服务效率。包括:公司信息管理、部门信息管理、人员信息管理、产品信息管理、角色管理、系统模块访问权限控制。
3.2 技术架构设计
食用菌LIMS技术架构设计的基本原则包括兼容性、灵活性、充分考虑与其它业务管理子系统的衔接和扩展,为未来进一步的系统应用整合打好基础。 鉴于上述原则,系统从技术架构上可以划分为四个层次:数据层、控制访问层、业务逻辑层和用户呈现层。论文参考。如图2所示:
图2 技术架构设计
数据层的设计目标是解决数据的保存和管理问题。其中,数据库中数据表的设计是该层需要考虑的核心和关键,如何从现实业务逻辑中抽象出易于系统处理的数据,从而降低各平台间的数据关联性,减少数据关联性,降低模块耦合度。该层的配置包括:DTS配置、数据对象配置和Analysis Service配置。
控制访问层由数据库基础组件和配置文件组成,配置数据库层访问的参数、性能、安全加密等配置,包括数据访问模块、数据分析模块、图表汇出模块。
用户层根据不同的业务类别调用下层的逻辑组件,最后对业务逻辑组件的调用结果进行处理。该层由多个业务模块组成,包括: 分析结果显示模块、图表控制模块。
5 结语:
本项目将食用菌产品研发管理的全部流程纳入到软件层次进行管理。对工厂化研发食用菌产品的各项关键技术、风险评估、比较执行度等参数进行管理和监控。利用构建的软件平台可以直接查询数据,进行食用菌试验方案的追踪溯源。论文参考。本项目使食用菌产品研发与管理技术研究信息化系统得以与HACCP系统有效地进行整合应用,系统采用自行研发的报表统计分析系统,能够对各种数据实时汇总到系统。不仅能为企业管理者提供相关的决策信息,达到实时监控整个企业技术研发的稳定高效开展,达到辅助决策的目的,而且可以动用管理决策相关的数学方法和技术进行决策优化,为各级技术研发管理层提供各种最优解、次优解或满意解、可行解,提高管理决策的科学性;合理利用企业技术中心的各项资源,提高企业的经济效益。
参考文献:
[1] W. H. Inmon. Building the DataWarehouse Third Edition [M]. John Wiley & Sons, Inc. 2002.
[2] 安淑芝. 数据仓库与数据挖掘[M]. 北京:清华大学出版社,2005.
[3] 高小惠. 数据仓库技术在企业人力决策支持中的应用. 科学时代. 2007,12 .
[4] 张荣祖. 数据挖掘技术在食用菌数据分析中的应用. 复旦大学硕士学位论文,2004.
摘要:本文阐述了电子表格在投资分析中的应用,并以某只股票价格数据为例(华夏银行600015),作为数据挖掘的对象,得出股票买卖的定价模型。并通过实证,说明电子表格在数据挖掘和财务管理方面是可以带来经济效益的。
关键词 :电子表格;股票价格;买卖定价模型;案例分析
在现实的生产与生活中,有许多事物我们还没有掌握其规律,让我们做起来很容易失败,甚至造成很大的损失。但我们又想利用它,就必须研究其规律。例如,气象学中的天气预报,我们人类已经研究的比较准确了。但在地震、洪涝灾害等面前,人类就还远没有研究明白。也就是说,数据挖掘活动仍有广阔的研究空间和大有用武之地,人类还需要做出大量的数据挖掘才能发现新的或更多的事物的规律性。
一、数据挖掘的作用
1.数据挖掘有助于领导者提高决策质量
决策是在两个以上方案或诸多方案中选择一个比较正确的方案的过程。使用数据挖掘技术来揭示事物发展变化的规律,然后制定出一种符合规律的行为模式,这样取得成功的概率才比较大。在企业,领导层经常要进行各种决策。如果没有一些有利数据的支持,全凭借你“拍脑门”决策,就容易事与愿违,欲速则不达。利用数据挖掘技术可以帮助企业改善决策,它能及时和更好地帮助领导者做好决策。
2.数据挖掘在市场营销的应用
数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体的消费行为,以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业赢得更多的利润。
3.数据挖掘在投资领域的应用
投资活动的目的是为了盈利,但是有些投资者(机构、个人)却事与愿违,不但未能盈利,反倒是亏损了。股市上历来有:“七赔两平一亏”的说法。这说明,那些在投资活动的赢家肯定是有一套成功的方法,而成功的方法依然是离不开数据挖掘的结果。可以断言,在公平的游戏规则下,长期来看,任何成功者都是成功的数据挖掘者,都是在掌握了大量经验或有关数据,进行符合规律性的操作的结果;而违背规律的操作就必然造成投资失败。当前,在投资领域,有股票、期货、黄金、外汇、白银、比特币等。这些领域就是很值得数据挖掘。做好了,就是可以实现盈利的。所以,如果你建立了一个有效的数据模型进行有关投资的买卖,就等于你有了一个金矿的挖掘机,从市场中可以挖掘出许多超额利润来。
二、股票数据挖掘的案例分析
1.数据挖掘的目标、思路、依据和任务
股票数据挖掘,目的是为了在炒股中盈利。在这里,我主要说明一下我利用电子表格进行股票数据挖掘的做法,并进行实证检验。
只有通过低买高卖才能赚取差价而获利。股票价格是高低波动着的。在股票价格运行在低点区域时买入,运行到高点区域时卖出就挣钱了。所以,股票价格低到什么程度买,高到什么区域卖,最重要的是需要计算股票的买卖价格系数。
任何事物都是有着自身变化规律的,股票价格的运动也必定是按照某种规律变化着的。股票价格的变动规律可以通过对大量历史价格资料进行统计观察而被发现。利用计算机电子表格进行股票数据挖掘的主要任务是:对股票价格开展对比计算、平均值计算和标准差的计算,从而得出制定股票买卖价格的重要参数,解决了人工计算的速度太慢的问题。
2.研究的过程
(1)搜集数据资料,应用电子表格对股票价格数据的处理搜集数据。从网上搜索到华夏银行股票2013 年之前的价格资料做样本,导入到电子表格,以便于快速计算。这里取2004年5月21日至2012年12月28日的共424个交易周的价格资料,限于篇幅,为说明该股票实际价格构成情况,这里只列示了首尾少数几周的数据(见表1)。
(2)买卖价格系数的计算与买卖定价公式的建立这里仅以股票的周线资料做研究对象,读者也可以类推到日线、月线和季度线等的研究。步骤如下:
①抽取某股票的n 周(n>30)历史价格资料,并利用
这样定价的道理是为了低买高卖,赚得股票价差利得。
式中,为概率度,根据概率论原理,t=1时,盈利的可靠性为68.27%左右;t=1.5时股票赢利的可靠性为0.8664;
t=2 时,盈利的可靠性为0.9545 左右;t=3 时,盈利的可靠性为0.9973左右。
②股票买卖价格的制定,即股票买卖定价模型为:
买价=上周收盘价×股票买价系数(R)
卖价=上日收盘价×股票卖价系数(S)
股票华夏银行每周的买卖定价模型和操作批量如下:
本周买价=上周收盘价×0.8974
这个盈利水平还是不错的,和一般企业的年收益率大体相近。如果再结合趋势分析来做,盈利程度将更高。从投资管理的麻烦程度来看,比企业管理要轻松得多。所以,按这种方法来炒股,是可以带来稳定收益的。
四、结论
数据挖掘技术具有广泛的应用空间。只要明确研究目的和任务,设计出合理的研究方案,就能找到事物内在的规律。本论文只是研究了一只股票的买卖定价方法,可见还是很有优势的。在证券投资领域如此,在其他各个领域也都是如此,只不过研究的内容不同罢了。上述研究方法也可以推广到炒股指期货、炒黄金、炒外汇、炒白银、炒各种贵金属、炒原油和农产品等价格波动型投资对象中的买卖价格定价模式的研究上。因为在大量数据面前,事物的规律性才能暴露出来,而基于计算机高速计算能力的现代数据挖掘技术的广泛应用,必将给研究成果的利用者带来丰厚的回报。
参考文献:
[1]杨云生.数据挖掘技术在客户关系管理中的应用[J].价值工程,2004年03期.
[2]王峥,王彦庆.客户知识管理的数据挖掘方法研究[J].哈尔滨工业大学学报(社会科学版),2009年05期.
【关键词】 数据挖掘技术;电子商务;推荐系统;研究
随着计算机互联网技术在社会工作与生活中的普及,电子商务产业也获得了快速的发展。为了进一步扩大电子商务的市场,提高电子商务企业的经济效益,电子商务推荐系统被开发出来。而数据挖掘技术作为支持该系统运行的重要技术,对电子商务推荐系统的发展具有重要意义。本文将主要对其进行分析与研究。
一、数据挖掘技术概述
数据挖掘技术至今还没有一个统一的、确定的概念定义。归结起来,笔者认为数据挖掘的概念应主要包括以下三方面内容:①未知。一些学者也将其表述为新颖。这一方面内容强调的是数据挖掘技术能够清楚的揭示出许多数据之间的相互关联关系,并对于隐藏在这些数据信息后的隐含信息也能随之被呈现。通常来说,被挖掘出的信息越隐秘,那么其价值也就越大[1]。②可用。一些学者也将其表述为有效、支持决策等。数据挖掘技术的这一内容主要强调对数据信息可用性价值的需求。因为只有挖掘出了有价值的、能够被人们利用的数据信息,才能满足人们的需求,推动某些事物的发展。③可理解。一些学者也将这一内容解释为可解释。然而无论表述之间存在着怎样的差异,这一内容都主要对被挖掘出的数据信息的可理解状况提出了要求。只有那些通被商家与客户理解的数据信息才能够被最终应用,发挥其自身的价值,带动相关利益主体的进步与发展。
二、协同过滤技术
数据挖掘技术有许多种类,如关联规则、聚类、贝叶斯网络和协同过滤技术等[2]。其中协同过滤技术作为数据挖掘技术中最具有价值的一种技术,被广泛的应用到了现如今的电子商务推荐系统之中。
2.1协同过滤技术的实现
协同过滤技术的实现并不是一步就可以完成的,而需要经过多个步骤。经过归纳,笔者将其分为三个主要步骤:第一,人们需要事先对用户进行调查,以记录和收集他们对企业商品项目的评价信息;第二,对企业项目集的搜索结果进行生成操作;第三,对企业项目集推荐结果进行生成操作[3]。在进行第一个步骤时,人们经常使用显示评价法与人工调查法对商品项目的评价信息进行收集。在电子商务时代,传统的人工走访方式已经逐渐被取代,更多的是应用显示评价法对商品项目信息进行收集。
2.2基于用户的协同过滤技术
此种协同过滤技术主要通过惯性分析方式将电子商务企业的用户作为研究对象,这种数据挖掘技术是以用户为研究对象的。也就是说当电子商务企业的某两个用户对于某一商品的评价信息趋于一致时,那么系统就会推断这两个用户对商品的喜好品味是相同的,而商务推荐系统在以后的工作中在对某一商品进行推荐评价等工作时就会认为这两个用户也会对此商品有着同样的喜爱程度。
将基于用户的协同过滤技术应用到电子商务的推荐系统中,电子商务推荐系统能够更加轻松的对商品项目用户的喜好倾向进行搜集与挖掘,从而为相关的商家提供一定的数据信息支持其新产品的研发设计等。并且通过这一技术电子商务推荐系统还能够对并未购买过某商品的用户,但是与其有着相同喜好的用户已经购买过的关联用户进行商品推荐,以发掘更多的潜在购买用户,扩大企业的市场,增加产品的销量,从而获取更高的利益。
2.3基于项目的协同过滤技术
基于项目的协同过滤技术主要将商品项目作为其作用对象。若电子商务推荐系统要想将某件商品Y推荐给某个用户S。就应该首先将用户S已经购买并评价过的商品(Y1、Y2……Yn)进行统计,然后对电子商务企业需要推荐的商品Y和这n个已经评价过的商品之间的相似度进行计算与对比。找出这n个评价过商品中与待推荐商品Y相似度最大的商品项目,从而建立起与待推荐商品Y相似的商品集合(n1、n2……nk)。由于商品用户S对待推荐的商品Y的评价情况与用户S对(n1、n2……nk)中商品集合的评价情况相似度较高,因此电子商务推荐系统会用用户S对(n1、n2……nk)商品集合的评价值进行加权的方式来得出用户S对待推荐商品Y的评价值F。当F大于推荐平均值w时,电子商务推荐系统就会对用户S推荐商品Y。
三、结束语
本文主要对基于数据挖掘技术的电子商务推荐系统进行了研究,并重点对协同过滤技术对电子商务推荐系统的重要性作用进行了分析,希望能够进一步推动电子商务推荐系统的发展。
参 考 文 献
[1] 韩家炜.数据挖掘――概念与技术(范明,孟小峰译)[M].机械工业出版社,2011.