前言:我们精心挑选了数篇优质聚类分析论文文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
对于股票投资来说,一定要关注股票上市公司的基本盈利状况以及该公司未来的发展状况。在投资时,这两大因素必须进行思考衡量,因为这两大因素是衡量一个上市公司有没有投资价值最基本的条件。因此,要在投资前计算出该股票每股的收益、该公司净资产收益率以及主营收入增长率。
1.盈利能力指标。总资产利润率=净利润/平均资产总额,这体现出公司整体的获利能力。净资产利润率=净利润/平均净资产,这个关系可以直接体现出股东投资的回报。主营业务收益率=主营业务利润/主营业务收入,主营业务是上市公司利润的来源,主营业务的收益越大,公司在市场中的竞争优势就越明显。每股收益=净利润/期末总股本,每股的收益越高,反应出每股获利的能力越强。
2.成长能力指标。主营业务收益增长率=本期主营业务收入/上期主营业务收入-1,这体现出上市公司重点项目的成长力。净资产利润率=本期净利润/上期净利润-1,上市公司给员工的薪酬都是根据净利润决定的。
二、聚类分析的投资方法应用实例
聚类分析方法隶属多元统计分析方法之中,与多元统计分析法和回归分析法并称为三大应用方法。聚类分析法一定要建立在某个优化意义基础之上,如果将聚类分析方和常规的分析法相比较的话,会发现聚类分析法有很大的优势,第一是使用聚类分析法可以对数据中的多个变量进行样本分析,然后将其分类整理;第二是通过使用聚类分析法所得出的数据非常直观明了,通过观察聚类谱系图投资者就能够清楚地分析出数据显示的结果;第三是如果将聚类统计法所得出来的数据结果与普通方法计算出来的结果进行对比,不难发现聚类分析法的对比结果更加细致、科学、全面,接下来通过两个应用的实例进行说明。
1.原始数据标准化。为了解决原始数据量纲和数量级差异带来的影响,更好的对聚类分析和判别进行分析,可以采用指标标准化的处理方法。
2.逆指标正向化处理。流通股本是逆指标,对其绝对值取倒数可以得出。
三、将聚类分析法应用到金融投资上的意义
将聚类分析法应用于金融投资上,不但可以显示出有效、科学、全面的数据更能帮助弥补金融投资投资时所出现的不足。
第一,聚类分析法建立在基础分析之上,对投资股票从一些基本层面进行量化分析,进而对股票价格影响因素定性进行补充并完善了原有的基础分析。聚类分析法作为长期的理性投资参考依据,是为了发掘股票投资的真实价值,避免由于市场过热导致资产估值不公允。
第二,在建立投资评价模型的时候,可以运用聚类分析法对公司和股票投资价值之间的联系进行分析。公司的成长是一个在哥登模型中,在一个变化的趋势内进行。不变的股息增长率对实际情况并不符合,在采用多阶增长模型的时候,想要得到不同阶段的股息增长率是很困难的。所以,对股票的成长进行分析得时候,可以选取净利润率等客观的数据做参考,这样可以估算出股票的发展潜力。
第三,通过对聚类分析法和现资组合理论的比较可以得出,聚类分析法比现资组合理论更具有直观性和实用性,并且在实际生活中的局限小。该方法主要着眼于实际数据的相似性和其延生的规律性,较投资学中一些以预测和假定前提较多的模型而言更具有现实意义,也更加贴近当前市场情况的现实。另外,聚类分析法的操作性强,在实际应用过程中有一定的优越性,更加适合投资者使用。
第四,聚类分析法作为长期投资的理念,随着我国金融行业的不断发展,逐渐被更多的投资人采用。理性的运用聚类分析法这种投资方法,不但可以使投资者的投资风险降到最低,还可以规范其他投行的投资行为,促使发行股票的企业可以本着经营业绩和长期的成长模式进行投资,在一定程度上可以有效规避道德风险和投机行为,保证金融市场的稳定性和规范性,保护散户和弱势群体的经济利益,进而繁荣整个股票、证劵市场,使我国的经济更繁荣。
四、结论
近年来,全国大学生数学建模竞赛迅速发展,为国家培养了大批应用型人才。但由于各地区教育水平不同、相关部门对竞赛的重视程度不同,导致各地区组织学生参加大学数学建模竞赛的规模不同,在该项赛事中取得的成绩差异比较显著。2013年全国大学生数学建模竞赛评选出的奖项有:赛区优秀组织工作奖9个,本科组高教社杯奖1个,专科高教社杯奖1个,本科组MATLAB创新奖1个,专科组MATLAB创新奖1个,本科组IBMSPSS创新奖1个,专科组IBMSPSS创新奖1个,本科组一等奖共273名,本科组二等奖共1292名,专科组一等奖共44名,专科组二等奖共211名[1],但成绩相对于参赛区分布不太均匀。分析各地区在2013年全国大学生数学建模竞赛中取得的成绩,明确各地区数学建模发展状况的差异和特点,将有利于相关部门从宏观上了解我国大学生数学建模竞赛的整体发展现状,分类制定相关政策[2-3],从而充分发挥数学建模的重要作用。
1建立综合评价指标体系
全国大学生数学建模竞赛现状的一个重要方面就是全国大学生数学建模竞赛获奖情况。依据全国大学生数学建模竞赛设置的奖项,遵循可比性原则,参考文献[4-5],选取x1-x7共七项评价指标,具体如下:x1:本科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x2:本科组一等奖获奖数;x3:本科组二等奖获奖数;x4:专科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x5:专科组一等奖获奖数;x6:专科组二等奖获奖数;x7:年度竞赛优秀组织工作奖获得情况。说明:鉴于本科组与专科组的高教社杯、MAT-LAB创新奖和IBMSPSS创新奖三类奖项每年只有一个队获奖,且基本不可重复获得(参见历年大学生数学建模竞赛获奖名单)故将其合并作为一类。
2数据资料依据
2013年全国大学生数学建模竞赛获奖名单,按指标对各个赛区的获奖情况统计如表1所示。
3R型聚类分析定性分析
七项指标之间的相关性。编写MAT-LAB程序如下:>>clc,clear>>symxy;>>x=xlsread(‘shuju.xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju.xls中,并将其赋于x>>y=corr(x)%输出七项指标间的相关系数矩阵(如表2所示)>>d=pdist(y,’correlation’);%计算相关系数导出的距离>>z=linkage(d,’average’);%按类平均法聚类>>h=dendrogram(z);%画聚类图(如图1所示)>>T=cluster(z,’maxclust',5);%把变量划分为5类>>fori=1:5tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有4;第2类的有56;第3类的有7;第4类的有23;第5类的有1。即:若将指标分为5类,则指标1、4、7各为一类,指标2、3为一类,指标4、5为一类。
4Q型聚类分析
4.1选取5个指标的分类从R型聚类分析分出的5类指标中各选一个,即选取5个指标体系,对33个参赛地区进行聚类分析。首先对变量数据进行标准化处理,采用欧氏距离度量样本间相似性,选用类平均法计算类间距离。在MATLAB命令窗口输入下列程序:>>symsxy;>>x=xlsread(’shuju.xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju.xls中,并将其赋于x>>x(:,[3,5])=[];%删除数据矩阵的3,5两列,即使用变量1,2,4,6,7>>x=zscore(x);%将数据标准化>>s=pdist(x);%每一行是一个对象,求对象间的欧式距离>>z=linkage(s,’average’);%按类平均法聚类>>h=dendrogram(z);%画聚类图(如图2所示)>>T=cluster(z,’maxclust’,3);%把样本点划分成3类>>fori=1:3;tm=find(T==i);%求i类的对象tm=reshape(tm,1,length(tm));%变成行向量>>fprintf(’第%d类的有%s\n’,i,int2str(tm));%现实分类结果>>end程序输出:第1类的有11318第2类的有2345678910111216171920212224252627282930313233第3类的有141523即:第一类:北京,福建,湖南;第三类:江西,山东,四川;第二类:其它地区。
4.2选取7个指标的分类考虑到指标2与指标3,指标5与指标6具有一定的独立性,若七个指标体系全部取用,将33个地区分为4类,程序输入如下:>>symsxy;>>x=xlsread(’shuju.xls’);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%画聚类图(如图3所示)>>T=cluster(z,’maxclust’,4);>>fori=1:4tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有116第2类的有6710151927第3类的有23489111213141718202223242528第4类的有521262930313233即:第一类:北京,河南;第二类:辽宁,吉林,江苏,山东,广东,陕西;第四类:内蒙古,海南,,青海,宁夏,新疆,香港,澳门。4.3选取本科层次指标的分类只考虑本科层次取得的成绩,即选用指标1,2,3,对33个参赛地区进行聚类分析,从而明确掌握其本科阶段的差异,则有:输入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[4,5,6,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%画聚类图(如图4所示)>>T=cluster(z,’maxclust’,3);>>fori=1:3;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有11318第2类的有101115161719222327第3类的有2345678912142021242526282930313233即:第一类:北京,福建,湖南;第二类:江苏,浙江,山东,河南,湖北,广东,重庆,四川,陕西;第三类:其它地区。4.4选取专科层次指标的分类只考虑专科层次取得的成绩,即选用指标4,5,6,对33个参赛地区进行聚类分析,从而明确掌握其专科阶段的差异,则有:输入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[1:3,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);%画聚类图(如图5所示)>>h=dendrogram(z);>>T=cluster(z,’maxclust',4);>>fori=1:4;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有14第2类的有1523第3类的有41927第4类的有1235678910111213161718202122242526282930313233即:第一类:江西;第二类:山东,四川;第三类:山西,广东,陕西;第四类:其余各地区。
5结束语
国家统计局在其《中国信息能力报告》中,设计了一套评价我国信息化水平的指标:指标体系共分4级,有25个指标:①信息技术和信息设备应用能力:a.每千人拥有PC数;b.每千人拥有传真机数;c.每百人拥有电话数;d.每千人拥有电视机数;e.每千人拥有收音机数;f.每万人接入因特网用户;g.每百万人互联网上网主机数;h.每平方公里光缆长度;i.每百家企事业单位上网数;j.基础信息产业产值占GDP比重。②信息资源及开发利用能力:a.每户打国际电话时间;b.每百人期刊发行量;c.每日信息量;d.网络用户平均上网时间;e.每万人Web站点数。③人口素质:a.每万人平均科学家和工程师数;b.第三产业从业人数占就业总人口比重;c.大学入学率;d.每十万人在校学生数;e.计算机专家和工程师数。④国家对信息产业发展的支撑:a.信息产业产值占GDP比重;b.研究开发(R&G)支出占GDP比重;c.每主线电信投资;d.人均GNP;e.教育投入。
鉴于遵循数据的客观性和代表性,以及易得性,本文采取以下指标:每千人工业增加值x1;每千人电信业务量x2;每千人移动通信交换机容量x3;移动电话普及率x4;电话普及率x5;广播综合人口覆盖率x6;电视综合人口覆盖率x7;有线电视普及率x8;每十户宽带上网用占有户数x9;R&D经费支出占GDP比重x10;每十人从事科技活动人员总数占有的人数x11;每十人在校大学生人数占有的人数x12;每千人专利授权数占有数x13。其中缺省值用平均值代替或者临近年数内值代替。由于篇幅有限,指标数据省略。
2、因子分析
因子分析法是能够实现数据简化目的的有效方法之一。其基本思想是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,使不同组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。运用因子分析法,借助EXCEL多元统分析,对已得的指标数据进行分析处理,在处理过程中选取方差贡献比率为0.80。
按照方差贡献比率大于80%,应提取前四个因子,它们所解释的方差占总方差的84.58%,这四个因子就可以解释原始数据的大部分信息了。
分析结果中可以得到每个城市的四个因子得分情况F1,F2,F3和F4。最后,对28个城市的信息化水平进行综合评价并排序。以旋转后四个因子的方差贡献率为权数计算综合得分,计算公式为:F=0.5923F1+0.09957F2+0.0804F3+0.0736F4,最终可以得到所有城市的综合得分排名。
由于变量指标取值的同向性,得分越高代表信息化水平越高。排名依次为:北京,天津、广东、浙江、江苏、湖南、福建等等。
3、聚类分析
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法,在统计分析的应用领域已经得到了极为广泛的应用。其思路为:首先每个数据对象自成一类,并且计算各个类之间的“距离”或者相似性。然后每次将最相似的两类合并,合并后重新计算新类与其他各个类之间的距离或相似度。这一“凝聚”的过程一直继续直到所有对象都归为一类为止。利用各城市的因子得分,还可对28个城市进行分类,得分值相近的城市被认为具有较相似的属性。
4、结果分析
由所得到的聚类图可以看出,全国信息化水平基本上可以分为五类,北京,山西各成一类,从上面的综合水平排名可以看出,北京信息化水平处于全国领先地位,这首先归功于北京的地理位置和政治人文环境,其次结合因子得分矩阵,北京在因子1上的得分最高,而根据因子载荷矩阵可以看出,因子1在13个变量指标上的载荷系数都比较大,证明北京在城市信息化的各个方面都比较出色。山西的信息化综合水平排名第10,属于中等偏上的水平,在因子4上的得分较高,因子4在变量指标x1,x2上的载荷量较大,这正好符合山西是个煤矿大省的特征,通信电信比较发达繁荣。天津、广东、江苏、福建、浙江归为一类,这几个城市都是发达城市,信息化水平偏高,在每个指标上得分都比较平均。而河北、黑龙江、河南、江西、辽宁、吉林、湖北、湖南、安徽、山东、四川、海南、重庆可以归为一类,这几个城市由于地理环境、产业结构、人口众多等因素使得信息化水平中等偏下。最后一类,信息化水平偏下的一类包括:内蒙古、甘肃、青海、宁夏、广西、云南、和陕西,信息化水平底下源于经济发展水平不高、对于信息化认识薄弱以及对信息产业的投入不够。
5、政策建议
虽然我国信息化应用工作已取得了较大的成绩,但在发展的过程中还存在着一些问题和不足使信息化带动经济发展的优势难以更好地发挥与国外发达国家相比还有很大差距,就是同亚洲一些发展中国家(或地区)比较也存在不小的距离。当前,经济全球化、我国加入世界贸易组织和世界信息产业的新发展,都对我国信息化应用发展提出了新的要求,因此,我们应认真分析中国信息化水平现状,分析与国外信息化发展的差距,有效地针对问题和不足进行改进,正确地规划未来发展方向和应采取的对策。
对策和建议主要有:(1)加快有关信息化法律、法规的制定,确保应用中的可靠性和安全性(2)降低成本,普及大众。(3)加强信息化知识普及与培训力度。(4)加大国家对信息化投资力度缩小地区间差距。(5)加强信息资源建设,提高信息化服务质量与水平。(6)建立信息化数据采集系统和评价监测体系。
另外,由上文的分析,信息化水平测度的数据很不全面,在每个地区城市的报告中尚未包括有些信息化水平测度指标,比如说信息产业增加值占地区生产值的比重。完整的数据不仅可以帮助很好的测度信息化水平,同时可以鞭策及时发现问题,提出相应的解决办法,这对于提高信息化水平是必要的途径。
参考文献:
[1]张海永.基于因子分析和聚类分析的江苏省13个城市社会发展水平研究.西南民族大学学报·自然科学版,2007,(2).
[2]陈小磊,郑建明,万里鹏.信息化水平测度指标体系理论研究述评.图书情报知识,2006,(9).
[3]卢纹岱.SPSSforWindows统计分析.电子工业出版社(第三版),2006.480-483.
关键词:聚类分析算法 应用研究 算法描述
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)10-0143-01
聚类分析(Cluster Analysis)就是将一组物理事物或抽象对象按照某种聚类规则或检验度量函数标准划分不同聚集组别的过程,其中被划分的若干相对独立的组为一个类,是一种无监督的学习方法。聚类分析方法是数据挖掘技术中的数据分析普遍运用方法之一,其功能最终实现被研究数据按照相关聚类分析算法进行聚类,对聚类的事物对象,最终要达到相似度大的对象在同一个聚类群组中,相似度小的对象在不同的聚类群组中,从而归纳出聚类数据对象的特征性。聚类分析中的“类(Cluster)”就是一组相似度较高的数据集合。聚类分析能够将一组事物或数据按照聚类算法规则进行聚类处理,根据聚类算法规则的不同而实现各自侧重的聚类分析结果。
1 聚类分析算法
根据聚类对象数据类型的不同,聚类分析分为R型聚类和Q型聚类,R型聚类是对变量型数据的聚类分析,Q型聚类是对具体观测值数据的聚类分析。对数据对象的聚类分析要借助于聚类分析算法来实现完成,聚类分析算法的基本定义为:
目标数据集合,对于数据集合中的任一数据元素,具有个特征属性,任一数据元素的属性特征向量集表示为。通过特定的数据分析处理准则对目标数据集进行聚类处理后,目标数据集被划分成具有个子集的数据类集合,,聚类结果数据集必须满足:
根据聚类分析所采取分析方法的不同,聚类分析算法分为基于划分的聚类分析算法、基于层次的聚类分析算法、基于密度的聚类分析算法、基于网格的聚类分析算法、基于模型的聚类分析算法。
2 K―means聚类分析算法描述
对于给定包含个数据对象的数据集,按照标准偏移量的目标函数进行划分,形成K个聚类。具体操作过程为:
第一步:数据规范化处理。对数据对象进行规范化预处理,消除非法值及极值影响。
第二步:数据准备。计算各科标准差:
第三步:计算各初始聚类中心。
第四步:计算与聚类中心最近邻的数据对象,并合并成新类。
第五步:重新计算聚类中心值。
第六步:验证聚类收敛性。
if 聚类中心值o新变化
结束聚类 else 转入第四步 endif
第七步:进行各个类数据分析。
3 结语
总之,聚类分析算法是数据挖掘中一种常用算法,在数据挖掘过程中有很多算法,每种算法都有自己的优缺点,数据挖掘是一项极其复杂过程,一般情况我们都是多种算法结合起来一起应用,目的提高工作效率,提高数据挖掘的准确性,数据挖掘技术在我国应用领域比较广,并且取得一定成绩,在当今大数据时代,研究数据挖掘具有一定的现实意义,具有深远的研究价值。
参考文献
[1]吴多智.基于语义的手机类产品用户评论维度挖掘研究[J].安徽电子信息职业技术学院学报,2016(03).
[2]孙永辉.聚类分析在学生成绩分析中的应用[J].中国管理信息化,2016(06).
[3]巨晓璇,邹小斌,屈直,刘春敏.层次聚类算法在气象客户细分中的应用[J].河南科技,2015(11).
[4]许进文.数据挖掘中聚类分析算法及应用研究[J].计算机光盘软件与应用,2013(06).
[关键词] K-Means算法;卷烟零售户;库存聚类分析
[中图分类号] F272 [文献标识码] A
[文章编号] 1009-6043(2017)03-0128-02
Abstract: In order to accurately understand the market inventory and demand, reduce the pressure of business inventories, implement the on-demand supply to retailers and find out the common features of retailers groups, the study investigates their annual sales and inventory level. The customer can be divided into three categories based on the kmeans++ algorithm of Spark + MLlib and clustering analysis of collected the code data of cigarette sales by means of KMeans +. The appropriate classification results, and corresponding management strategy of sales and inventory, which provide decision support.
Key words: K-Means algorithm, cigarette retailers, inventory clustering analysis
一、前言
KMeans算法是聚类分析中的常用算法,它是数据划分或者分组处理的重要方式,目前在电子商务、生物科学、图像处理、Web文档分类等领域都得到了有效的应用,如许多文献利用KMeans进行聚类分析将客户细分特定的类型,同时根据其所属类别进行群组协同推荐。论文根据收集所得的卷烟销售扫码数据采用KMeans进行聚类分析,以期更为准确了解市场销售和库存情况,减小商业库存压力,实现对零售户M行按需供货,发现零售户群体共性特征,为制定合理的卷烟销售和库存管理策略提供决策支持。
二、实验平台选择
Spark是一个基于内存的分布式计算系统,是由UCBerkeley AMPLab实验室于2009年开发的开源数据分析集群计算框架,是BDAS(Berkeley Data Analytics Stack)中的核心项目,被设计用来完成交互式的数据分析任务。MLlib是建立在Apache Spark上的分布式机器学习库,Spark的机器学习有分类和回归、协同过滤、聚类、降维和特征提取和变换等[2]。Spark将分布式内存抽象成弹性分布式数据集(Resilient Distributed Datasets,RDD)。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,以便后续的查询能够重用,这极大地提升了查询速度[2]。故论文选择了Spark+MLlib作为K-means算法的运行平台。
三、卷烟零售户销售量和库存的聚类分析
(一)原始数据及数据预处理
烟草公司在以往的经营中产生了海量的柜台扫码交易数据,本文数据来自贵阳市红华烟草公司零售门店在2014年1月1日至2015年3月20日之间产生的柜台扫码销售及库存数据,共有2014年1月1日至2015年3月20日的1797371条销售数据,有销售码、执照-代号、交易时间、商品代号、交易数量、单价、交易金额、门店名等字段,265071条库存数据,有库存数量、日期、时间、门店名等字段。本实验通过spark集群计算出每个零售门店在2014年1月1日至2015年3月20日之间日库存量之和与日销售量之和,最终得到了各零售户的年销售量(单位:箱)和年库存量(单位:箱)。例如,零售户1的销售量(单位:箱)和年库存量(单位:箱)分别为18706箱和57705箱,在数据进入模型之前进行了标准化。
(二)实验过程、结果及分析
1.Spark MLlib对经典K-means算法的改进
经典K-means聚类算法有两个典型的缺陷:(1)聚类数K的值是预先给定的,未必就是最优解;(2)初始聚类中心是随机选择的,可能会得到一个局部最优聚类,具有较高的平方误差。
对于经典K-means聚类算法的上述缺陷,许多学者提出了不同的改进方法,本文通过计算不同聚类数K的轮廓系数来确定最优聚类数K,轮廓系数结合了聚类的凝聚度和分离度,用于评估聚类的效果。该值介于-1-1之间,值越大,表示聚类效果越好[8]。
对于初始聚类中心的选择,Spark MLlib采用了kmeans++算法,所谓kmeans++算法其实就是在进行标准kmeans优化算法之前执行一个初始化聚类中心的过程,其具体计算步骤如下[9]:
(1)在数据点中随机选择一个聚类中心。
(2)对于每个数据点x,计算x到已选出的所有聚类中心的距离的最小值D(x)。
(4)重复(2)和(3)直到选出K个聚类中心。
(5)执行标准的K-means聚类算法。
2.聚类数K的选取
轮廓线是一种簇内数据一致性的检验和解释的方法,轮廓系数值取值区间为[-1,1],它代表一个对象属于它所在组的合理的程度及属于临近组的不合理程度。当大多数对象都有一个比较高的轮廓系数值时,我们认为这个聚类效果很好。对不同的聚类数K,分别计算其聚类结果的轮廓系数,我们选取K=6来进行聚类。
3.聚类结果分析
下图给出了卷烟零售户销量和库存数据标准化后聚类分析的可视化结果,从图中可以看出,Kmeans很好的把零售门店区分开了,结果是比较合理的。
依据上述结果,烟草公司可以制定如下的销售优化策略。
(1)如图,参看12个X形点,21个下三角点和5个菱形点,该三类店面销量要明显低于其他三类,而菱形店面存量最多,说明供求关系最不紧张,记作六类店面,下三角形店面平均存量次之,记作五类店面,X形店面平均存量最少,记作四类店面。
(2)12个十字店面销量要明显高于上述三类,供求紧张度1.403也低于上述三类。
(3)相互比较5个圆点店面和11个上三角店面,前者的销量虽然高于后者,但前者的存量却远比后者充裕,因此相比于前者,后者更迫切地需要补充存货。
四、结论
本文根据收集所得的卷烟销售扫码数据采用KMeans+进行聚类分析,将客户分为三大类别,得到了较为合适的分类结果,同时,针对客户的三个类别,给出了相应的销售和库存的管理策略,论文的实践可以为卷烟销售和库存管理策略的制定提供决策支持。
[参 考 文 献]
[1]晁源.互联网思维下的卷烟消费跟踪方法探究[J].中国商贸,2015(24)
[2]黎文阳.大数据处理模型ApacheSpark研究[J].现代计算机(普及版),2015(3)
[3]陈虹君.基于Spark框架的聚类算法研究[J].电脑知识与技术,2015(4),武汉大学学报(理学版),2003,49(5):571-574
[4]唐振坤.基于Spark的机器学习平台设计与实现[D].厦门大学硕士论文,2014
[5]吴哲夫,张彤,肖鹰.基于Spark平台的K-means聚类算法改及并行化实现[J].互联网天地,2016(1)
[6]李彦广.LIYan-guang基于Spark+MLlib分布式学习算法的研究[J].商洛学院学报,2015(2)2000,892:29-46
[7]Feller W. An introduction to probability theory and its applications (3rd ed.)[M]. New York: Wiley, 1969
论文关键词:聚类分系,网络营销,策略,客户关系
0前言
现代科学技术的迅猛发展,特别是在互联网的应用和开发上更加的迅速,企业必须通过网络对自己的产品加强宣传以增强自己的竞争力。客户是一个非常重要的、有价值的重要资源,现在如何更好地从数据库中挖掘出客户中有价值的信息,更好的培植和经营与有价值客户的关系,抛弃那些无利可图没有发展前景而且营销费用高的客户,并且可以针对不同价值的客户给与不同的政策同时制定出个性化的营销策略,这些才能够保证企业的生存发展。对于这一切数据挖掘无疑是行之有效的好方法之一。本文以一个网络营销公司为例,提出了一套可操作性的对客户价值评价方法,然后使用数据挖掘技术中比较常见和常用的聚类分析算法对客户信息进行聚类从而达到非常重要的信息并为企业在网络营销中提供决策依据。
1聚类分析
聚类(clustering)是对于数据挖掘技术是非常重要的一部分,现在也是数据挖掘技术中关键的一种。聚类的意义就是针对物理或逻辑上的数据对象的进行自动分类,最后将数据对象分为多个类或簇的过程。对于聚类结果要使得数据对象在同一个分类中具有最大的相似度,而在不同的类中具有最小相似度。聚类的现实意义就是在于可以将数据按照一定得关系进行自动的分类,事先不知道所有的数据对象共有多少类,通过算法的处理最后得到一个分类结果进行应用。譬如在市场研究领域中,特别是针对网络营销的企业或网站,从大量的网络数据进行分析聚类,可以讲客户分成不同的类别,针对这些类别不同的购买力和兴趣爱好来进行个性化的营销手段,提高企业的经济效益。目前研究人员大多针对于聚类分析算法的改进和完善进行研究,进而提高聚类分析的工作效率。著名的算法有:CLARANS,BRICH,DBSCAN,CURE,STING,CLIGUE和WaveCluster等。
2聚类分析应用于企业客户资源管理
现针对某电子商务公司进行分析,该电子商务公司的客户分布在全国各地以及国外一些地区,现仅列出具有代表性的10个大客户:吉林,黑龙江,山东,江苏,浙江,安徽,湖南,缅甸,印度,南非等。在数据挖掘的目的就是从客户中找到一些共同点,在对这些客户数据进行处理前要使用聚类分析的方法进行研究看看这10个客户能否有一些共同之处以便企业针对不同类型的客户给与不同的对策,首先对该公司采用专家打分的方法,而且还有通过网上问卷调查和访谈的方式,收集各地销售专员的意见等方式,然后对数据加以综合,最后聚类分析法确定各项指标的权重。
那么在具体实施聚类分析法的时候可分为5个步骤进行:
第1步:首先对各项指数构建层次结构,其中被评定的10个大客户作为方案层,客户价值放在目标层中进行处理,各项指标是准则层,按照这样的分层结构来构造客户关系评价系统中个指数的结构图,见图2-1所示;
表2-1指标权重值表
指标
V
V
V
V
V
V
V
V
V
权重
0.0378
0.0401
0.0135
0.0161
0.0251
0.0060
0.0038
0.0091
0.0192
指标
V
V
V
V
V
V
V
V
V
权重
0.0381
0.1498
0.1721
0.0021
0.0201
0.0085
0.0053
0.0231
0.0701
指标
E
E
E
E
E
E
E
E
权重
0.0212
0.0312
0.0754
0.1841
0.0145
0.0510
【关键词】高压;聚类分析;特点;研究
1.引言
高压电缆是电力系统中重要的设备,由于其适合于地下走线方式在城市电网中得到了大量的应用,节约了大量的空间资源,然而由于地下潮湿等因素以及布线过程中人为的损坏都可能造成电缆绝缘层的损坏,在运行电压的长期作用下,可能造成局部放电的发生,如果得不到及时的处理,最终会导致电缆短路,从而引发停电事故,造成经济损失,所以,对电缆进行局部放电检测是必要的,基于此,文章分析了电缆局部放电的特点,然后根据聚类分析对放电进行了分析。
2.电缆局部放电信号传播特性仿真
在对电缆进行局部放电检测之前,需要对影响其局部放电信号传播特性的参数进行分析。为了得到其原理,我们假设其长度很长,同时由于电缆局部放电信号含有丰富的信息[7],其波长与线路长度相比非常短,因此在研究局部放电信号传播规律时,需要利用电缆的分布参数模型来分析[8],图1所示为电缆的分布简化模型。
图1 电力电缆的分布参数模型
图1中,R0、L0、C0、G0分别为电缆单位长度的电阻、电感、对地电容和对地电导,上这些基本参数决定了电缆中的相应特性[9-11]。结合上图,可以得到一个新的二次参数特性阻抗Zc,Zc表示均匀传输线上任一点的电压和电流之间的关系。
(1)
可见,这个公式就决定了相应的参数之间的关系。由于阻抗是一个复数,电压和电流的绝对值之比决定了其相对值;电压和电流的相位差决定了其幅值的大小,这个参数就可以反映出相应的特性参数。Zc重新表述为:
(2)
那么,|Zc|和就是其中所含有的信息。Zc反映了电缆上一点的特性[12]。对于脉冲信号来说,可以用传输常数来描述。在传输常数中,包含两个常数:固有衰耗常数和固有相移常数。固有衰耗常数反映了处于匹配连接的线路上[13],能量损耗方面的传输规律,固有相移常数则反映了信号传播过程中相位的变化。因此线路的传输规律可用式(3)表示,其中l是电缆的长度。
(3)
根据上述的分析,我们得到了如下的结论:
(1)由电缆的一次参数所决定,越大,就说明了信号的衰减会越大。
(2)小于1,那么,局部放电信号将会呈指数规律衰减,并且其衰减程度取决于电缆的长度,线路越长,衰减情况越严重。
式(3)中的反映的则是信号传输的相移,它影响的是局部放电信号的相位,并且随着信号频率的升高,、均随之增大。经过上述分析,可以看出:电缆长度越长,局部放电信号在传播过程中的衰减越严重。局放信号的频率越高,则与之对应的、也越大,即信号的幅度衰减及相位移动也越严重。
3.聚类分析
聚类是根据放电的性质不同,将具有相同性质的特征量进行聚合的算法。由于其具有直观的特点在许多领域得到大量的使用。基于聚类分析的工具已经被加入到许多统计分析软件包或系统中,如S-Plus、SPSS,以及SAS。总体说来,包括如下几个方面的内容:
(1)分化方法。假设一个数据集含有n个对象或数据行,相应的分化就是将数据集划分为k个子集(划分)。其中每个子集均代表一个聚类(k[n])。
(2)层次方法。该方法就是通过分解所给定的数据对象集来创建一个层次。它存在的缺陷就是在进行(组)分解或合并之后无法回溯。将循环再定位与层次方法结合起来使用常常是有效的,如BIRCH和CURE,就是基于这种组合方法设计的。
(3)基于密度的方法。只要临近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。DBSCAN是一个有代表性的基于密度的方法。它根据一个密度阈值来控制簇的增长。
(4)基于网格的方法。基于网格方法将对象空间划分为有限数目的单元以形成网格结构。其主要优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。STING就是一个典型的基于网格的方法。
(5)基于模型的方法。该方法就是为每个聚类假设一个模型,然后再去发现符合相应模型的数据对象。它根据标准统计方法并考虑到噪声或异常数据,可以自动确定聚类个数;因而它可以产生很鲁棒的聚类方法。数据挖掘在不同领域对聚类算法提出了各自特殊的要求。
定义:数据对象i与j的相异度为。其中,dijk2是第k个值距离的平方,对每个变量根据其重要性赋予一个权重,运用加权的欧几里得距它决定第k个值的重要性。根据局部放电的特点,可以得到相应的聚类效果。聚类分析也可以进行孤立点的分析。经常存在一些数据对象,它们不符合数据的一般模型,这些数据对象被称为孤立点。
结合实地的电缆局部放电特性,根据聚类方法,得到了如下的结果:
表1 最终的判断结果
故障类型 训练样本 测试样本 正确率(%)
1 50 100 81.13
82.31
83.61
84.15
2 50 100
3 50 100
4 50 100
图2 电缆局部放电聚类分析流程图
图3 聚类分析结果
4.结论
电缆是电力系统中重要的电气设施,文章根据电缆局部放电的相关特点,结合聚类分析法对其放电进行了分析,取得了一定的成果,对现场具有一定的指导意义。
参考文献
[1]谈克雄,吕乔青.交联聚乙烯电缆绝缘的在线诊断技术[J].高电压技术,1993,19(3):71-75.
[2]马丽婵,郑晓泉,谢安生.交联聚乙烯电缆中电树枝的研究现状[J].绝缘材料,2007,40(5):49-52.
[3]Yang J J,Brilasekaran S.Characteristic features of electrical treeing in XLPE and PE[C].The 7th International Power Engineering Conference,IPEC,2005:1-34.
[4]Yang J J,Zhang D M.Partial discharge phenomena due to electrical treeing in XLPE[C].1st IEEE Conference on Industrial Electronics and Applications,2006:1-6.
[5]李伟新.交联聚乙烯电缆在线监测系统在厦门的应用[J].福建电力电工,2001,21(2):49-51.
[6]韦斌.110kV高压XLPE电缆附件局部放电在线监测与故障特性的研究[D].北京:华北电力大学硕士学位论文,2004.
[7]刘兵.基于行波电力电缆故障单端在线测距研究[D].武汉:武汉大学硕士学位论文,2002.
[8]杨建国.小波分析及其工程应用[M].北京:机械工业出版社,2005.
[9]张国华,张文娟.小波分析与应用基础[M].西安:西北工业大学出版社,2006.
[10]刘贵忠,邸双亮.小波分析及其应用[M].西安:西安电子科技大学出版社,1992.
[11]黄子俊,陈允平.基于小波变换模极大值的输电线路单端故障定位[J].电力自动化设备,2005,25(2):101-102.
[12]华欣.电气设备绝缘在线监测刍议[J].四川电力技术,2001,2:49-52.
【关键词】GT4;Web Service;聚类分析
1.引言
计算机网络技术的普及与应用给人们的生活带来了翻天覆地的变化,同时在网络上产生了大量杂乱无章的数据。而网格技术、Web技术的发展,为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持,同时也产生了许多基于网格的数据挖掘系统。而数据挖掘算法又是决定一个数据挖掘系统性能的主要衡量指标。任何软件系统的设计都离不开算法,数据挖掘技术的执行效率也与数据挖掘算法有关,随着数据库技术与数据挖掘技术的成熟与发展,像分类、聚类、决策树、关联等等数据挖掘算法已相当成熟,可以研究借鉴现有数据挖掘方法、数据挖掘模式、数据挖掘流程,建立一个基于网格的数据挖掘系统。笔者以众多数据挖掘算法中的聚类分析算法为例,介绍基于GT4(Globus Tookit 4.0的简称,GT4的核心开发工具包(Java Web Service Core))的数据挖掘算法的设计过程。
聚类分析(Clustering Analysis)是一个应用比较广泛的数据挖掘算法,算法的理论研究与实践应用都已经很成熟,把这一成熟的理论应用于基于网格的分布式系统中,会大大提高数据挖掘的效率。本文主要研究如何将聚类分析的CURE(Cluster Using Representation)算法和K-平均方法算法应用于基于GT4数据挖掘系统中。
2.系统结构设计
基于GT4数据挖掘系统的数据源是分布式数据源,分布式数据源是指在物理上分布而逻辑上集中的数据源系统。在该系统中,处在这个网格中的每台计算机就是这个网格的一个节点,称之为网格节点。在众多的节点中,要有一个网格节点来控制和管理其他的节点,这个节点就叫做网格中心控制节点,决策支持都是由网格中心控制节点完成的。如果要完成某个数据挖掘任务,则可以由空闲的网格节点先按挖掘需求来完成本节点的挖掘任务,再由网格中心控制节点来汇总每个节点的数据挖掘情况。局部网格节点管理的信息具有局限性,涉及的范围较小,主要完成单个节点数据的管理,对局部的数据挖掘结果进行汇总分析,但是这些局部节点的数据与全局节点的数据又是有一定关联的。根据以上的分析可知,网格平台下的数据挖掘任务由全局数据挖掘与局部数据挖掘共同完成。
3.算法的Web Service设计
3.1 全局聚类算法的Web Service设计
网格环境下的全局控制网格节点与局部网格节点间的关系我们可以理解为上下层的关系,这样就可以借鉴基于层次的聚类分析算法,按照层次的自底向上的聚类方式,把全局控制节点当成是层次聚类的顶层。本课题全局聚类算法借鉴传统的利用代表点聚类算法CURE。
CURE算法将层次方法与划分方法结合到一起,选用有代表性的、固定数目的空间点来表示一个聚类。算法在开始时,每个点都是一个簇,然后将距离最近的簇结合,一直到簇的个数为要求的K。首先把每个数据点即局部网格节点看成一个聚类,然后再以一个特定的收缩因子向中心收缩它们。
CURE算法的主要执行步骤如下:
(1)从数据源样本对象中随机抽取样本集,生成一个样本集合S;
(2)将样本集合S分割为一组划分,每个划分大小为S/p;
(3)对每个划分部分进行局部聚类;
(4)通过随机采样剔除聚类增长太慢的异常数据;
(5)对局部聚类进行聚类,落在每个新形成的聚类中的代表性点,则根据用户定义的收缩因子收缩或移向聚类中心;
(6)用相应的标记对聚类中的数据标上聚类号。
有了数据挖掘算法,就可以完成数据挖掘任务了。全局聚类算法的主要功能是响应用户的数据挖掘请求,将对应的请求发送给局部网格节点,将局部网格节点的挖掘结果整理输出。全局聚类算法Web Service资源的结构包括算法Web Service接口、算法资源属性文档、算法功能实现和算法功能四个部分。
利用传统的聚类算法完成全局的数据的并行挖掘最重要的一步就是将全局聚类算法部署到GT4中,完成全局聚类算法的Web Service设计要经过过以下几步:
第一步:用WSDL(Web Service描述语言,是Web Service提供的XLM语言)来描述数据挖掘服务接口,该服务接口可以用Java来定义,利用Java-to-WSDL工具把Java定义的接口转为WSDL文件。
第二步:用Java编写全局聚类算法(CURE)代码;
第三步:用WSDD配置文件和JNDI(GT4自带文件)部署文件;
第四步:用Ant工具打包上面的所有文件,生成一个GAR文件;
第五步:向Web Service容器部署全局数据挖掘服务。
3.2 局部聚类算法的Web Service设计
局部聚类算法的主要功能是完成局部网格节点的数据挖掘任务,并把数据挖掘结果上传到全局控制节点。局部网格节点的数据挖掘任务与传统的单机数据挖掘任务类似,本课题局部聚类算法使用传统的聚类算法K-平均方法,以K为参数,把N个对象分为K个簇,簇内具有较高的相似度,而簇间的相似度较低[34]。本论文的数据挖掘任务主要是由局部网格节点实现的,下面就详细的介绍K-平均算法的主要执行过程如下:
(1)从数据集中任意选择K个对象作为各个簇的初始中心。
(2)根据现有的簇中心情况,利用距离公式计算其他对象到各个簇中心的距离。(可选的距离公式有:欧几里、行德公式、距离公式、曼哈坦距离公式、明考斯基距离公式)。
(3)根据所得各个对象的距离值,将对象分配给距离最近的中心所对应的簇。
(4)重新生成各个簇的中心。
(5)判断是否收敛。如果收敛,即簇不在发生变化,那么停止划分,否则,重复(2)到(5)。
K-平均算法是一个经典的聚类算法,将K-平均算法部署到GT4中,完成局部聚类算法的Web Service设计,部署方法与全局算法相似。
4.结论
基于GT4的数据挖掘系统中的数据挖掘服务资源有网格的中心控制节点(即全局节点)进行统一的管理,在局部网格节点挖掘过程中,根据其处理能力分配最佳的数据集给局部节点,从而使整个系统的计算负载相对均衡。其数据挖掘系统的规模可随着服务的多少动态伸缩。当系统要增加新的局部挖掘节点时,只需部署局部Web Service资源即可。将网格应用到分布式数据挖掘系统中,建立一个基于网格的数据挖掘系统,必将使其在各个领域都得到广泛的应用。
参考文献
[1]薛胜军,马廷淮,刘文杰.Globus Tookit 4:Java网格服务编程[M].北京:清华大学出版社,2009.
[关键词] 主成分分析聚类分析物流园区功能定位
一、引言
近年来,我国物流业发展迅速,物流园区作为物流发展中的一个重要节点,作用日益突出,各个地方纷纷兴起建设物流园区的。据不完全统计,目前全国至少有20多个省市和30多个中心城市政府制定了区域性物流发展规划和政策,还有数不胜数的城市、乡镇甚至街道办事处都要发展物流园区。各个地区物流园区的盲目建设致使物流园区规划建设中存在功能定位不清、盲目攀比、变相圈地等现象。
2004年国务院针对各地由于纷纷盲目建设物流园区出现的不少问题决定将物流园区列入整顿范围。今后的物流园区建设将进入冷静、科学和多元化发展阶段。在全国各地区、 部门和行业分割的管理下,为了防止物流园区在各地布局结构趋同及资源重复配置,有必要对物流园区作更高层次的统筹规划,以实现区域内物流园区的协调发展。
本文针对各地物流园区建设中存在的功能定位不清,资源重复建设等问题,试图从宏观层面通过对物流园区依托地区的条件分析,以及对各有关地区的横向比较研究,确定物流园区宏观布局载体的层次结构体系,判断某地区适宜建设的物流园区层级,对物流园区的空间类型进行合理划分,进而对物流园区进行合理定位。为此,借助主成分和聚类分析方法,通过使用多个经济指标,实现物流园区空间类型划分,以期望对我国的物流园区建设提供一定的指导与借鉴作用。文中选取泛珠三角地区进行实证分析。
二、物流园区空间类型及功能
物流园区空间类型是指物流园区的空间层次类别。物流园区空间层次主要是指物流园区空间布局体系中的层次等级问题。物流园区的层次定位主要取决于其在整个物流服务网络中的地位和作用。根据物流园区主要空间服务地域层次可以将其划分为国际性物流园区、区域性物流园区和城市性物流园区。其布局的空间层次关系如表2.1所示。
对物流园区宏观空间布局层次的划分主要是对其载体层次的划分。分析物流园区宏观布局层次类别,主要是判断作为其宏观布局载体的省区和城市能够建设的最高级别物流园区种类情况。物流园区空间布局载体主要分为如下3个层次类别。
上层为国际枢纽型物流园区载体城市,也可称为物流中心城市,该类城市具有良好的经济发展水平和优越的交通区位优势,建有或具备条件建设国际枢纽型物流园区,其物流服务辐射范围广,物流相关作业规模大。
中层为区域集散型物流园区载体城市,该类城市具有较好的经济发展水平和较好的交通区位优势,建有或具备条件建设区域集散型物流园区,其物流服务辐射范围一般在本区域内。在物流园区布局层次体系中,此类城市主要承担联结上下两类层次城市的功能。
基层为物流本地生成城市,该类城市是物流服务的本源需求地和最终消费地,因此每个地级城市一般都需要建设本地配送型物流园区。此外,随着区域经济一体化的发展,城市群作为空间经济体系不断出现,应当考虑在密集的城市群间规划布置公共的配送型物流园区。
三、主成分分析与聚类分析在泛珠三角物流园区功能定位中的应用
1.主成分分析及聚类分析基本原理
主成分分析(Principal Component Analysis)是多元统计分析中一种重要的方法,用来考察多个定量(数值)变量间的相关性。在多指标(变量)的研究中,由于变量的个数较多,并且彼此之间存在一定的相关性,因而使得所观测的数据在一定程度上反映的信息有所重叠,而且当变量较多时,在高维空间中研究样本的分布规律及特征比较麻烦。它是研究如何通过少数几个主分量(即原始变量的线性组合)来解释多变量的一种方差-协方差结构。主成分分析的应用使问题得到简化,即采用降维的方法找到几个综合因子来代表原来众多的变量,使这几个综合因子尽可能反映原来的信息,而且彼此之间不相关。
聚类分析(Cluster Analusis)是统计学所研究的“物以类聚”问题的一种方法,它属于多变量统计分析的范畴。它是一种建立分类的方法,能够将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。这里,一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性。在分类过程中,不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。
2.主成分分析与聚类分析在泛珠三角物流园区功能定位中的应用
“泛珠三角区域合作与发展论坛”的举行,标志着包括华南九省区以及港澳两个特别行政区的泛珠三角合作全面启动。目前,泛珠三角区域正在协力打造全中国最为庞大的一体化产业带、交通网以及信息流,在发展物流业的过程中,泛珠三角区域各大城市应根据各自的产业布局,以及优势,实行对物流产业的合理定位与规划,进而达到各城市在物流基础设施的规划和布局方面要相互协调发展的目标。本文利用主成分及聚类分析法,对泛珠三角各省区的物流业进行综合分析,对各省区的物流园区空间类型进行科学定位,从而得出各省区适宜建立的物流园区层级。
(1)评价指标的选取。建立分类指标体系的目的是为了对物流园区宏观布局载体样本进行分类研究,在进行物流园区空间布局载体分类指标体系的选取时,建立科学合理的指标体系关系到分类结果的正确性。因此,在选择指标体系时,应充分考虑各种因素的影响,然后选择出影响较大的因素和条件进行分析。
本文从研究的总目标出发,采用系统分析的方法,结合物流园区与其空间载体的相互关系,注意空间载体对不同层次类别物流园区的适应性,建立一个系统完整、有机可行的评价指标体系。采用频度统计法、理论分析法和专家咨询法以满足指标选择的各项原则。本文选取GDP(X1)、人均GDP(X2)、GDP增长率(X3)、居民消费水平(X4)、工业总产值(X5)、工业增加值(X6)、社会消费品零售总额(X7)、交通运输仓储及邮电通信业(X8)、批发零售贸易业总额(X9)、制造业总额(X10)、实际利用外资额(X11)、进出口总额(X12)、外商投资企业数(X13)、社会货运量(X14)、铁路货运量(X15)、公路货运量(X16)、水路货运量(X17)、铁路网密度(X18)、公路网密度(X19)、公路货物平均运距的倒数(X20)、地理区位(X21)、是否为全国通枢纽规划城市(X22)等22项指标。
(2)主成分分析结果。以泛珠三角区域内9个省区为研究对象(考虑到数据的可得性,以及香港和澳门的特殊地位,文中未将两个特区纳入研究范围),将9个省区的22项指标用主成分法进行分析,得到22个主成分。根据累计方差贡献率超过85%的原则,提取前5个主成分作为第一、第二、……第五主成分,其累计方差贡献率达98.064%(见表2)。这说明前5个主成分已提供了全部原始数据的98.064%的信息。
(3)聚类分析结果。根据主成分的计算方法,得到各主成分的特征向量,根据各主成分特征向量,计算前5个主成分的标准得分系数,将主成分的得分系数代替原始指标进行聚类分析。利用统计软件SPSS12.0中的系统聚类方法,对9个省份进行R型聚类,即对个案聚类,得到聚类结果,如图所示。
(4)泛珠三角区域物流园区空间类型定位。通过对各省区的聚类分析,从图可以看出,泛珠三角地区物流园区空间类型可分为3类,广东为一类,江西和湖南为一类,福建、广西、贵州、海南、四川和云南等5省为一类。
结合实际可见,聚类分析的结果较符合实际。这3类都有各自的特点:
①广东省是泛珠三角地区重要的交通枢纽,港口、机场和陆路交通十分发达,省区内多种运输方式骨干线网交汇,工业商业、宏观环境、经济发展等优势明显,发展物流所依托的各方面资源都很好,因此,广东省具备建成国际枢纽型物流园区的条件,广东省在泛珠三角地区处于物流园区空间布局的最高层次,是物流园区布局的1类地区。
②江西和湖南两省在泛珠三角地区中除广东省外地区实力较强的省区,发展物流的综合实力比较突出,因此,这两个省份适于建成区域集散型物流园区,是物流园区空间布局的2类地区,适宜建成跨省区区长途运输和省区城市间配送体系的转换枢纽,承担周边省区与城市物流的集散功能。
③福建、广西、贵州、海南、四川和云南5省发展物流的实力较弱,属于物流园区空间布局的3类地区,即物流本地生成城市,适于建成城市型物流园区,主要保障商贸与城市生产,承担各自省区的物流配送业务。
四、结语
文中选取反映物流业发展的22项指标,通过主成分分析法,建立主成分模型,在主成分分析的基础上进行聚类分析,以主成分得分系数代替原始指标进行聚类,在聚类分析时,用多种聚类方法进行分析,聚类结果较为一致,这表明将主成分与聚类分析法相结合,可有效避免原始指标间存在相关性造成聚类偏差,聚类结果较为客观准确。
本文在分析泛珠三角区域物流业发展的基础上,为了合理对泛珠三角区域内各省区的物流园区进行定位,首先从宏观层面,采用聚类分析法分析泛珠三角范围内各省区的物流园区的空间类型,然后,从微观层面,在确定各省区物流园区空间类型的基础上,对各省区的物流园区功能进行定位,分析的结果较符合客观实际。在目前物流园区建设热中,可将该方法应用在确定全国物流园区的宏观空间布局规划中,通过分析全国物流园区空间类型,以便提高物流园区规划建设的决策科学性,避免和减少极易出现的盲目投资和重复建设。
参考文献:
[1]汪鸣:宏观调控环境中物流的收获与期待――2004年我国物流发展综述[J].综合运输,2005
[2]王庭建:物流园区及其建设发展研究[J].物流科技,2005,28(114)
[3]张晓东:物流园区布局规划理论研究[M].北京:中国物质出版社,2004
[4]薛薇:SPSS统计分析方法及应用[M].北京:电子工业出版社,2004
一、论文的研究内容
论文的研究内容包括两个方面:一是研究新的高效的聚类算法;一是把已有的聚类算法或论文提出的新算法和入侵检测技术相结合,从而提出一个好的入侵检测模型。具体的研究内容包括以下几个点:
第一、针对聚类算法的研究问题:
1、如何提高算法的可扩展性
许多聚类算法在小于200个数据对象的小数据集上是高效率的,但是无法处理一个大规模数据库里的海量对象。现有的聚类算法只有极少数适合处理大数据集,而且只能处理数值型数据对象,无法分析具有类属性的数据对象。
2、如何处理离群点
在实际应用中,估计数据集中的离群点可能是非常困难的,很多算法通常丢弃增长缓慢的簇,这样的簇趋向于代表离群点。然而在某些应用中,用户可能对相对较小的簇比较感兴趣,比如入侵检测中,这些小的簇可能代表异常行为,那么我们需要考虑在对算法影响更小的前提下,如何更好的处理这些离群点。
3、研究适合具有类属性数据的聚类算法的有效性
对聚类分析而言,有效性问题通常可以转换为最佳类别数K的决策。而目前有关聚类算法的有效性分析,大都集中在对数值数据的聚类方式分析上。对于具有类属性的数据聚类,还没有行之有效的分析方法。
第二、针对聚类算法在IDS应用中的研究问题:
1、如何结合聚类技术和入侵检测技术取得更好的效果
很多的聚类算法都已经和IDS应用环境结合起来了,很多研究者对前人提出的算法作出改进后,应用到IDS系统中去,或者提出一个全新的算法来适应IDS的要求。随着聚类技术的不断发展,聚类技术在入侵检测中的应用将是一个很有前景的工作。我们需要把更好的聚类技术成果应用到入侵检测中。
2、利用聚类技术处理入侵检测中的频繁误警
虽然入侵检测是重要的安全措施,然而它常常触发大量的误警,使得安全管理员不堪重负,事实上,大量的误警是重复发生并且频繁发生的,可以利用聚类技术来寻找导致IDS产生大量误警的本质原因。
二、学位论文研究依据
学位论文的选题依据和研究意义,以及国内外研究现状和发展趋势
聚类分析研究已经有很长的历史,其重要性及其与其他研究方向的交叉特性已经得到了研究者的充分肯定。对聚类算法的研究必将推动相关学科向前发展。另外,聚类技术已经活跃在广泛的应用领域。作为与信息安全专业的交叉学科,近年来,聚类算法在入侵检测方面也得到大量的应用。然而,聚类算法虽取得了长足的发展,但仍有一些未解决的问题。同时,聚类算法在某些应用领域还没有充分的发挥作用,聚类技术和入侵检测技术结合得还不够完善。在这种背景下,我们认为,论文的选题是非常有意义的。
本论文研究的内容主要包括两个方面:聚类算法的研究以及聚类算法在入侵检测中的应用。下面从两个方面阐述国内外这两个方面的发展现状和趋势:
前人已经提出很多聚类算法,然而没有任何一种聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,根据数据在聚类中的积聚规则以及应用这些规则的方法,可以将聚类算法分为以下几种:
1.划分聚类算法
划分聚类算法需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,得到最终的聚类结果,划分聚类算法典型代表是k-means算法[1]和k-modoids算法。这些算法处理过程简单,运行效率好,但是存在对聚类数目的依赖性和退化性。迄今为止,许多聚类任务都选择这两个经典算法,针对k-means及k-modoids的固有弱点,也出现了的不少改进版本。
2.层次聚类算法
又称树聚类算法,它使用数据的联接规则,透过一种层次的架构方式,反复将数据进行分裂和聚合,以形成一个层次序列的聚类问题解。由于层次聚类算法的计算复杂性比较高,所以适合于小型数据集的聚类。20xx年,Gelbard等人有提出一种新的层次聚合算法,称为正二进制方法。该方法把待分类数据以正的二进制形式存储在二维矩阵中,他们认为,将原始数据转换成正二进制会改善聚类结果的正确率和聚类的鲁棒性,对于层次聚类算法尤其如此。Kumar等人[9]面向连续数据提出一种新的基于不可分辨粗聚合的层次聚类算法,既考虑了项的出现次序又考虑了集合内容,该算法能有效挖掘连续数据,并刻画类簇的主要特性。
3.基于密度-网格的聚类算法
与传统的聚类方法不同:基于密度的聚类算法,通过数据密度来发现任意形状的类簇;基于网格的聚类算法,使用一个网格结构,围绕模式组织由矩形块划分的值空间,基于块的分布信息实现模式聚类,基于网格的聚类算法常常与其他方法相结合,特别是与基于密度的聚类方法相结合。基于网格和密度的聚类方法在以空间信息处理为代表的众多领域有着广泛的应用。特别是伴随着近来处理大规模数据集、可伸缩的聚类方法的开发,它在空间数据挖掘研究子域日趋活跃。
开题报告研究方法大全
实证研究法
实证研究法是科学实践研究的一种特殊形式。其依据现有的科学理论和实践的需要,提出设计,利用科学仪器和设备,在自然条件下,通过有目的有步骤地操纵,根据观察、记录、测定与此相伴随的现象的变化来确定条件与现象之间的因果关系的活动。主要目的在于说明各种自变量与某一个因变量的关系。
定量分析法
在科学研究中,通过定量分析法可以使人们对研究对象的认识进一步精确化,以便更加科学地揭示规律,把握本质,理清关系,预测事物的发展趋势。
定性分析法
定性分析法就是对研究对象进行质的方面的分析。具体地说是运用归纳和演绎、分析与综合以及抽象与概括等方法,对获得的各种材料进行思维加工,从而能去粗取精、去伪存真、由此及彼、由表及里,达到认识事物本质、揭示内在规律。
关键词:信息资源管理;模糊聚类分析;钢铁企业信息资源管理
中图分类号:F272 文献标识码:A 文章编号:1001-828X(2012)10-00-02
一、引言
随着信息技术的不断发展,信息资源和物质、能量等资源一样,已成为企业发展的重要资源。对于钢铁企业来说,钢铁企业的信息资源管理是整个钢铁行业信息化的重要组成部分。如何衡量钢铁企业信息资源发展的程度和水平,就必须对企业信息资源管理水平进行测度和评价。本文首先建立了钢铁企业信息资源管理水平指标体系,然后利用模糊聚类分析法对河北省6家钢铁企业的信息资源管理水平进行了聚类分析和实证研究。
二、钢铁企业信息资源管理水平评价的指标体系
建立钢铁企业信息资源管理水平评价指标体系时,主要考虑人员素质、基础设施建设、经费投入等方面的因素。经过与钢铁行业的专家探讨,同时结合钢铁企业的实际情况,形成了能系统地描述钢铁企业信息资源管理水平的指标体系。其中一级指标包括:信息资源管理的应用状况、基础设施、人员素质、效益指数、信息安全的投入等因素。二级指标结合钢铁企业的实际情况,主要包括:信息化投入占固定资产比率、每百人计算机拥有量、计算机联网率、ERP系统的普及程度、企业门户网站建设水平、信息化人才指数、信息化技能普及程度、信息安全的投入占全部信息化投入的比例、信息化安全措施应用率、资金运转效率、利润增长比率等因素。钢铁企业信息资源管理水平评价的指标体系如下图所示。
图1 铁企业信息资源管理水平评价的指标体系
三、钢铁企业信息资源管理水平评价方法
1.聚类分析法
聚类分析法是多元统计分析的一种方法。它的基本思想就是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲属关系的谱系图,依次按照某些要求对样品(或变量)进行分类。本文采用模糊聚类分析法,把模糊理论和聚类分析理论结合起来进行分析。模糊聚类分析法的步骤如下:
(1)选择被评价的对象,构成论域U= ,其中ui表示样本数据,Xij表示各指标的数据。
(2)原始数据标准化。要构造模糊关系矩阵,必须对样本数据进行处理,使样本数据压缩到[0,1]范围内,首先求出n个样本的第j个指标的平均值和标准差。
n个样本的第j个指标的平均值为:;n个样本的第j个指标的标准差为:;原始数据标准化值为:;运用极值标准化公式,将标准化数据压缩到[0,1]区间内,,其中与分别表示中的最大值和最小值。
(3)采用绝对值减数法建立相似矩阵。
其中c为适当选取数,使得 。
(4)确定模糊等价关系矩阵。即自乘得,再自乘,直到为止,则便是一个模糊等价关系矩阵。
(5)求并进行聚类,其中。
(6)根据实际需求确定值,得出论域的分类情况。
2.实证分析
本文对河北省多家钢铁企业的信息资源管理情况进行调查,选择了其中具有代表性的6家企业作为评价对象。这6家企业分别为河北敬业钢铁有限公司(A),河北省首钢迁安钢铁有限责任公司(B),河北钢铁集团宣钢公司(C),河北钢铁集团邯钢公司(D),唐山国丰钢铁有限公司(E),唐山钢铁集团有限责任公司(F)。
(1)确定论域。选择6家企业作为评价对象,构成论域U,即。根据实际调查情况得到各企业的指标体系的数据,如下表所示:
原始数据标准化处理,如下表所示:
运用极值标准化公式,将标准化数据压缩在[0,1]区间内。
(2)建立模糊相似矩阵。采用绝对值减数法,建立其模糊相似矩阵R,其中c=0.1;
(3)建立模糊等价矩阵。这里采用平方法计算传递闭包,将模糊相似矩阵自乘可得如下结果:
,即为模糊等价矩阵。
(4)聚类分析。得到模糊等价矩阵后,通过分析,这里选取截取水平
,对样本进行模糊聚类。
根据模糊统计的结果,把6家企业分为四类:Ⅰ类,Ⅱ类,Ⅲ类,Ⅳ类,Ⅰ类企业的信息资源管理水平最高;Ⅱ类企业的信息资源管理水平较高;Ⅲ类企业的信息资源管理水平较一般,Ⅳ类企业的信息资源管理水平较差,需要进一步改进,分析结果与实际情况相一致。
四、结论
当前对钢铁企业信息资源管理水平综合评价研究的论文较少,本文采用定量和定性的分析方法对钢铁企业信息资源管理水平进行了探讨。首先提出了钢铁企业信息资源管理水平综合评价的指标体系,然后采用模糊聚类分析方法对河北省6家钢铁企业的信息资源管理水平进行了聚类分析。研究结果不仅对河北省钢铁企业的信息资源管理有重要意义,而且对我国钢铁企业的信息资源管理水平也有一定的指导作用。
参考文献:
[1]孟广均.信息资源管理导论[M](第2版).北京:科学出版社,2003:80-90.
[2]李金云.基于模糊聚类分析法的读者满意度测评研究[J].情报探索,2009(05):7-10.
[3]高新波.模糊聚类分析及其应用[M].西安:西安电子科技大学出版社,2004:60-70.
[4]齐莉丽.企业信息资源管理水平评价研究[J].科技进步与对策,2005(01):50-5l.
[5]张贵荣.企业信息化与信息资源管理[J].情报科学,2004(06):687-689.
[6]于嘉.企业信息资源管理探析[J].大学图书情报学刊,2008(10):30-33.
关键词:计量分析 方言 定性分析
中图分类号:H07 文献标识码:A 文章编号:1003-9082(2016)08-0374-01
方言关系计量分析结合计算机信息处理功能和统计学方法,可用于共时方言亲疏关系、历时方言亲缘关系、方言分区和方言沟通度等研究。其历史可以追溯到上个世纪五六十年代流行的历史语言学分支――语言年代学,创始人是斯瓦迪士。而后,施莱赫尔受达尔文生物进化论的启示,在语言学中最早使用谱系树图来表示语言的分化情况。
20世纪70年代起,方言学界就有学者运用计量分析法研究汉语方言分类问题,比如:郑锦全(1973)利用阴调和阳调的不同调高计算汉语方言差异,陆致极(1986)对闽方言内部差异程度及分区进行了计算机聚类分析。此后,汉语方言关系计量研究先后出现了一些颇有影响的文章和专著:《汉语方言间亲疏关系的计量描写》(陆致极1987),《汉语方言亲疏关系的计量研究》(郑锦全1988),《比较方言学中的计量方法》(马希文1989),《方言关系的计量研究》(王士元、沈钟伟1992),《谈汉语方言的定量研究》(沈榕秋1994),《聚类分析在汉语方言研究中的运用》(项梦冰2015)。郑陆二人通过各方言词汇的对比排列和古音在现代各方音里分化状况的排列,使用“皮尔逊相关”(Pearson)和“非加权平均系联法”(Non-weighted)来计算出词汇、声母、韵母、声调等变量之间的相关系数,并用树形图显示出它们的亲疏关系。郑锦全(1988)采用了平均系联法(Group-average clustering),马希文(1989)介绍了最短系连法(Minimun spanning tree)和主分量分析法(Principal components analysis),并用这些方法对郑锦全的相关系数作了分析。王士元、沈钟伟(1992)提出了分词目计算的方法和计算方言间相关系数的Jaccard计算法公式。总的来说,过去的研究成果首先确立了计量分析法在汉语方言关系研究中的地位和作用,也明确了计量分析在汉语方言关系比较研究中所需要的材料、计量单位以及步骤和方法,同时也讨论了相关系数的计算问题和尝试了不同计量方法的实践研究。
可以看出,用计量分析法研究汉语方言关系可以在一定程度上弥补以往“方言特征比较法”的主观局限性,可以从数据上直观地看出方言之间的相关系数。李如龙(2001):“共时的分类有时应该以一定的数量为界线的,量是区分不同质的依据;历时的演变则往往是量变的积累引起质变的飞跃。这便是现代系统十分重视计量研究的原因。研究语言时重视计量研究这是现代的汉语研究工作的一大进步,但是这种方法还没有得到应有的推广。”
但是不是说定量分析就能解决所有问题,计量分析的结果可以和描写比较的定性分析相结合,使得研究更具精密性和科学性。正如马希文(1989)提到:“数理统计方法所做出的分析总是带有随机性的,不能把它和理论的、逻辑的分析同样看待。在理论研究的预备阶段,统计方法可以用来整理数据,以求发现规律性的东西。在理论研究暂时做不到定量化的阶段,统计方法可以用来作为理论研究的补充。好的、合理的统计方法应该根据理论研究的成果来设计,在反复尝试中逐步确立下来。”项梦冰(2015)也指出:“聚类分析虽然可以给汉语方言研究中的分类工作提供重要的参考,但倘若奉之为圭臬则未免失于偏颇。恰当的分类常常需要在综合考虑各种因素之后在定性和定量之间取得平衡。”
目前,用计量方法研究方言的关系已被广泛应用,见于不少单篇论文和学位论文中,如:《闽方言分区的计量研究》(杨鼎夫1994),《苗瑶语方言亲疏关系的计量分析》(黄行1999),《吴语五地词汇相关度的计量研究》(杨蓓2003),《湖南方言语音相关度计算与亲疏关系聚类分析》(肖双荣2004),《廉江市粤客词汇相似度的计量分析》(邵慧君,秦绿叶2008),《梧州粤语和周边勾漏粤语词汇相似度的计量分析(粟春兵,王文胜,2011),《兴安县城话与周边汉语方言语音亲疏关系计量分析》(邓盼2015),《广州地区粤语的声韵计量分析》(秦绿叶,2015)。学位论文有:《粤西三地粤语客话方言词汇分析计量研究》(秦绿叶,华南师范大学硕士论文,2007),《廉州话与周边粤语客话语音分析计量研究》(梁小玲,广西民族大学硕士论文,2008),《梧州广府粤语方言岛与周边方言词汇相似度的计量研究》(粟春兵,杭州师范大学硕士论文,2012)。
综上所述,方言计量分析结合计算机信息处理功能和统计学方法,在科技日益发达的今天,将是一个前景广阔的领域。但是目前利用计算机从事方言研究的成果还是特别少,一个方面是因为很多研究人员已经习惯了传统的研究方法,不愿再做进一步突破,甚至怀疑新的方法;另一个方面是研究人员知识有限,因为利用计算机研究方言需要研究人员首先需要一定的语言学功底,其次是相关的数理知识,同时还需要具备一定的计算机应用能力,但是我国传统教育培养的人才很难兼具,如何突破这个瓶颈,需要研究人员做更多的努力。
语言计量研究本身也还存在一些问题。目前多数研究只在方言之间在语音和词汇上的相关性和差异性上做了不少努力,从而对方言区的划分以及亲疏关系的梳理提供了不少有益的想法。但是比较方言关系选取什么语言特征,采用什么计算方法,是否考虑加权,如何确定语言之间的亲缘或者接触关系等等问题都是值得商榷的。总的来说,计量分析法在我国方言研究中刚刚起步,想取得更大的发展还需要更多的努力。
注释
1秦绿叶.粤西三地粤语客话方言词汇分析计量研究[D].华南师范大学,2007.
2李如龙.汉语方言的比较研究[M].北京:商务印书馆,2001.
3刘玉屏.计算机在汉语方言研究中的应用[J]. 宁夏大学学报.2002(1).
参考文献
[1]陆致极.汉语方言间亲疏关系的计量描写[J].中国社会科学.1987(1).
[2]郑锦全.汉语方言亲疏关系的计量研究[J].中国语文.1988(2).
[3]马希文.比较方言学中的计量方法[J].中国语文.1989(5).
[4]王士元,沈钟伟.方言关系的计量表述[J].中国语文.1992 (2).
[5]沈榕秋.谈汉语方言的定量研究[J].语文研究.1994(2).
[6]邵慧君,秦绿叶.廉江市粤客词汇相似度的计量分析[J].中国语文.2008(2).
关键词:县域竞争力 聚类分析 预测
聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。根据分类对象的不同,聚类分析可以分为样本聚类和变量聚类。样本聚类又称为Q型聚类,是根据反映被观测的对象各种特征的多变量进行聚类;变量聚类又称为R型聚类,根据所研究问题选择部分变量对问题某一方面进行分类。在县域经济竞争力的分析当中适当应用聚类分析,有助于各县级单位互相借鉴互相学习。
一、国内外研究综述
竞争力研究最早起源于西方国家,国外比较有影响力的经济竞争力评价体系有 IMD的国际竞争力评价体系、WEF竞争力评价体系和波特的区域竞争力模型,这些已取得的成果都可以为研究者借鉴。在文献梳理过程中发现,专门针对县域经济综合竞争力聚类分析与预测研究的文献较少[1-8],因此本研究综合国内外学者的研究成果,结合山东省经济现状,在构建的指标体系框架和分析预测理论基础上,对山东省2009、2010两年的县域经济综合竞争力进行排名,评价和预测分析。受数据所限,2006―2010年的数据长度中2006―2008年县域经济综合竞争力排名不包括科技竞争力,2009―2010年县域经济综合竞争力排名涵盖经济实力、社会发展、资源环境、科学技术和政府竞争力,因此主要对2009―2010年的县域经济综合竞争力进行分析,同样由于科技竞争力数据长度不足,预测部分将分别预测各类一级指标竞争力。
二、县域竞争力指标体系构建
综合国内外相关研究成果,使用层次分析法(AHP)从经济实力竞争力、社会发展竞争力、资源承载力和政府能动力四个角度出发,构建县域经济综合竞争力三级指标体系,其中经济实力竞争力从GDP、财政收入、对外依存度、产业结构等角度反映县域经济基本发展能力;社会发展竞争力从科教文卫,以及居民收入方面反映县域社会发展建设水平;资源承载力表示县域经济发展密度,包括人口密度和GDP密度两个三级指标;政府能动力指标反映县级政府充分运用县内外资源,主动且有效地调控经济运行的能力。具体指标体系略。
三、2010年县域竞争力聚类分析
应用SPSS15.0软件,对山东省92个县域5个一级指标得分与各自权重乘积作为聚类变量进行Q型聚类分析,进行了聚类分析,表1给出了2009年的总体聚类结果。使用最远距离法,选择欧氏距离作为分类,将山东省92个县市划分成6种类型,聚类分析的ANOVA数据显示,将山东省92个县域分为6大类在统计学上是科学的,是有意义的。第Ⅰ类包括文登市、龙口市、荣成市等11个县市,这类地区是省县域经济的领跑者,综合竞争力较强,一级指标均明显高于全省平均水平,其中经济实力、社会发展和科学技术竞争力在所有县域中具有明显优势,资源环境和政府分别略低于第Ⅲ类和第Ⅴ类县域。第Ⅱ类包括诸城市、胶南市、青州市、平度市等14个县市地区,综合竞争力较好,经济实力、社会发展、科学技术和政府竞争力均高于全国平均水平,但资源环境较弱,低于全省平均水平。第Ⅲ类包括即墨市、桓台县、广饶县等9个县市,这些地区资源环境竞争力高于其他5类地区,社会发展也处于领先水平,但经济实力、科学技术和政府都低于全省平均水平。第Ⅳ类型包括宁阳县,长清县,平阴县等24个县市,这些地区资源环境和科学技术高于全省平均水平,但与领先县域仍存在较大差距,经济实力等均处于较为落后的水平。第Ⅴ类型包括高密市,巨野县,曹县等9个县市,这些县市政府竞争力优于其他5种类型,资源环境竞争力也高于全省平均水平,但科学技术竞争力在所有类型中处于最低水平。第Ⅵ类有垦利县,齐河县,临朐县等26个县市,经济基础较差,指标均低于全国平均水平。
四、竞争力预测分析
由于各地区资源环境竞争力和科学技术竞争力数据时间跨度不足,无法进行预测,因此本部分将对经济实力竞争力、社会发展竞争力和政府竞争力进行分项预测。使用指数平滑方法中的Holt模型进行预测,对于该预测方法的实际预测效果使用2010年数据进行误差检验。这里使用2000―2009年的经济实力竞争力数据预测2010年经济实力竞争力数据,并进行排名,与2010年的实际结果进行对比(表2),以进行验证。由名次对比可知,排名前30名总体保持一致。其中有6个县的预测结果与实际结果完全一致;前30名内有21个指标预测排名与实际排名相差2个名次之内;前30名仅有1个县的排名预测排名与实际排名大于10个名次。对比各个单项指标也可以得到类似的结论。可以说从排名上来看,我们对于2010年的预测排名与实际排名的基本上是相符合的。
五、结论与展望
从本研究结果可以看出,各县域若想提高本地经济综合竞争力,需要在经济、社会发展、资源发展和政府能动方面齐头并进。在推动当地经济发展过程中, 将提高当地居民收入水平、 优化产业结构、 增加政府财政收入和加强对外开放作为提高地区综合竞争力的重要手段; 政府能动力代表地方政府调控当地宏观经济的能力,这要求各地区增加财政支出在占GDP的比重;而与社会公共服务能力指标相对应,政府在增加财政支出占比的同时,政府需要增加教育和卫生支出以强化当地社会发展竞争力。
参考文献:
[1]范寿波. “长三角”县域经济竞争力的研究[J].江南论坛,2005(1):16―18
[2]王贤海. 安徽县域经济竞争力评价[J]. 统计与决策,2006(10):68―73
[3]黄源湘,魏峰. 安徽县域经济综合竞争力研究[J]. 安徽农学通报,2008(1):47―50
[4]薄锡年. 河北省县域经济综合竞争力研究[D]. 河北农业大学博士学位论文,2007:2―4
[5]罗哲,李树基. 甘肃省县域经济竞争力的实证分析与对策研究[J]. 开发研究,2007(6):72―76
[6]周春蕾,骆建艳. 县域综合竞争力评价指标体系研究[J]. 消费导刊,2008(24):69―71
[7]刘定青. 关于建立县域科学发展指标体系的调查与思考[J]. 中国乡村建设,2009(04):81―87
[8]孔凡萍,于俊凤. 县域经济科学发展评价指标选择探析[J]. 科学与管理,2011(1):34―37
[9]丁华,杨晓丽. 山东省县域经济综合竞争力变动成因研究――以2006―2010年山东省部分县域为例[J]. 科技进步与对策,2012(增)
1关键词词频统计本文仅对搜集到的1173篇数字图书馆领域的文献进行统计,共得到3352个关键词。统计的过程中,需要对关键词进行处理:合并library、libraries等类型的同义词;“digitiallibrary”是一个高频词,涉及文献510篇,但是本文是以数字图书馆为研究内容,并且以“digitiallibrary”作为检索词,再选取这个词做分析意义不是很大,故不对该关键词进行分析;另外,诸如印度、台湾、中国等表示地域类型的关键词也不做具体分析。经过处理后,本文选择词频不少于10次的48个关键词作为因子分析和聚类分析的基础,统计情况如表1所示。由表1可知,对数字图书馆的研究主要集中在信息检索、网络、学术图书馆、虚拟图书馆、数据库、用户研究、元数据、档案管理、语义等方面;同时注重数字存储、信息技术、馆藏管理、本体等方面的研究;有些研究涉及到了教育、组合化学、通信技术等领域。2.2因子分析本文为了初步确定提取公共因子的个数,采用了因子分析法进行试验。将48×48的关键词共词矩阵导入SPSS20.0中,并转化为Spearman相关矩阵,在该相关矩阵的基础上采用主成分、相关性矩阵、最大方差法进行因子分析,结果如表2所示。
由表2可见,48个关键词中有9个公共因子提取,他们能够解释总信息的91.269%,根据数据挖掘理论,所提取的因子应包括总信息的60%以上,因此表2提取4个及4个以上的公共因子都是合理的。但是由于因子分析对数据的要求较高,检验结果显示不是正定矩阵,KMO值无法计算出来,推测原因可能是由于样本较小或个别高频关键词的相关性较小导致的,但是仍然会显示表2的分析结果。所以本文仅借鉴因子分析提取的公共因子个数,并不采用因子分析的具体降维结果,从而为聚类分析的分类结果提供参考。
3聚类分析本文采用聚类分析法对数字图书馆领域的研究主题进行归类。聚类分析是研究“物以类聚”的一种方法,基本思想是:首先,将n个样品看成n类,即一类只包括一个样品,然后将性质接近的两类合并为一个新类,这样得到n-1类,再从n-1类中找到性质最接近的两类加以合并,变成n-2类,如此类推,直到所有的样品聚为一类。最后把整个分类系统画成一张谱系图,用它来表示所有关键词之间的亲疏关系。
3.1关键词预处理。关键词是文献核心内容的集中概括,能够较好地反映某一研究领域的主题分布与特点。对关键词进行聚类分析,为了便于统计,这里将原始关键词共词矩阵转化为相异矩阵。用Ochiia系数将共词矩阵转换成相似矩阵,具体算法为A、B两词的Ochiia系数=(A、B两词共同出现的次数)÷(A词出现的频次×B词出现的频次),从而得到相似矩阵。但是相似矩阵中的0值过多,统计时容易造成误差,为了方便进一步处理,用1与全部相关矩阵上的数据相减,得到关键词相异矩阵,部分数据如表3所示。
3.2聚类分析结果。在SPSS20.0软件中,导入关键词相异矩阵,采用系统聚类(HierarchicalClus-ter),选择离差平方和法(WardsMethod)与离散数据类型(Count)中的斐方(Phi-squareMeasure)方法,进行聚类分析。离差平方和采用方差分析的思想,使得类内关键词间离差平方和尽量小,类之间的离差平方和尽量大,从而达到分类的效果。离散数据类型可以设置分类数据之间的距离,Phi方度量消除了Chi方度量中维数的影响。结合因子分析的结果和实际情况,本文提取5个公共因子,描述了总信息的71.283%。最终分类结果如图1所示。由图1可见,本文将48个关键词分为5大类别,即国际数字图书馆领域研究热点主要集中在5大主题:数字图书馆虚拟技术研究、资源组织研究、资源建设研究、电子资源及版权研究和信息服务研究。
a.数字图书馆虚拟技术研究。主要包括虚拟图书馆、组合化学、虚拟筛选、对接、定量构效关系、人机交互。虚拟化就是把物理资源转变为逻辑上可以管理的资源,以打破物理结构之间的壁垒,资源的管理都按逻辑方式进行,完全实现资源的自动化分配,虚拟化技术在数字图书馆中的主要作用是进行服务器整合,也即将操作系统及应用从多个未得到充分利用的硬件平台重新部署到单台服务器上,进而节约空间成本、管理成本以及电源和散热成本。
b.数字图书馆资源组织研究。主要包括语义、本体、元数据、XML、研究、索引、多媒体。信息资源组织即信息资源的有序化的活动:利用一定科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。数字图书馆是下一代因特网上具有高度组织的超大规模资源库群,它内涵了信息资源的生命全过程,包括生产、加工、存储、检索、传递、保护、利用、归档、剔除等,数字图书馆资源组织的关键是将信息资源在知识单元而非文献单元的层次上组织起来,从而提供有利于产生新知识的资源、工具及合作环境。
c.数字图书馆资源建设研究。主要包括档案存储、数据、信息系统、数据挖掘、推荐、开源系统等关键词。数字图书馆资源建设是数字图书馆重要的基础建设,研究主要包括构建数据库、数字资源整合与开发、数字资源共享等内容。建设数字图书馆要按照整体性、特色化、用户至上、科学性、系统性的原则,采取科学有效的方法和手段对各种信息资源进行筛选和整理、进行深层次的开发和整合。数字图书馆要进行合理科学的资源建设,才能更好的为用户提供服务。
d.数字图书馆电子资源及版权研究。主要包括电子期刊、电子图书、电子出版、版权。电子资源是数字图书馆资源组成的重要部分,海量的电子资源的使用也涉及到了版权问题。互联网时代版权问题的最大挑战,进一步加强版权保护的技术性措施,采用防拷贝技术、访问控制、内容保护、流媒体格式、数字水印以及DRM技术,保护数字化信息资源版权。
e.数字图书馆信息服务研究。主要包括网络、信息服务、用户研究、教育、信息检索等关键词。数字图书馆结合了先进的信息技术、网络技术,使得服务内容不断扩展,主要包括信息检索服务、参考咨询服务、个性化推送服务、信息定制服务等等。在信息服务研究中,个性化信息服务成为研究的重点,个性化信息服务是指能够满足用户个体需求的一种服务,即根据用户提出的明确要求提供服务,或通过对用户个性、使用习惯的分析而主动地向用户提供其可能需要的服务。
作者团体分析
根据统计,数字图书馆领域研究文献涉及作者3398位(不考虑同名异人的情况)。根据普莱斯对洛特卡定律的一个重要推论:杰出科学家中最低产作者所发表的论文数量,等于最高产科学家数的平方根的0.749倍。在本次研究中最高产科学家数为10,则杰出科学家中最低产的那位科学家所发表的论文数应为2.37篇,取整数为3篇。也即发文3篇及3篇以上的作者为数字图书馆领域的核心作者,经过统计共得到114位核心作者。根据聚类分析的结果,将数字图书馆领域的核心作者与5大研究主题进行共现,删除与5个主题都没关系的作者,得到共现矩阵。用UCINET对该共现矩阵进行可视化,如图2所示。
由图2可见,5大主题涉及的作者团体非常清晰。数字图书馆信息服务研究这个研究主题的作者相对来说比较多,团体比较大,联系比较紧密,主要作者包括Adams,A、Jin,Y、Thomas,R、Ray,K等作者。数字图书馆资源建设研究主题的作者团体仅次于信息服务,主要包括Hey,J、Gow,J、Porcel,C、Chowdhury,GG等作者。数字图书馆虚拟技术研究和电子资源及版权研究这两个主题的作者团体相对来说较小,但是也还有一些核心作者在研究,证明了这两个研究主题在数字图书馆领域的重要性。不难发现,该网络图的连通性较好,有些作者同时研究两个或两个以上的主题,这些作者成为网络图中的关键节点,有利于各个研究主题之间的学术交流。比如Jamali,HR、Lee,JY等作者同时研究资源建设和信息服务,Bainbridge,D、Witten,IH等同时在研究资源组织和信息服务,Spink,S、Chwn,CC等作者同时研究三个领域。
根据社会网络的基础理论,中心性分析相关概念解释如下:各个研究主题的度数中心度也即该主题包含的作者数除以总的作者数;研究主题的接近中心度即该主题所包含的作者到其他作者和研究主题的最短距离的一个函数;研究主题的中间中心度即当主题的每对作者在研究主题中相遇时,该研究主题才获得中间中心度。利用UCINET分析图2中5大研究主题的度数中心度、接近中心度和中间中心度,结果如表4所示。由表4可见,数字图书馆信息服务研究的度数中心度、接近中心度和中间中心度都是最高的,资源建设研究仅次于信息服务研究。数字图书馆电子资源及版权研究度数中心度、接近中心度和中间中心度都是最低的,相对其他主题,该主题处于数字图书馆研究的边缘位置。随着计算机技术的发展,数字图书馆的研究已逐渐向技术和服务方面渗透。
结束语
本文对数字图书馆领域相关文献的关键词进行了因子分析和聚类分析,其中因子分析的要求条件较高,一些弱相关的高频关键词会影响因子分析的检验结果,在对高频关键词分类的过程中会遇到有些关键词同时属于两个或者更多的类,导致无法明确分类结果。因此本文仅用因子分析初步确定了提取的公共因子个数,然后借助聚类分析进行具体分类,聚类分析可以清晰地看到各个关键词之间的亲疏关系,其分类结果更明确。结合因子分析和聚类分析的结果,本文归纳出2000年以来国际数字图书馆领域的5大研究主题:数字图书馆虚拟技术研究、数字图书馆资源组织研究、数字图书馆资源建设研究、数字图书馆电子资源及版权研究和数字图书馆信息服务。
关键词:体质指数;腰臀比;膝关节慢性创伤;肥胖
中图分类号:804.5 文献标识码:A 文章编号:1008—2808(2013)01—0093—04
世界卫生组织在评价肥胖的过程中长期使用身体质指数(BMI)或腰臀比(WHR)作為评价标准。这两项体测指标以不同的方式描述体型:体质指数出发点是全身肌肉和脂肪,而腰臀比主要着眼于躯干肥胖。通过腰臀比分析表明,躯干肥胖导致的体型变化对膝关节慢性损伤影响巨大。大量的流行病学研究表明,腰臀比可以比较准确的预测心肌梗死的风险。
同样,据相关研究表明,WHR比BMI更适合作為预测缺血性中风潜在风险的指标。已经被证明比BMI更适合有研究表明BMI和WHR与预测膝关节慢性疾病存在很大的相关性。然而大多数的文献表明骨科疾病考察指标和体型的测评之间的关系,都采用体质指数进行评估,并没有没有采用腰臀比指标。而腰臀比作為无创指标符合评价长期伏案工作的导致腰腹部脂肪堆积的肥胖患者,本研究试图探讨膝关节慢性创伤与腰臀比和体质指数关系。旨在探究体质指数(BMI)与腰臀比(WHR)作為评价体型的指标在预测和评价膝关节慢性损伤的作用。
1 研究对象与方法
1.1 研究对象
研究对象為哈尔滨第六医院的402名膝关节慢性疾病患者(年龄范围18—62岁)。研究对象给予知情并同意参加此次调查。
1.2研究方法
1.2.1 文献资料法 根据研究的目的和任务,在中国知网(CNKI)“中国期刊全文数据库”、“中国期刊全文数据库(世纪刊)”、“中国博士学位论文全文数据库”、“中国优秀硕士学位论文全文数据库”中以“WHR、膝关节损伤”為关键词,搜索相关的论文2篇,以“BMI、膝关节”為关键词,搜索相关的论文104篇,从中选择了10余篇文章进行重点阅读。此外,还搜集了关于课程论及课程基本理论方面的专著,并对与本研究相关的章节进行了重点阅读。通过对数据库PUBMED的查询,相关的论文4篇,通过查阅、收集和整理上述这些文献资料,為此方面的研究现奠定了前提基础。
1.2.2定量分析法 数据采集过程科学合理、准确。肥胖的定义与标准来源于世界卫生组织。所有的测量使用统一标准,一个数据采集两次取平均值。
(1)体质指数(BMI)。BMI=体重(kg)/(身高m)2。以亚洲成年人体质指数标准进行分类:体重过轻(BMI
(2)WHR=腰围/臀围。以亚洲成年人体质指数标准进行分类,腰臀比≥0.9(男子)和≥0.8(女)被定义為腹部肥胖,围度采用专用围度尺测量。腰围是取被测者髂前上嵴和第十二肋下缘连线中点,水平位绕腹一周,皮尺应紧贴皮肤,但不压迫,测量值精确到0.1cm。臀围為经臀部最隆起部位测得身体水平周径。
1.2.3数理统计法 运用统计学的方法对数据进行分析、研究导出其规律性,以及各有关因素之间相互联系的规律性。主要是利用样本的平均数、标准差、标准误等有关统计量的计算来对所取得的数据和测量、调查所获得的数据进行研究得到所需结果的一种科学方法,将本研究一线所获得的数据在PC机上采用SPSS13.0软件进行处理,通过频数、百分比、图标等探索两种特异性指标与膝关节损伤之间的关系,同时采用PERSON相关分析和树状聚类分析来探究各因素之间的关系。检验显著水平的概率為a=0.05。分别根据两种标准评判结果,探讨不同标准的肥胖对膝关节慢性损伤的影响。建立两种评价标准及不同性别变量的二维对应分析。
2 研究结果与分析
2.1数据相关分析
在这402名患者中,225名患者為女性占总数的56%、男性患者為187名,占44%(见表1)。受试者平均年龄為45.9±10.1岁。402名膝关节慢性损伤的患者平均体质指数為29.2±5.5,平均腰臀比為0.93±0.07。男性平均体质指数的為29.0±4.3,女性為29.3±6.2。男性腰臀比平均值為0.97±0.05,女性為0.90±0.07。根据腰臀比评判肥胖的标准,155名男性膝关节慢性膝关节损伤患者均為肥胖,高达92%,明显高于根据体质指数判定為肥胖的男性比例(64名患者,约占38%)。同样,女性根据腰臀比肥胖标准判定175名男性膝关节慢性膝关节损伤患者均為肥胖,约占82%,相比之下,BMI标准女性肥胖数目為90名患者,约占42%。在体质指数和腰臀比评价肥胖时重叠的人数方面,女性明显高于男性(P=027
通过SPSS13.0社会学统计软件分析,WIO定义的腰臀比(WHR)标准判别肥胖比例分别為92%和82%,男性非常显著性相关(P=0.0045
肥胖对于膝关节慢性损伤、心肌梗死、中风及老年痴呆症来说,是一个公认的危险因素。世界卫生组织肥胖的定义可以按BMI或WHR,研究表明,肥胖的患病率根据BMI或WHR这两种标准进行判断会存在很大的差异(P
2.2数据聚类分析
通过对五种指标聚类分析:膝关节慢性损伤与女性BMI、女性WHR、男性BMI、男性WHR。通过统计学聚类分析膝关节慢性损伤各种指标之间的关系。图1可见,男性WHR、女性WHR与膝关节慢性损伤的关系最為紧密,同时佐证了PERSON相关的统计分析数据。
肥胖是危害人体健康的一种慢性非传染性疾病,是体内脂肪积蓄过多的一种状态。随着国家经济的发展,死亡越来越归因于与肥胖相关的疾病。通过体质指数与腰臀比来评价肥胖,并在膝关节慢性损伤人群中进行分析,此方面的具有指导意义的。对此次数据的整理分析得出,男性和女性,根据WTO定义的体质指数(BMI)标准判别肥胖比例分别為38%和42%,而根据WTO定义的腰臀比(WHR)标准判别肥胖比例分别為92%和82%,通过PERSON相关分析男性非常显著性相关(P=0.0095
研究对象為402人,样本较大具有代表性,避免本研究数据存在一点盖全。所有的身体测量数据都是同一人采集(测量人员经过专业培训),保证数据的合理与科学性。本研究的缺陷在于研究对象区域性较强,因此,本研究的结论是只适合于黑龙江地区的人群。在未来的此方面研究中,争取探索全国不同区域人群。
3 结论
(1)在膝关节慢性创伤患者中,腰臀比(WHR)与男性和女性膝关节骨关节慢性创伤的患病率存在显著性相关,男性患者达到了非常显著相关。而体质指数(BMI)没有达到显著性相关。