美章网 精品范文 聚类分析论文范文

聚类分析论文范文

前言:我们精心挑选了数篇优质聚类分析论文文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。

聚类分析论文

第1篇

对于股票投资来说,一定要关注股票上市公司的基本盈利状况以及该公司未来的发展状况。在投资时,这两大因素必须进行思考衡量,因为这两大因素是衡量一个上市公司有没有投资价值最基本的条件。因此,要在投资前计算出该股票每股的收益、该公司净资产收益率以及主营收入增长率。

1.盈利能力指标。总资产利润率=净利润/平均资产总额,这体现出公司整体的获利能力。净资产利润率=净利润/平均净资产,这个关系可以直接体现出股东投资的回报。主营业务收益率=主营业务利润/主营业务收入,主营业务是上市公司利润的来源,主营业务的收益越大,公司在市场中的竞争优势就越明显。每股收益=净利润/期末总股本,每股的收益越高,反应出每股获利的能力越强。

2.成长能力指标。主营业务收益增长率=本期主营业务收入/上期主营业务收入-1,这体现出上市公司重点项目的成长力。净资产利润率=本期净利润/上期净利润-1,上市公司给员工的薪酬都是根据净利润决定的。

二、聚类分析的投资方法应用实例

聚类分析方法隶属多元统计分析方法之中,与多元统计分析法和回归分析法并称为三大应用方法。聚类分析法一定要建立在某个优化意义基础之上,如果将聚类分析方和常规的分析法相比较的话,会发现聚类分析法有很大的优势,第一是使用聚类分析法可以对数据中的多个变量进行样本分析,然后将其分类整理;第二是通过使用聚类分析法所得出的数据非常直观明了,通过观察聚类谱系图投资者就能够清楚地分析出数据显示的结果;第三是如果将聚类统计法所得出来的数据结果与普通方法计算出来的结果进行对比,不难发现聚类分析法的对比结果更加细致、科学、全面,接下来通过两个应用的实例进行说明。

1.原始数据标准化。为了解决原始数据量纲和数量级差异带来的影响,更好的对聚类分析和判别进行分析,可以采用指标标准化的处理方法。

2.逆指标正向化处理。流通股本是逆指标,对其绝对值取倒数可以得出。

三、将聚类分析法应用到金融投资上的意义

将聚类分析法应用于金融投资上,不但可以显示出有效、科学、全面的数据更能帮助弥补金融投资投资时所出现的不足。

第一,聚类分析法建立在基础分析之上,对投资股票从一些基本层面进行量化分析,进而对股票价格影响因素定性进行补充并完善了原有的基础分析。聚类分析法作为长期的理性投资参考依据,是为了发掘股票投资的真实价值,避免由于市场过热导致资产估值不公允。

第二,在建立投资评价模型的时候,可以运用聚类分析法对公司和股票投资价值之间的联系进行分析。公司的成长是一个在哥登模型中,在一个变化的趋势内进行。不变的股息增长率对实际情况并不符合,在采用多阶增长模型的时候,想要得到不同阶段的股息增长率是很困难的。所以,对股票的成长进行分析得时候,可以选取净利润率等客观的数据做参考,这样可以估算出股票的发展潜力。

第三,通过对聚类分析法和现资组合理论的比较可以得出,聚类分析法比现资组合理论更具有直观性和实用性,并且在实际生活中的局限小。该方法主要着眼于实际数据的相似性和其延生的规律性,较投资学中一些以预测和假定前提较多的模型而言更具有现实意义,也更加贴近当前市场情况的现实。另外,聚类分析法的操作性强,在实际应用过程中有一定的优越性,更加适合投资者使用。

第四,聚类分析法作为长期投资的理念,随着我国金融行业的不断发展,逐渐被更多的投资人采用。理性的运用聚类分析法这种投资方法,不但可以使投资者的投资风险降到最低,还可以规范其他投行的投资行为,促使发行股票的企业可以本着经营业绩和长期的成长模式进行投资,在一定程度上可以有效规避道德风险和投机行为,保证金融市场的稳定性和规范性,保护散户和弱势群体的经济利益,进而繁荣整个股票、证劵市场,使我国的经济更繁荣。

四、结论

第2篇

近年来,全国大学生数学建模竞赛迅速发展,为国家培养了大批应用型人才。但由于各地区教育水平不同、相关部门对竞赛的重视程度不同,导致各地区组织学生参加大学数学建模竞赛的规模不同,在该项赛事中取得的成绩差异比较显著。2013年全国大学生数学建模竞赛评选出的奖项有:赛区优秀组织工作奖9个,本科组高教社杯奖1个,专科高教社杯奖1个,本科组MATLAB创新奖1个,专科组MATLAB创新奖1个,本科组IBMSPSS创新奖1个,专科组IBMSPSS创新奖1个,本科组一等奖共273名,本科组二等奖共1292名,专科组一等奖共44名,专科组二等奖共211名[1],但成绩相对于参赛区分布不太均匀。分析各地区在2013年全国大学生数学建模竞赛中取得的成绩,明确各地区数学建模发展状况的差异和特点,将有利于相关部门从宏观上了解我国大学生数学建模竞赛的整体发展现状,分类制定相关政策[2-3],从而充分发挥数学建模的重要作用。

1建立综合评价指标体系

全国大学生数学建模竞赛现状的一个重要方面就是全国大学生数学建模竞赛获奖情况。依据全国大学生数学建模竞赛设置的奖项,遵循可比性原则,参考文献[4-5],选取x1-x7共七项评价指标,具体如下:x1:本科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x2:本科组一等奖获奖数;x3:本科组二等奖获奖数;x4:专科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x5:专科组一等奖获奖数;x6:专科组二等奖获奖数;x7:年度竞赛优秀组织工作奖获得情况。说明:鉴于本科组与专科组的高教社杯、MAT-LAB创新奖和IBMSPSS创新奖三类奖项每年只有一个队获奖,且基本不可重复获得(参见历年大学生数学建模竞赛获奖名单)故将其合并作为一类。

2数据资料依据

2013年全国大学生数学建模竞赛获奖名单,按指标对各个赛区的获奖情况统计如表1所示。

3R型聚类分析定性分析

七项指标之间的相关性。编写MAT-LAB程序如下:>>clc,clear>>symxy;>>x=xlsread(‘shuju.xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju.xls中,并将其赋于x>>y=corr(x)%输出七项指标间的相关系数矩阵(如表2所示)>>d=pdist(y,’correlation’);%计算相关系数导出的距离>>z=linkage(d,’average’);%按类平均法聚类>>h=dendrogram(z);%画聚类图(如图1所示)>>T=cluster(z,’maxclust',5);%把变量划分为5类>>fori=1:5tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有4;第2类的有56;第3类的有7;第4类的有23;第5类的有1。即:若将指标分为5类,则指标1、4、7各为一类,指标2、3为一类,指标4、5为一类。

4Q型聚类分析

4.1选取5个指标的分类从R型聚类分析分出的5类指标中各选一个,即选取5个指标体系,对33个参赛地区进行聚类分析。首先对变量数据进行标准化处理,采用欧氏距离度量样本间相似性,选用类平均法计算类间距离。在MATLAB命令窗口输入下列程序:>>symsxy;>>x=xlsread(’shuju.xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju.xls中,并将其赋于x>>x(:,[3,5])=[];%删除数据矩阵的3,5两列,即使用变量1,2,4,6,7>>x=zscore(x);%将数据标准化>>s=pdist(x);%每一行是一个对象,求对象间的欧式距离>>z=linkage(s,’average’);%按类平均法聚类>>h=dendrogram(z);%画聚类图(如图2所示)>>T=cluster(z,’maxclust’,3);%把样本点划分成3类>>fori=1:3;tm=find(T==i);%求i类的对象tm=reshape(tm,1,length(tm));%变成行向量>>fprintf(’第%d类的有%s\n’,i,int2str(tm));%现实分类结果>>end程序输出:第1类的有11318第2类的有2345678910111216171920212224252627282930313233第3类的有141523即:第一类:北京,福建,湖南;第三类:江西,山东,四川;第二类:其它地区。

4.2选取7个指标的分类考虑到指标2与指标3,指标5与指标6具有一定的独立性,若七个指标体系全部取用,将33个地区分为4类,程序输入如下:>>symsxy;>>x=xlsread(’shuju.xls’);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%画聚类图(如图3所示)>>T=cluster(z,’maxclust’,4);>>fori=1:4tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有116第2类的有6710151927第3类的有23489111213141718202223242528第4类的有521262930313233即:第一类:北京,河南;第二类:辽宁,吉林,江苏,山东,广东,陕西;第四类:内蒙古,海南,,青海,宁夏,新疆,香港,澳门。4.3选取本科层次指标的分类只考虑本科层次取得的成绩,即选用指标1,2,3,对33个参赛地区进行聚类分析,从而明确掌握其本科阶段的差异,则有:输入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[4,5,6,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%画聚类图(如图4所示)>>T=cluster(z,’maxclust’,3);>>fori=1:3;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有11318第2类的有101115161719222327第3类的有2345678912142021242526282930313233即:第一类:北京,福建,湖南;第二类:江苏,浙江,山东,河南,湖北,广东,重庆,四川,陕西;第三类:其它地区。4.4选取专科层次指标的分类只考虑专科层次取得的成绩,即选用指标4,5,6,对33个参赛地区进行聚类分析,从而明确掌握其专科阶段的差异,则有:输入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[1:3,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);%画聚类图(如图5所示)>>h=dendrogram(z);>>T=cluster(z,’maxclust',4);>>fori=1:4;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有14第2类的有1523第3类的有41927第4类的有1235678910111213161718202122242526282930313233即:第一类:江西;第二类:山东,四川;第三类:山西,广东,陕西;第四类:其余各地区。

5结束语

第3篇

国家统计局在其《中国信息能力报告》中,设计了一套评价我国信息化水平的指标:指标体系共分4级,有25个指标:①信息技术和信息设备应用能力:a.每千人拥有PC数;b.每千人拥有传真机数;c.每百人拥有电话数;d.每千人拥有电视机数;e.每千人拥有收音机数;f.每万人接入因特网用户;g.每百万人互联网上网主机数;h.每平方公里光缆长度;i.每百家企事业单位上网数;j.基础信息产业产值占GDP比重。②信息资源及开发利用能力:a.每户打国际电话时间;b.每百人期刊发行量;c.每日信息量;d.网络用户平均上网时间;e.每万人Web站点数。③人口素质:a.每万人平均科学家和工程师数;b.第三产业从业人数占就业总人口比重;c.大学入学率;d.每十万人在校学生数;e.计算机专家和工程师数。④国家对信息产业发展的支撑:a.信息产业产值占GDP比重;b.研究开发(R&G)支出占GDP比重;c.每主线电信投资;d.人均GNP;e.教育投入。

鉴于遵循数据的客观性和代表性,以及易得性,本文采取以下指标:每千人工业增加值x1;每千人电信业务量x2;每千人移动通信交换机容量x3;移动电话普及率x4;电话普及率x5;广播综合人口覆盖率x6;电视综合人口覆盖率x7;有线电视普及率x8;每十户宽带上网用占有户数x9;R&D经费支出占GDP比重x10;每十人从事科技活动人员总数占有的人数x11;每十人在校大学生人数占有的人数x12;每千人专利授权数占有数x13。其中缺省值用平均值代替或者临近年数内值代替。由于篇幅有限,指标数据省略。

2、因子分析

因子分析法是能够实现数据简化目的的有效方法之一。其基本思想是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,使不同组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。运用因子分析法,借助EXCEL多元统分析,对已得的指标数据进行分析处理,在处理过程中选取方差贡献比率为0.80。

按照方差贡献比率大于80%,应提取前四个因子,它们所解释的方差占总方差的84.58%,这四个因子就可以解释原始数据的大部分信息了。

分析结果中可以得到每个城市的四个因子得分情况F1,F2,F3和F4。最后,对28个城市的信息化水平进行综合评价并排序。以旋转后四个因子的方差贡献率为权数计算综合得分,计算公式为:F=0.5923F1+0.09957F2+0.0804F3+0.0736F4,最终可以得到所有城市的综合得分排名。

由于变量指标取值的同向性,得分越高代表信息化水平越高。排名依次为:北京,天津、广东、浙江、江苏、湖南、福建等等。

3、聚类分析

聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法,在统计分析的应用领域已经得到了极为广泛的应用。其思路为:首先每个数据对象自成一类,并且计算各个类之间的“距离”或者相似性。然后每次将最相似的两类合并,合并后重新计算新类与其他各个类之间的距离或相似度。这一“凝聚”的过程一直继续直到所有对象都归为一类为止。利用各城市的因子得分,还可对28个城市进行分类,得分值相近的城市被认为具有较相似的属性。

4、结果分析

由所得到的聚类图可以看出,全国信息化水平基本上可以分为五类,北京,山西各成一类,从上面的综合水平排名可以看出,北京信息化水平处于全国领先地位,这首先归功于北京的地理位置和政治人文环境,其次结合因子得分矩阵,北京在因子1上的得分最高,而根据因子载荷矩阵可以看出,因子1在13个变量指标上的载荷系数都比较大,证明北京在城市信息化的各个方面都比较出色。山西的信息化综合水平排名第10,属于中等偏上的水平,在因子4上的得分较高,因子4在变量指标x1,x2上的载荷量较大,这正好符合山西是个煤矿大省的特征,通信电信比较发达繁荣。天津、广东、江苏、福建、浙江归为一类,这几个城市都是发达城市,信息化水平偏高,在每个指标上得分都比较平均。而河北、黑龙江、河南、江西、辽宁、吉林、湖北、湖南、安徽、山东、四川、海南、重庆可以归为一类,这几个城市由于地理环境、产业结构、人口众多等因素使得信息化水平中等偏下。最后一类,信息化水平偏下的一类包括:内蒙古、甘肃、青海、宁夏、广西、云南、和陕西,信息化水平底下源于经济发展水平不高、对于信息化认识薄弱以及对信息产业的投入不够。

5、政策建议

虽然我国信息化应用工作已取得了较大的成绩,但在发展的过程中还存在着一些问题和不足使信息化带动经济发展的优势难以更好地发挥与国外发达国家相比还有很大差距,就是同亚洲一些发展中国家(或地区)比较也存在不小的距离。当前,经济全球化、我国加入世界贸易组织和世界信息产业的新发展,都对我国信息化应用发展提出了新的要求,因此,我们应认真分析中国信息化水平现状,分析与国外信息化发展的差距,有效地针对问题和不足进行改进,正确地规划未来发展方向和应采取的对策。

对策和建议主要有:(1)加快有关信息化法律、法规的制定,确保应用中的可靠性和安全性(2)降低成本,普及大众。(3)加强信息化知识普及与培训力度。(4)加大国家对信息化投资力度缩小地区间差距。(5)加强信息资源建设,提高信息化服务质量与水平。(6)建立信息化数据采集系统和评价监测体系。

另外,由上文的分析,信息化水平测度的数据很不全面,在每个地区城市的报告中尚未包括有些信息化水平测度指标,比如说信息产业增加值占地区生产值的比重。完整的数据不仅可以帮助很好的测度信息化水平,同时可以鞭策及时发现问题,提出相应的解决办法,这对于提高信息化水平是必要的途径。

参考文献:

[1]张海永.基于因子分析和聚类分析的江苏省13个城市社会发展水平研究.西南民族大学学报·自然科学版,2007,(2).

[2]陈小磊,郑建明,万里鹏.信息化水平测度指标体系理论研究述评.图书情报知识,2006,(9).

[3]卢纹岱.SPSSforWindows统计分析.电子工业出版社(第三版),2006.480-483.

精品推荐