本站小编为你精心准备了生物统计中统计软件对比参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
生物学研究结果常需生物数理统计处理结合才能够客观准确的的分析和解释生物界各种现象和实验调查资料[1-2]。在研究两个或多个变量之间相互制约、相互依存关系时,生物数理统计方法及其软件亦广泛应用,目前常用的有Excel、SPSS和SAS。三者当中SAS以其最为强大的统计功能是熟悉统计学并擅长编程的专业人士的首选。而Excel、SPSS则受到非统计学专业人士的青睐;两者相比,SPSS分析的结果更简单、直观,更易于掌握。本文结合相关分析综述三种软件的优缺点。
1常用统计学软件的特点
Excel是我们日常工作中最常用的软件之一。主要用于数据处理、统计分析与计算,简单的数据库管理,而且它能绘制图表,具有检查与删除宏病毒的功能,并能与Internet网络共享资源[3]。此外,还能利用VisualBasicforApplication(VBA)语言开发面向特定应用的程序,但实际应用中很少有人使用。实际工作中我们经常用Excel的两大服务,一是自动计算功能,进行一些报表处理,这时Excel相对于Word来说不仅制表容易,更重要的是Excel有自动重算功能,一个数据被改动了,相应的结果会自动重算;二是Excel的制图功能,它能根据输入表中的数据自动生成曲线图、柱形图、饼形图等,大大减轻了手工制图的工作量。SPSS(StatisticalPackagefortheSocialScienceorStatisticProductsandServiceSolution)forWindows,与Excel相比,SPSS的统计分析功能、图表功能和数据库互接功能更为强大。SPSS软件处理庞大的受随机因素影响的数据时具有速度快、无编程、数据接口方便和功能模块组合灵活等特点。它使用Win-dows的窗口方式展示各种管理和分析数据方法的功能,并使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,只需粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS集数据整理、分析功能于一身。其基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分多个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数[4-5]。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。其分析结果直观、易学易用,而且可以直接读取Excel及DBF数据文件。由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。SAS是一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析和数据展现功能。SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等等。SAS中各模块具有相对独立的功能范围。常用的模块有base,graph,stat,insight,assist,analyst模块等,分别执行基本数据处理、绘图、统计分析、数据探索、可视化数据处理等功能。编程操作功能的无比强大是SAS系统的长处。尽管高级版本的SAS出现了可视化窗口,然而要想完全发挥SAS系统强大的功能,充分利用其提供的丰富资源,掌握SAS的编程操作是必要的,也只有这样SAS在各个方面的杰出特长才能得以体现。
2结合相关分析探讨比较Excel、SPSS和SAS优缺点
2.1变量的相关分析及两个变量的相关分析
相关分析用于属于平行关系的两个变量的分析。在相关分析中,变量无自变量和依变量之分,而且都具有随机误差。相关分析只能研究变量间的相关程度和性质,不能用一个变量的变化去预测另一个变量的变化。事物间的联系是普遍的。生物学中,作物产量与施肥量、气温、土壤湿度等都存在一定的联系。这种说明客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程就是相关分析。现以20种细胞系的细胞膜和细胞质中蛋白质含量的测定结果为例,通过三种软件的操作来进行两者之间的相关分析。如本例题命名X为细胞膜中蛋白质含量,Y为细胞质中蛋白质含量,见表1。
2.1.1Excel操作Excel通过其分析工具库实现统计分析。数据在工作表中组织后,在“工具”菜单中单击“数据分析”命令。如果在“工具”菜单中没有“数据分析”命令,则需要安装Excel的“分析工具库”。安装过程如下:在“工具”菜单中,单击“加载宏”命令,单击“浏览”按钮,定位到Office安装盘所在位置。安装完成后,再打开“加载宏”对话框,选中“分析工具库”复选框。选择“工具”菜单中的“数据分析”命令,此时弹出“数据分析”对话框。在分析工具列表框中选择“相关系数”。在弹出的对话框中选择输入区域,即数据所在区域;分组方式根据输入数据的方式选择“逐列”或“逐行”。如果输入区域的第一行中包含标志项,则选中“标志位于第一行”复选框;如果输入区域中没有标志项,则此复选框不选。“输出选项”中选择相应选项,以确定分析结果的显示位置。选择完成后,点击确定即可显示相关系数的值。Excel中若要显示统计描述需要在“数据分析”中选择“统计描述”。可显示的结果有:平均、标准误差、中位数、众数、标准差、方差、峰度、偏度、区域、最小值、最大值、求和、观测数、最大、最小、置信度(95.0%)等。相关系数结果见表2。本例X与Y的相关系数为0.55461,相关系数检验的P值为0.001,按α=0.05水准,拒绝H0,接受H1,相关系数检验有统计学意义,膜蛋白和质蛋白之间有55.461%的相关性。这样的统计分析结果对于我们的后续实验有一定的指导作用。
2.1.2SPSS操作SPSS相关分析通过Statistics菜单的Corre-late选项完成。该命令允许同时输入两个或两个以上变量,但系统输出的是变量间两两相关的相关系数。此过程通过对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。初始设置:单击窗口左下角的“变量窗口”(VariableView),在名称、类型、长度、小数点等处适当设置。完成相关设置后,单击窗口左下角的“数据窗口”(DataView),返回数据填充区。在SPSS工作表中输入表1中的实验数据。输入数据后,即可进行相关性分析。具体步骤如下:选择菜单栏中的分析(Analyze)→相关分析(C)→两个变量相关分析(B),弹出“两个变量相关”对话框。分别将X,Y变量选入“变量”的方框中,点击“选项”(Options),弹出“两个变量相关:选项”面板,选择“统计”中的“描述”(Descriptive),即可显示出“平均值和标准差”(M),交叉乘积的标准差和协方差(C)选项,然后点击“继续”,重新回到“两个变量相关”界面,本例分别选中“Pearson”,“双侧”和“标识显著相关”,然后点击“确定”,即出现SPSS统计的结果见表3(省略统计描述表格)。从表中可以看出,变量X,Y的相关系数为0.555,交叉乘积的标准差和协方差为267.314,14.069。PearsonCorrelation(相关系数)一列中的星号含义是:显著性水平为0.001(默认值)的情况下,变量X,Y相关系数存在显著差异,与“Sig”一列的结果相对应。从给出结果我们可以看到,比起Excel,SPSS的结果内容更详尽,结果分析更全面。
2.1.3SAS操作与上述两种操作不同之处在于,SAS操作在建立数据集时应指定膜蛋白X与质蛋白Y两个变量。再调用CORR过程求出相关系数。1)设定数据库环境:LIBNAMEA''''C:\USER'''';2)数据步,建立数据集:DATAA.YTLI7_1;INPUTYX@@;CARDS;12.2115.214.5416.712.2711.912.0414.07.8819.811.1016.210.4317.013.3210.319.595.99.0518.76.4425.19.4916.410.1622.08.3823.18.4923.27.7125.011.3816.810.8211.212.4913.79.2124.4;RUN;3)CORR过程,进行相关分析:PROCCORRDATA=A.YTLI7_1;VARXY;RUN;CORR过程的默认输出结果主要包括各个变量的简单统计描述(图略)和一个相关系数矩阵。结果见表4。SAS这种程序化操作过程简单,但需熟练掌握相关的编程语言,而且结果内容也没有SPSS的结果详尽。
2.2Excel、SAS、SPSS的评价
2.2.1数据处理Excel是日常办公的通用软件,也是作为计算机文化基础的一部分而被广泛学习。作为简单的数据处理工具,Excel操作简便,结果直观。SPSS的数据编辑器很像Excel,可以输入数据。SPSS的可视窗口界面和下拉列表可以选择特定命令。但运用SPSS一次只能编辑一个数据文件,在一次涉及多个文件的数据处理中并不强大。SAS在数据处理上可谓功能强大,几乎可以进行任何可能的处理。SAS中的sql数据库可以执行sql查询。只是需要耗费大量时间来学习和理解那些在excel和SPSS中相对容易处理的简单命令。但是SAS可以同时处理几个文件相关联的数据,同时SAS还可以处理多达32768个文件,记录的数量能限制在磁盘最大容量范围内,因此它以强大的数据管理和同时处理大批数据文件的功能,得到高级用户的青睐。
2.2.2统计分析三种软件用于统计分析的高级程度从高到低依次是:SAS,SPSS,EXCEL,就像例题中的操作一样,只要是Ex-cel“数据分析”库中包括的统计部分,都能通过简单的操作给出简单的统计结果。但是Excel只能进行有限的几种运算(平均、标准误差、中位数、众数、标准差、方差、峰度、偏度、区域、最小值、最大值、求和、观测数、最大、最小(1)、置信度(95.0%)等)。SPSS可以运行众多统计分析。其长处在于变量分析和多变量分析,可以进行多种特定效应检测。SPSS的缺点是运算方法不多,只能依照软件中提供的模式进行运算。SAS可以运行多数常用的统计分析。SAS和SPSS一样都属于专业分析统计软件,而SAS的强势在于方差分析,混合模式分析和多变量分析,其不足在于依次多项逻辑回归,运算方法受到SAS语言的限制。
2.2.3图表Excel的图表生成简单,可视化窗口模式形象直观,是日常图表生成的有利工具,而且修饰加工的图形尤其美观,单元格数据与数据分析结果具有“联动”关系,改变其中一个单元格数据,与之相关的Excel公式或图表就会发生相应的改变,具有“即改即见”的效果。Excel2007使之更加完善,这些功能均为SAS、SPSS所望之不及。SPSS窗口界面可以像Excel一样轻松的创建图表。图片质量较高,因此被很多发表文章的作者采用。SAS包括最强大的图表工具SAS/Graph,但是SAS/Graph学习起来很有难度。这种图表大多是通过程序性语言创建的。尽管SAS8以后的版本在创建图表方面出现可视化界面,但还是没有SPSS容易操作,一般适用于高级人士。
3结语
综上所述,Excel易学易用,功能有限;但其内置函数数量多且使用方便。公式、图形等具有即改即可见的特点,此功能在目前的SAS、SPSS等统计软件尚无法实现。SPSS操作简易,功能强大,结果详尽,是生物统计等非计算机专业人士的首选;SAS要求用户非常熟悉编程语言,这需要漫长的学习过程。但一旦掌握后就可以享受其强大的数据处理功能。总之,三种统计软件各有千秋,每个软件都有其独到之处,也难免有其软肋所在。总的来说,SAS,SPSS和Excel是能够用于多种统计分析的一组工具。通过Stat/Transfer可以在数秒或数分钟内实现不同数据文件的转换。因此,可以根据你所处理问题的性质来选择不同的软件。如果想通过混合模型来进行分析,可以选择SAS;但SAS要求用户非常熟悉编程语言,这需要漫长的学习过程,但一旦掌握后就可以享受其强大的数据处理功能。若是要进行方差分析,最佳的选择当然是SPSS,它能完成多种特殊效应的检验和多变量分析(多元方差分析,因子分析,判别分析等),SPSS11.5版还新增了混合模型分析的功能,但其缺点是没有稳健方法,无法完成稳健回归或得到稳健标准误,缺乏调查数据分析(SPSS12版增加了完成部分过程的模块)。因此对他们有整体性的功能了解将对我们的实际科研工作具有重要的意义。