前言:我们精心挑选了数篇优质统计学变量类型文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
[关键词]社会科学 统计方法 应用问题
社会科学的实证研究在应用统计学时,统计分析是其关键环节,资料性质分析、资料类型的判断、统计方法的选择等各个环节都应把握好,否则,其分析结果将是没有意义的。本文拟通过对社会科学实证研究论文中应用统计分析方法出现的问题,从描述性分析、定量资料的统计分析、定性资料的统计分析、相关与回归分析等方面进行解析。
一、描述性分析问题
在社会科学实证研究中,一般首先要对社会调查数据进行描述性统计分析,以发现其内在的规律性,再选择进一步的分析方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布形态以及一些基本的统计图形。
描述性统计分析虽然较为简单,但如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将值得怀疑,而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。
1.均值的误用
均值是用于描述样本集中趋势的最常用指标,但应注意,对于正态或近似正态的对称分布样本,它是较好的指标,一般与离散趋势指标中的标准差一起描述数据资料(即形式);而对于偏态分布的样本,则常用中位数来描述集中趋势,一般与离散趋势指标中的四分位数间距一起描述数据资料(即形式),究其原因是均值容易受到极端值的影响。
对于两个分布完全不同的样本,可能会得到相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要进行深入研究或应当引起人们注意的。为了弥补均值的这种缺陷,一般在报告均值的同时,也应该报告标准差,或用直方图或散点图的形式描述分布,以展示群体内部的差异。
2.绝对数的误用
因为社会调查研究比较容易得到大容量的样本,所以对任何小概率事件,用绝对数报告都会出现较大的数字,单纯对绝对数的强调往往会产生误解。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究样本的比例。
3.相对数的误用
相对数常用于描述定性资料的内部构成情况或相对比值或某现象的发生强度,一般有比与率两种形式。虽然比与率的计算形式是相同的,即两个绝对数之商乘以100%,但它们的含义是不同的。率用于反映某种事物或现象发生的强度,而比则用于反映部分与整体或某一部分与另一部分之间的关系。当数据的比较基础相差悬殊,用绝对数表述没有可比性时,就要借助于相对数。
应用相对数也容易出现一些问题,如:百分比与百分率的混用;当分母很小时,只计算百分比或百分率,而没有报告样本量;当比较两个或多个总体率时,没有考虑到各总体对应的内部构成情况是否一致,而直接比较等。
例如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,其实是忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群,这样对两个不同群体的比较往往会导致错误的结论。
二、定量资料的统计分析问题
定量资料的统计分析是指所观测的结果变量是定量的,而且希望考察定性的影响因素取不同水平时,定量观测结果的均值之间的差别是否有统计学意义。定量资料的统计分析在统计学应用中占有很大的比重,出现的误用也比较多。
正确选择定量资料统计分析方法的关键有两点:一是正确判断统计研究设计的类型;再是检验定量资料是否满足“独立性、正态性及方差齐性”的前提条件[1]。前者要求使用者对统计研究设计的类型较为熟悉,后者则需要进行预分析,可适当借助于统计分析软件。根据前提条件是否满足来决定用参数假设检验或方差分析,还是用非参数检验方法,进而根据对统计研究设计类型的判断,确定采用具体的统计分析方法。
对定量资料作统计分析时,常犯的错误有:
1.不管统计研究设计类型,盲目套用t检验或单因素方差分析;
2.不验证“独立性、正态性及方差齐性”前提条件,而直接应用参数检验法;
3.将多因素设计定量资料人为拆成多个成组设计定量资料,采用t检验法;
4.将多因素设计定量资料用单因素多水平方差分析解决,或用一元分析替代多元分析等。
三、定性资料的统计分析问题
定性资料的统计分析是指观测结果为定性变量的统计处理问题。定性资料的统计分析在社会科学研究中的应用也是很广泛的,通常根据影响观测结果的原因变量性质分为三种情况:
1.原因变量都为定性变量,此类资料就是通常理解的定性资料。常用的统计分析方法有:检验、秩和检验或Ridit分析、Spearman秩相关分析、线性趋势检验、一致性检验(也称Kappa检验)、加权检验、对数线性模型等。
2.原因变量中既有定性变量,又有定量变量。这类资料的统计分析通常有两种处理方法:一是结合专业知识先将定量的原因变量离散化,使其转化为定性变量,然后采用上面3.1的统计方法处理;二是先对定性的原因变量,采用哑变量技术进行处理,转化为多个二值变量,赋予0或1值,然后采用Logistic回归分析方法或多值有序变量Logistic回归分析处理。
3.原因变量全部为定量变量。这类资料的分析可以直接采用Logistic回归分析方法或多值有序变量Logistic回归分析处理。
定性资料的最常用表达形式是列联表,列联表有多种类型,如横断面设计的四格(或称2x2)列联表、队列研究设计的四格列联表、配对研究设计的四格列联表、双向无序的R×C列联表、单向有序的R×C列联表、高维列联表等,不同类型所用统计方法也不同,所以处理这类资料的关键是分辨出列联表的类型,从而选择相应统计分析方法。
在社会科学研究中,定性资料的统计分析常犯的错误主要就是列联表的误判,从而错误的选用统计方法。
四、相关与回归分析问题
相关分析是研究变量之间的相互关系,常局限于统计描述,较难从数量角度对变量之间的联系进行深入研究;回归分析则是研究变量之间的依赖关系,可实现对自变量进行控制,对因变量进行预测,及对随机变化趋势进行适当修匀。
相关分析可用于对定类、定序、定距及定比等尺度的各类资料进行定量描述,但各类资料的计算公式是不同的,所以应用时,需要判明资料的类型;而回归分析则要根据因变量性质的不同,选用不同的回归分析方法,一般可分为两类:一是因变量为连续型变量,具体的,当为非时间性的连续型变量时,可用线性回归分析、多项式回归分析、非线性回归分析等;当为时间变量时,可用COX半参数回归分析、指数分布回归分析及威布尔回归分析等;当为随时间变化的连续型变量时,则需要利用时间序列分析。二是因变量为离散型变量,需要利用Logistic回归分析、对数线性模型分析及多项Logit模型分析等。
在社会科学研究中,相关与回归分析的应用非常广泛。但应用时也经常出现一些错误:
1.没有结合问题的专业背景和实际意义,就进行相关与回归分析。其结果有时可能是莫名奇妙的,可能出现所谓的虚假相关。
2.对于较简单的线性相关与回归分析,不注意应用条件,盲目套用。一般地,Pearson相关分析要求两变量都是随机变量,且都服从或近似服从正态分布,若不满足条件,应采用其它相关分析法,如Spearman相关分析等。而线性回归分析则要求因变量必须是随机变量,且服从或近似服从正态分布,在回归分析前,先要进行统计检验,证实两变量的显著相关性,再进一步进行回归分析才有意义。
3.只求得相关系数或回归方程,而不进行参数假设检验就下统计分析结论。因为相关系数或回归方程都是由样本数据求得的,是否具有统计学意义,必须通过其相关参数的假设检验来判定。
4.多元回归分析策略的错误。在社会科学实证研究中,对多元回归分析的应用,不少人采取的策略是先用单变量分析,得到有统计学意义的多个变量,再将它们引入回归方程进行多变量分析,用逐步回归法进行筛选,从中选出有统计学意义的变量,这种分析策略是不正确的。因为自变量之间可能存在不同程度的交互作用,在单变量分析中无统计学意义的变量并非在多元回归分析中也没有意义。正确的处理方法应该是先综合分析各种变量之间的作用、实际意义及关系,有些可作为控制变量(如性别、年龄等),将经过初步筛选的所有变量代入回归方程进行分析,再采用逐步回归方法,必要时可多用几种筛选变量的方法,同时要注意自变量间的交互作用,进行综合分析,这样才能得到较为可靠的结果。
参考文献:
[1]王在翔:社会统计理论与实践[M].青岛:中国海洋大学出版社,2008
[2]胡良平等.医学统计学基础与典型错误辨析[M].北京:军事医学科学出版社,2003.148-239
[3]柯文泉:统计方法应用中应注意的几个问题[J].时代经贸,2008,6(96):83-86
目前,很多研究人员对影像资料分析方法的学习和理解存在一定困难,尤其初学者对繁杂的概念、复杂的计算公式、数据资料性质判断以及如何选择合适统计学方法等问题难以深刻理解。针对这些问题,王良等[1]建议采用以下模式:判断资料类型、根据研究目的选择分析方法、其他适宜方法。
1.1根据资料类型初步确定方法
临床研究中产生的各种不同原始资料,而不同数据资料类型采用的统计分析方法也不同。定量资料常用的方法有t检验、方差分析、非参数检验、线性相关与回归分析等。定性资料可用的方法有χ2检验、对数线性模型、logistic回归等,影像医师可根据不同需要选用不同统计方法。值得一提的是有些资料类型确定后,统计方法的选用对其有序性有相应要求;而多种方法联合应用或者使用部分少见的分析方法时还需要在选定统计方法后,利用统计软件(如SAS、SPSS)对应的不同命令进行初步分析试验。
1.2根据研究目的选择方法
1.2.1差异性研究
差异性分析是指评价比较组间均数、频数、比率等的差异。根据研究需要可选用的方法有χ2检验、t检验、方差分析、非参数检验等。临床上研究两组、多组样本比率或构成比之间的差别关系时最常用χ2检验,也是针对计数资料进行假设检验的一种常用的统计学方法,而对两组定量资料分析常用t检验和秩和检验,多组资料分析则常用方差分析;Fisher精确概率法主要适用于总体样本频数小于40或四格表中最小格子T值<1。虽然Fisher精确检验不属于χ2检验,但仍可以作为有效的补充,而也有人认为在统计软件普遍易得的当下,Fisher精确概率法也同样适用于大样本四格表的资料。如彭泽华等[6]在探讨冠状窦-左心房肌连接的双源CT冠状动脉成像(DSCTCA)形态特征时针对冠状窦-左心房肌连接的类型在两组类别变量采用联表的χ2检验,结果差异无统计学意义(χ2=0.115,P=0.944)。Teefey等[7]在研究超声表现及白细胞计数预测急性胆囊炎坏疽变化关系时使用Fisher精确分析。t检验适用于两组定量资料分析且资料满足方差齐性和正态性两个基本条件;同样t检验适用于完全随机设计的单因素两水平的资料,在选用t检验时应注意对资料进行相应的变量变换,若资料不能满足基本条件则选用适合分析偏态分布的非参数检验(如:秩和检验)进行分析。如Wang等[8]在研究不同侵袭性的前列腺癌组织和正常前列腺组织以及外周带前列腺癌Gleason评分与肿瘤信号对比时采用t检验。Kung等[9]在研究化脓性髋关节炎的临床和放射学预测指标时也使用t检验分析。秩和检验包括基本秩和检验(Wilcoxon等级检验、Mann-WhitneyU-检验)和高级秩和检验(Kruskal-Wallis、Friedmantests、Kolmogorov-Smirnov拟合检验)。当研究资料为两方差齐且呈正态分布的总体,而总体分布类型未知或者不满足参数检验的条件时,采用t检验对样本进行比较;但若无需比较总体参数只比较总置的分布是否相同且总体资料分布类型未知时需要采用非参数的Wilcoxon秩和检验进行比较。针对两组或多组样本的定性资料使用秩和检验比较时,需要混合两样本数据、编秩(从小到大)、计量T值、查表或计算求得P值。如Saindane等[10]在对“空蝶鞍”的临床意义判定因素研究中针对颅内压增高和偶然发现空蝶鞍患者两组资料对比时采用Wilcoxon秩和检验。Filippi等[11]在研究DTI测量儿童Ι型神经纤维瘤病胼胝体派生指标时运用Wilcoxon秩和检验。事实上在影像资料分析中经常见到多重组间比较的情况,方差分析(analysisofvariance,ANOVA)就是用来推断两个或者多个总体之间是否有差别的检验,又称F检验。多重组间比较不能单纯选用两样本均数比较的t检验,但是可以根据资料类型选用ANOVA检验。若来自两个随机样本资料呈正态分布且方差齐性同的定量资料,应采用两因素(处理、配伍)方差分析(two-wayANOVA)或配对t检验。通过F检验可以比较可能由某因素所至的变异或随机误差,同时可了解该因素对测定结果有无影响。当不满足方差分析和t检验条件时,可对数据进行变换或采用随机区组设计资料的FriedmanM检验。Obdeijn等[12]在研究乳腺术前MRI能减少术中切缘和乳腺保守术后再次手术,使用ANOVA分析两组资料,结果对照组(29.3%)相比术前MRI病例组(15.8%)有效减少切缘和再次手术(P<0.01)。
1.2.2相关性分析
相关性分析不等同因果性,也不是简单的个性化相比,其涵盖的范围和领域较为广泛。统计学意义中的相关性分析包含相关性系数的计算,其过程为:每个变量转化为标准单位后,乘积的平均数即为相关系数。相关性分析可以用直观地用散点图表示两个或者多个变量的离散,当其紧密地靠近于一条直线时,即变量间存在很强的相关性。相关分析常用的方法有Pearson相关性分析、Spearman等级相关分析和卡方检验。临床中对两个或者多个均为定量变量的资料,且变量均呈正态分布时可选用Pearson相关分析,但多数情况下Pearson相关分析适用于两组资料的相关性分析。判断两变量之间线性关系的密切程度主要用Pearson积差相关系数,其范围为-1~+1。若相关系数的绝对值越接近1,即两变量间相关性越密切;反之,相关系数的绝对值越接近0,其相关性越差。实际上在高质量期刊论文中使用Spearman等级相关分析的研究也很常见,其通过相关系数进行变量间线性关系分析来判定两个变量间相关性的密切程度。而密切程度的量化指标则通过计算样本相关系数r,根据实际计算r绝对值所属范围来推断两个来自总体变量的线性相关程度,从而推断总体的相关性。根据实际分析需要,将相关关系密切程度分为6等:当IrI=0时,说明两变量完全不相关:当0<IrI<0.3时,说明两变量不相关;当0.3<IrI<0.5时,说明两变量低度相关;当0.5<IrI<0.8时,说明两变量显著相关;当0.8<IrI<1说明两变量高度相关:当IrI=l时,说明两个变量完全相关。王效春等[13]在研究磁敏感加权成像与动态磁敏感加权对比增强MR灌注加权成像联合应用在脑星形细胞瘤分级中的价值一文应用Spearman等级相关分析,结果显示肿瘤内磁敏感信号与相对血容量最大值和病理分级呈正相关(IrI分别为0.72、0.89,P值均<0.01),相对血容量与病理分级呈显著正相关(r=0.78,P<0.01)。又如Lederlin等[14]在比较几何参数、相关功能与组织学特性在哮喘患者的支气管壁CT衰减性关系中同时使用Pearson相关分析和Spearman等级相关分析,其r=0.39~0.43,表明与对照组相比常规CT衰减参数在哮喘患者平常支气管的CT参数、气道壁衰减方面更好的区分哮喘患者,同时也更好地区分气道梗阻。值得提及的是对资料有序或无序无法作出初步判定,且明确资料类型为定性资料时还可以选择使用卡方检验和Spearman等级相关分析。
1.2.3影响性分析
由于事物之间的联系是多种多样的,而某一结局可能受到来自其他多个方面的影响,此时为分析某一结局发生的影响因素可采用的资料分析方法有线性回归(一元或多元)、logistic回归、Cox比例风险回归模型(生存分析)等。在影像资料分析中一元线性回归是将影像资料中一个最主要影响因素作为自变量来解释因变量的变化。多元回归定义为某一因变量的变化受多个重要因素的影响,而此时需要用两个或多个影响因素作为自变量来解释因变量的变化,且多个自变量与因变量之间是线性关系(多个因变量之间相互独立)。实际研究中多元线性回归模型在影像资料分析应用较为广泛。Langkammer等[15]在磁敏感系数绘图在多发性硬化中应用研究中使用多元线性分析,结果显示各种影响因素中年龄是预测磁化率影响最强的因素。Logistic回归是研究二分类和多分类观察结果与某些影响因素自己建关系的一种多变化分析方法,其经常需要分析疾病与各影像指标之间的定量关系,同时又需要排除一些混杂因素影响。Logistic回归在统计学上属于概率型非线性回归,其分析思路与线性回归大致相同,能有效解决过高或过低水平因素以及分析因素少而样本量大等问题。相比多元线性回归,Logistic回归在处理分类反应数据方面更为常用,且适用于结局为定性影像资料。如Lee等[16]研究高分辨率CT在发现小蜂窝样特发性间质肺炎纤维化的连续变化和预后应用中使用logistic回归分析,结果表明高分辨率CT在网状和磨玻璃状范围内评价普通肺炎与非特异性纤维化肺炎之间差别明显(P<0.01)。在临床实际工作中常常需要分析生存时间与影像资料之间的关系,Kaplan-Meier法就是常用的一种分析方法,其又称乘积极限法,对大小样本资料分析均适用。实践中习惯上以时间为横轴、生存率为纵轴回执的阶梯状图称为Kaplan-Meier生存曲线(survivalcurve),也称K-M曲线。Cox比例风险回归模型是另一种生存分析方法,包括参数与半参数模型两类,其主要是进行多因素生存分析的一种方法,同时可分析众多变量对生存时间和生存结局的影响。Saad等[17]在经颈静脉肝内门体静脉分流术在肝移植受者的技术分析和临床评估研究中比较成功施行肝移植与非移植病人开展门体分流术(transjugularintrahepaticportosystemicshunt,TIPS)后的临床疗效评估,使用了Kaplan-Meier法,结果显示6~12个月、12~24个月、24个月以上,移植成活率分别为43%、32%和22%。生存期大于1年的晚期肝脏疾病模型存活评分低于17分、等于17分或大于17分的存活率分别为54%和8%(P<0.05)。
2其他适用方法
2.1ROC曲线
ROC(receiveroperatingcharacteristic)曲线是欧美影像学期刊中应用较为常见的统计学方法,国内期刊应用相对较少。ROC曲线根据一系列不同的分界值以真阳性率(灵敏性)为纵坐标,假阳性率(特异性)为横坐标绘制的曲线。ROC曲线分析结合灵敏度(sensitivity)和特异度(specificity)广泛应用于医学诊断,也应用于影像诊断及人群筛查。ROC曲线根据曲线下面积(areaundertheROCcurve,AUC)的大小对诊断试验作定量分析。理论上,AUC值在0~1间。根据实际情况将诊断分为不符合诊断(AUC<0.5)、无诊断价值(AUC=0.5)、低准确性(0.5<AUC<0.7)、一定准确性(0.7<AUC<0.9)、较高准确性(0.9<AUC<1),AUC越接近于1,表明诊断准确性越高。Hyodo等[18]在研究乏血管少结节的慢性肝脏疾病患者发展成富血管性肝细胞癌风险因素一文中使用ROC曲线分析,结果显示后续发展成血管性结节平均增长率明显高于非血管过渡性结节。
2.2Kappa检验
Kappa检验主要用于评价不同资料间一致性程度,常用Kappa值评价一致程度。Kappa系数适用于两项和多项无序分类变量资料。在影像学试验中常需要判断多名医师测量同一研究对象或者同一医师多次测量同一对象的一致性,Kappa一致性检验便是最佳选择。Kappa检验还可通过计算Kappa值对两种非金标准的诊断方法进行诊断结果一致性分析。一般而言,评价Kappa一致性需要计算Kappa系数,但在研究考察新的诊断试验方法是否优于金标准,或者检验是否与金标准一致时,还需要计算特异度、灵敏度、阳性预测值和阴性预测值等指标。目前公认的Kappa系数分为六个区段即一致性极差(Kappa值<0),一致性微弱(Kappa值0~0.2),一致性弱(Kappa值0.21~0.40),中度一致Kappa值(0.41~0.60),高度一致(Kappa值0.61~0.80),一致性极强(Kappa值0.81~1.00)。
2.3Levene检验
相关热搜:统计学 统计学原理
一、数据统计分析的内涵
数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。
二、数据统计分析的原则
(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。
三、推论性统计分析方法
(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。
四、多元统计分析方法