本站小编为你精心准备了教育统计强相关系数运用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
一、前言
我们知道,对于存在线形关系的变量X和变量Y,它们之间的相关关系需要用线形回归模型来研究。因为对于随机变量X、Y来说,如果X、Y存在线性关系Y=aX+b(a≠0),那么当X取遍其取值范围内的一切值时,X、Y所对应的点就是一些随机点(X,Y),而这些随机点落在平面XOY上的图形应当是一个散点区域D,这些随机点(X,Y)会以一定的概率落在直线Y=aX+b上。当这些散点的分布趋势与直线Y=aX+b的形状相像时,则表明变量X、Y之间存在线性关系Y=aX+b(a≠0)。由于受到回归的影响,如果样本中存在极端值或有异常值出现,就会降低这些随机点(X,Y)落在这条直线Y=aX+b(a≠0)上的概率,那么随机变量X,Y的相关系数r就会受到影响。而强相关系数可以解决这一问题。下面借助一个实例来介绍和分析强相关系数在教育统计中应用的可行性。区别于相关系数r,强相关系数r*的表达式为:r*=M++M-M+-M-[2]。它是利用中位数而非平均数和标准差来计算两个变量X,Y的相关系数,这是因为,相较之样本数据的平均数和标准差来说,样本数据的中位数更不受极端值和异常值的影响。式中M+、M-分别为向量u1、u2的强性方差。u1=~X+~Y、u2=~X-~Y分别为和与差向量,其计算公式如下:~X=X-XX*X,~Y=Y=YX*Y式中的~X、~Y是位置强度估计值,S*X、S*Y是标度强性估计值。
二、统计分析
在这里我们利用中英西南教育项目中的数据做为例子来分析。在这个例子中,研究者针对每组研究的被试人数的总样本大小进行了抽样研究,即包含被试人数越多的组别其抽样样本的人数越多。因此,如果将每组抽样样本的人数(F)和该组实际样本的总人数(Total)作为研究的两个变量,那么变量F和变量Total之间应该呈明显的线性正相关关系。利用Pearson双尾检验,我们可以得到这500组数据(部分数据见表1)的相关系数r=0.984**(**p<0.01)。表1抽样人数F和实际人数Total的部分数据组1组2…组250组251…组499组500抽样样本人数F1.02.0…4646…170171总样本人数Total5.05.0…9598…394353现在我们在这500组数据的基础上插入一个异常值(172,0),变量F和变量Total之间的积矩相关系数r就由原先的0.986降低到0.970;如果在这500组数据中插入十个同样的异常点(172,0)则积矩相关系数r就变成了0.860。从而大大降低了积矩相关系数的有效性。因此,对于样本较大且包含较多异常值的数据,为了避免剔除数据的麻烦并且保证相关系数的可靠性,我们可以采用强相关系数来进行统计分析。要计算插入一个异常点之后得到501组数据的强相关系数,就要先算出F和Total的中位数和绝对离差中位数(MAD)。通过spss16.0将数据排序,我们得到第251个数据即是F变量的中位数,大小为46。再通过计算我们得到:SF*=MAD(F)=33。同理我们可以得到Total的中位数是96,ST*=MAD(Total)=70。利用公式可以分别求出F和Total两组数据的位置强性估计值(见表2)。
三、结论
(1)和李军等的研究不同,本研究在计算强性相关系数时,样本包含的数据个数为奇数,结果发现,利用强性相关系数对数据个数为奇数的样本进行相关分析是同样可行的。
(2)除此之外,该样本的数量较大,当极端数据较少时,极端数据对积矩相关系数的影响并不大。当我们加入一个极端数据(172,0)之后,样本的积矩相关系数从原先的0.984降低到0.970。而当我们在这500组数据中插入十个同样的异常点(172,0)之后,样本的相关系数r由开始的0.984变成了0.860。
(3)显然,经典统计中的相关系数较易受极端值的影响,不足以对含有极端值或异常值的样本进行合理的解释说明。而强相关系数r*跟未插入极端值的样本的相关系数更为接近,足以证明利用强相关系数分析样本的相关关系这一统计方法在含有极端值样本中的可行性。所以,对于含有大量异常值的数据样本来说,强性相关系数比经典统计中的积矩相关系数更能说明两个变量之间的线性相关关系。