本站小编为你精心准备了外语科研统计手段梳理参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
统计方法在外语教学与研究中得到越来越广泛的应用,主要原因在于:首先,外语教学研究重视定量研究。定性研究虽然可以对语言现象进行详尽的质的考察和描述,但其考察的数量往往有限,有时观察到的现象可能是个别的、特殊的,其结论可能缺乏普遍意义。因此,外语研究人员需要对语言现象进行大量的观察、收集和分析,从中找出普遍性的特征和规律。对大量的语料进行处理和分析时,往往需要统计方法和统计手段。因此,了解统计原理和统计方法对从事定量研究至关重要。其次,越来越多的高校开始为英语语言文学、外国语言学和应用语言学专业的学生开设统计学课程,使他们掌握一定的统计理论和统计方法。因此,越来越多的外语研究人员能够把统计方法运用到其研究之中。第三,先进的计算机信息处理和储存技术,使外语研究者能够方便地运用统计方法和统计技术。大众化的统计软件,如SPSS的开发应用,更是在很大程度上方便了人们使用统计方法和统计技术[1]。从从20世纪80年代后期开始,我国学者在语言学与应用语言学研究中使用现代化的统计和测量手段进行量化研究有了上升的趋势[2],外语教学研究类学术杂志上的实证研究文章越来越多,英语专业硕士研究生论文中也在大量地应用教育统计手段[3]。但国内研究者运用这些统计手段的情况如何?统计手段使用是否得当?在实际操作过程中研究者是否达到了自己的研究目的?对统计结果能否进行合理的解释?本文旨在对英语专业硕士研究生硕士论文中统计手段的使用情况进行调查,以了解研究者在统计手段的使用上存在什么样的问题,并对描述统计、相关关系、显著性检验、回归分析等常用统计手段的误用进行梳理。通过对外语科研中的教育统计方法的探究,帮助研究者了解不同统计过程的使用前提条件,以避免使用中由于误用带来研究结论的不正确,从而掌握更为科学的统计方法来探索外语学习规律,提高外语科研质量。
1外语科研中教育统计手段的误用
本文对某高校英语专业硕士研究生40篇涉及到实证研究的硕士论文进行了统计分析。通过仔细阅读运用了统计手段的这些论文,我们发现国内研究者虽然已经注意应用一些数据分析的方法,但相当多的人对统计手段不太熟悉,在各种统计方法的具体使用中有许多不尽人意的地方。在统计手段的应用方面存在着以下问题:
1.1统计分析方法过于简单。对上述的实证研究论文作了统计之后,发现大部分调查和分析收集数据的主要方法是问卷调查,统计手段使用过于简单,只使用了描述性统计方法和相关分析,而未使用推断性统计方法,统计上存在误用现象。在描述统计中,用得较频繁的是频度统计、平均数、百分比描述、标准差等统计量[4]。但这些统计量仅能进行单变量数据描述,并且数据拘泥于就事论事的罗列,不能发现变量间的联系,不能对数据进行深层次的挖掘。描述统计中常见的问题还有:不能正确地使用平均数、中位数或众数等反映集中趋势的统计量来表示实际的平均水平。一般说来,定类变量的数据的代表性数值是众数,可以直接观察,简易、迅速、方便地确定数据的中心点。定序变量虽然也可用众数表示,但其代表性数值应是中位数,因为中位数能更好地体现定序变量的等级数学特征。中位数的大小,取决于它在排列数据中的位置,不受极值的影响。定距变量可以用众数、中位数和平均数为代表性数值,但平均值更适合表示定距变量数据的加减数学特征。平均数适合代数运算,而众数和中位数不适合代数运算。但当一组数据中出现极值时,平均值的代表性就比较差。如某班19名同学的成绩是:20、23、30、56、62、65、67、70、71、72、75、76、78、79、80、82、88、89、95。这组数据平均数是67,而中位数是72,二者相差5分。平均数与中位数之间的差距,显然是平均数受到了极值的影响。因此,在本例中,中位数的代表性比平均数好,也就是说,中位数更能代表学生的总体考试成绩。相关分析可以挖掘多变量间的关系,如关联的程度和方向;也可用于信度分析、预测、理论假说检验等,是一种功能强大的多用途统计技术,但这些却常常被许多作者所忽视或错误运用,从而给研究结果造成了致命缺陷。一些研究者由于未把握各种相关分析使用的条件,滥用皮尔逊相关分析[5]。如果两个变量都是通过定距量表测量的、数据呈线性关系时,就可以使用Pearson相关系数,或称积距相关(productmomentcorrelation)系数。如果数据是定序数据,就可以使用Spearman相关系数。Spearman相关系数实际上是Pearson相关系数的非参数形式,它适合定序数据或不满足正态分布假设的等距数据的相关分析。分析前如果不知道两个变量之间是正相关还是负相关时,选择双侧(two-tailed)显著性检验。如果事先知道相关方向,则选择单侧(one-tailed)显著性检验。相关分析中的显著性检验时,如果p值小于0.05,相关系数才具有统计意义。桂诗春和宁春岩在解释相关系数时已经很明确地指出,经常会有人把相关系数的显著性和相关性高低混为一谈,相关系数的显著意义和相关系数的意义是两回事。因为相关系数的显著性水平和样本大小有关。只要样本达到一定数量,统计显著性是很容易满足的统计量。如果相关系数过低,达到统计显著性也说明不了问题,因此谈论相关性的高低必须是以显著性检验为基础的,但不少研究者往往根据统计显著性做出相关的结论。以上任何一方面的误用都会使相关分析的结论产生误导。
1.2对抽样方法没有明确说明。调查表明,只有少数论文给出了抽样方法,几乎没有论文对抽样框的选取方法做出恰当的说明,而统计量同时要受抽样误差和非抽样误差的影响,即研究结论同时要受抽样误差和非抽样误差的影响,抽样方法和抽样框的选取方式在论文中是必要的。统计理论指出:抽样误差是由被抽选样本的随机性而产生的误差,只有采用概率抽样方法才需计算抽样误差,即抽样误差只存在于概率抽样方式之中;而非抽样误差是指除抽样误差以外的,由于各种原因而引起的误差。在调查设计阶段,问卷的设计有缺陷,如变量的概念和范围不明确,就会产生非抽样误差。抽样框的不完善是误差产生的另一个来源;在数据收集阶段,调查人员没有能够得到被调查单位的数据、被调查者提供虚假数据、录入错误都会产生非抽样误差;而在数据处理阶段,数据的录入与编码错误同样会产生非抽样误差。一篇硕士论文如果采用了抽样调查但没有对抽样方式与抽样框的选取方法做出恰当的说明,就难以保证其结论的可靠性。只有少量的论文对样本量的选取方法、论文结论的可靠性做了分析,只是笼统地由样本统计量对总体参数进行简单的推测,很少使用区间估计方法。
1.3混用显著性检验方法。在外语教学研究中通常使用的统计检验T检验和卡方检验。T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著,看它们之间的差异是随机差异还是本质上的差异的参数检验方法。当总体呈正态分布,总体标准差未知,而且样本容量n<30,那么这时一切可能的样本平均数与总体平均数的离差统计量呈t分布。SPSS提供的T检验方法有独立样本T检验、配对样本T检验和单样本T检验。选择不同的T检验是根据不同的研究目的来确定的。如果比较两个不同的样本(即独立样本)在某个变量上的差异时使用独立样本T检验方法;如果需要比较同一个样本在两个变量上的差异时,就是用配对样本T检验的方法;如果比较的是一个样本的平均值与某个指定的值时,就使用单样本T检验。这3种方法的原理大不相同,但很容易混淆,所以我们做T检验时应指出用哪一种。遗憾的是在调查的论文中很少明确说明。在部分论文中,作者不仅没有明确说明用哪种T检验,而且明显混用了这几种T检验。另需注意的是,我们要保证两个对比组的安排是随机的,还要注意不能对几个组的平均值做交叉比较,因为这样会误导我们拒绝无差别假设,从而得出接受实验假设的结论。做交叉比较应使用方差分析[7]。卡方检验是一种非参数检验,主要是检验频数的分布和某个概率分布模型是否一致。它有单向表和双向表两种检验,即把频数按一种或两种分类标准进行整理和排列,并了解同一因素内部或两个因素之间是否相互独立。在各种问卷调查中我们常需要使用这种方法来决定被调查人的各项反应是否有显著性差异。但是很多作者仅仅满足于统计频数、计算百分比、平均数,没有进一步做卡方检验。X2检验主要根据X2分布理论对数据进行统计分析,它适用于对多项分类的数据进行检验。X2检验的基本思路是将收集到的数据按次数分组,然后进行拟合度检验或独立性检验。拟合度检验指检验次数的分布是否与某个概率分布模式拟合。也就是说,检验某一实验因素实际出现的次数与期望出现的次数是否有显著性差异。
1.4回归分析的误用。回归分析研究变量间数量关系,它根据大量的数据资料找出变量之间因果关系的数学表达方式,用数学方程的形式来反映变量间的变动关系,这种方程称为回归方程。涉及两个变量的回归分析称为一元回归;涉及3个或3个以上变量的回归分析称为多元回归。回归方程可能是直线方程,也可能是曲线方程。回归分析是考察几个自变量和一个因变量的关系。这些自变量各自对因变量都有所影响,但要考察它们联合起来对因变量又是怎样影响的,我们可以把这些因素放入多元回归的方程式里进行计算。通过建立因变量与自变量之间的数学表达式Y=f(x),就可以从自变量的一个取值得出因变量的相应取值,这一完整的分析和计算过程就是回归分析。回归分析作为一种科学的方法,可以广泛应用于外语教学研究。人们可以在大量观察的基础上,利用观察数据和历史数据,建立现象间的回归方程,用于预测和估计。例如,人们可以利用高考英语入学成绩,预测和估计大学英语考试的成绩;可以用外语学习者学习外语的时间、学习动机和学习策略等因素,来综合估计和预测其外语提高水平。只有当两个变量之间存在着较高的相关关系,回归分析才有意义和价值。相关程度越高,回归预测就越准确。因此,在做回归分析之前,往往有必要先进行相关分析,然后根据研究理论框架和研究目的,选择相关程度高的变量做回归分析,建立回归方程。如果变量之间相关程度很低或没有真正的相关关系,进行回归分析就没有多少或完全没有意义。多元回归分析问题主要在其数学模型要求应用于连续型数据,这种数据的连续性在社会科学研究中有时是不满足的,而我们有些研究生片面认为谁的论文中统计方法使用得越多、越复杂,其结论越可靠,经常把不连续型数据用当成连续型来使用,造成不同的赋值方法其结果不同,使得研究结论更不可靠。
1.5忽略效度和信度检验。虽然大部分调查的论文都提供了有关测量工具方面的信息,但有超过半数的研究未提供令人信服的证据来说明其测量工具借鉴了前人相关的研究成果,而且是有效可靠的。其中有些测量工具是研究者自创的,但由于论文既没有说明工具与相关研究之间的关系,又没有介绍设计测量工具的过程和依据,因此使人无法判断工具的信度和效度。还有些测量工具是借用或改编而成的,但研究者却未提供借用或改编的理据。另一个值得注意的现象是,即使在那些介绍了设计调查工具过程和依据的论文中,工具的效度和信度这一重要问题也往往被忽视,只有个别文章提到了对工具信度的检验情况[8]。72%的被调查论文使用了问卷的信度与效度检验。大部分论文采用的是内容效度,使用专家评判法。但信度检验中存在着很多问题,大部分论文只是给出了重测信度、平行信度、折半信度或内部一致性信度的数值,计算方法没有在论文中体现出来,与其论文所附的问卷并不匹配,其问卷中既有主观性问题(如使用李克特五级式量表,从“完全同意”到“完全不同意”,分别赋予1~5分),又有客观性问题(如性别、年龄、每周学习时间、父母文化程度等);这两类变量计算信度的方法是不一样的。有的问卷测量的内容包含多个领域,有心理的、有社会环境的,变量中既有连续的也有不连续的,简单给出个信度数值是很难使人信服的。信度分为外在信度检验方法和内在信度检验方法。外在信度检验方法是通过对累计检验结果进行比较来验证测量的信度。外在信度检验涉及用相同或类似的测量工具多次地收集数据。使用外在信度检验方法旨在弄清楚不同的测量结果是否差异很大。如果差异较大,说明测量工具的信度不高;如果没有什么差异,即测量结果具有一致性,说明测量工具的信度高。验证测量的外在信度的方法主要有评估者之间的信度、再测信度和复本信度。选择何种检验方法取决于数据收集工具的不同性质和过程。如果数据的收集过程带有较强的主观性,如使用开放数据收集程序(访谈法、观察法等),就需要检验评估者之间的信度,即验证不同数据收集者之间的数据的一致性。如果研究者需要知道数据收集过程在不同的时间实施是否具有稳定性,即数据的收集是否受时间的影响,就可以使用再测信度检验法。如果研究者用两个版本的测量工具测量相同的概念,就需要检验复本信度。SPSS程序提供了这些信度检验方法。内在信度是指测量同一概念的不同项目之间的一致性。如果在测量工具中使用了多个独立的项目,就需要弄清楚这些项目提供的是否是相同的信息,即需要检验量表的内在一致性。也就是说,内在信度检验的是测量相同现象的不同项目是否产生类似的结果。内在信度检验方法主要有折半信度方法和Cronbachalpha系数。折半信度方法是在不可能重复调查的情况才使用的,常用的方法是将测量结果根据单双号分为两组,然后计算这两部分之间的相关系数。研究者为了使用折半信度检验测量的一致性,往往在量表中增加一倍的测量项目,重复前半部分的项目的测量内容,但在措辞上不同。如果受试者在这两部分上的得分高度相关,说明该测量有较好的信度。但通常的问卷既包含事实性问题又包含态度性问题。事实性问题一般不适合用折半信度这种方法,如何将事实性问题的信度与态度性问题的信度结合起来综合评价整个问卷的信度是个不可忽视的问题,很少有论文提及到这一点。Cronbachalpha系数是人们用来检验不易进行折半系数分析的量表的内在信度,它可以帮助人们确定影响量表内在一致性的项目。Cronbachalpha系数介于0.00和1.00之间,系数越高,说明量表内在一致性越强,测量的结果就越可靠。一般认为可接受的信度系数不应低于0.70,不过实际研究中,有时人们也使用了系数0.70以下的变量,但他们往往在研究报告或论文中说明了这一研究的局限性。值得注意的是,信度系数还受到种种因素的影响。一方面,Cronbachalpha系数容易受量表的项目数的影响。某个结构的项目数越多,系数可能越高;项目数较少,系数稍低一点儿也是可以接受的。事实上,评估信度的方法远不止这些,还有评分者信度、方差分析法信度、因素分析法评测信度、肯德尔和谐系数法等多种。由于采用不同的评估方法所得到的信度系数不同,所以在描述问卷的信度时,不能笼统地告知一个信度值,而应对取得的信度资料的特定条件、问卷的内容、采用的方法等加以详细的描述。
1.6误差方差分析。T检验中要检验的虚无假设是对两个样本的均值进行差异检验,看有没有显著性差异,方差分析要检验的虚无假设是3个或3个以上的样本的均值之间有没有显著性差异。T检验一般只适合检验两个样本的平均数是否存在差异,它只能把对一个复杂问题的探讨拆成对多组平均数两两之间差异的检验。而方差分析的特点是可以同时检验两个及两个以上样本均数之间的差异。此外,ANOVA还可以同时分析几个自变量,并且还能检验这些自变量产生什么样的影响。方差检验可以让我们知道3个或3个以上的小组的平均值之间是否有差异,但是如果发现有差异时,方差检验却不能告诉我们差异究竟出在哪里,是组1与组2和组3之间有差异?还是组2与另两组之间有差异?要回答这些问题,就需要比较小组之间的平均值。比较的方法有两种:一种是事前比较(apriorcomparison),这种方法之所以称为事前比较或事前检验,是因为研究者在收集数据之前就已经预计哪组与哪组之间有差异。而事后比较(posthoccomparison)是收集了数据并对其进行了如F检验并发现有差异之后进行的组别之间的进一步比较。SPSS软件中方差检验程序提供Contrasts和PostHoc两个计算功能,如果要进行事前检验就选择Contrasts,然后进行必要的设定;如果进行的是事后检验,就选择PostHoc,以便进行所需要的检验方法。具体研究中往往需要同时观察几个实验变量,看看这些变量之间有些什么交互作用。在这种情况下,我们需要做因子实验设计,进行多因方差分析,分析不同的因子以及因子的交互作用对变量有哪些影响[9]。在查看的文章中,不少作者满足于频数、百分比、均值等表面的比较,实际上他们收集的数据非常适合做方差分析。有的则使用了错误的推断性统计方法,如在应该使用方差分析的情况下使用了两两t检验,还有的犯了统计结果表述方面的错误,如只提供属方差分析一部分的“事后检验”(posthoctest)的结果,而未提供方差检验的结果。
此外,像其他参数检验方法一样,单因素方差检验的数据要满足以下3个条件:一是正态分布,偏态分布资料不适用方差分析。二是齐性方差,若组间方差不齐则不适用方差分析。三是要满足独立性的条件,即一个受试者的观测值独立于其他受试者的观测值。具体说来,在试验中,每个受试者只被观察一次,并且受试者是被随机分配给不同的实验条件,这样独立性的条件就得到了满足。方差分析与前面讨论的回归分析之间存在一定的关系。对于方差分析,所有的自变量都被视为定类变量;而回归分析中,自变量可以是各种测度的变量(包括定类变量、定序变量、定距变量和定比变量)。事实上,经常把方差分析看作回归分析的一种特例,几乎所有方差分析模型可以由回归模型来表示,可以用回归分析的一般方法估计出相应的参数并进行推断。
2结束语
除了上述较常见的几种统计手段存在一定的问题外,我们在调查过程中还发现英语专业研究生的硕士论文中还存在设计不够严谨、结果分析过于简单、样本过小、对实验结果未能做出令人信服的解释等问题,从而无法站在理论的高度来揭示实验结果中带有规律性的东西,而只能对观察到的表面现象进行一些临时的(adhoc)、印象式的、猜测意味极强的解释,从而极大地削弱了实验研究在促进学科理论发展上的重要功能。本调查发现,多种统计方法已经被研究者广泛使用,但在使用中由于统计知识的匮乏存在不少统计手段误用的现象,这些问题应引起统计教师的高度重视,在今后的统计教学中不但要教给学生更多、更新、更复杂的统计方法,而更要注意使学生了解不同的统计过程的使用前提条件,以避免使用中由于误用带来研究结论的不正确,从而进一步提高外语科研质量。