本站小编为你精心准备了稳健统计对经济的作用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
作者:李伯东李一微单位:浙江申嘉湖杭高速公路有限公司浙江省交通工程建设集团
一、以人均收入水平指标为例对统计稳健性的思考
在现实生活中,公众很有可能对官方公布的人均可支配收入或人均工资之类的指标数据不以为然,认为这些指标具有偏高的倾向。抛开统计误差和统计口径的影响,对人均指标产生歧义的主要原因在于收入分配是一种偏态的分布,随着影响贫富差异的因素增多,偏态呈日益严重的态势。同时收入分布中存在着异常极端的离群值,也会导致收入平均值的不正常上升。
平均数,特别是算术平均数是我们在各种媒体上经常看到和听到的经济条件指标,对其观察值的代表性研究一般是用以方差为主的若干类指标。然而均值和方差应用的条件则往往被人们所忽视,典型的表现就是不考虑观察值本身具有何种分布形态分布的偏斜程度以及观察值中是否存在一定量的离群值。
就数据的纯度量特征而言,若收入数据中存在着百万甚至亿万收入的富翁时,会极大地拉动人均收入的上升。这表明用算术平均方法计算的人均收入指标受到离群值的较大干扰,这种影响有时甚至会抵销掉其他绝大多数数据对均值的影响。在这种情况下,算术平均值并不是一个好的统计指标。相反,对于人均收入之类位置特征值而言,若以中位收入代替算术人均收入,则会对极值的干扰有较大的抗御性。就收入分布而言,中位收入较之算术平均收入是一个具有抗离群值干扰能力的稳健统计量。
人均收入水平的统计指标,除了可以用可支配总收入除以平均人数的方法得到以外,更多的情况下,是通过官方统计系统城调队的1000户问卷调查产生的,并据此来推断总体的人均指标。相应的统计量和检验值的解释都是建立在正态分布的假定之下的。因此人们往往认为只要正态分布的假定得到满足或基本满足就可以大胆使用人均收入指标,而不必再担心它的稳健性,因而可使用很多方法来检验收入分布是否为正态。
若没有关于总体分布精确的先验信息时,则只要样本容量n足够大,就可以认为样本分布是总体分布的自然逼近,但是当n很小时,是无法判断分布的正态性的。对于收入分布这样一种人的经济标志的分布而言,1000个样本单位并不能从实际上表明它具有一个足够大的样本容量。相反,对于人类身体、体重之类的自然特征指标,一般均可以直接假定它的分布正态性。这也表明人的经济特性分布较之人的自然特征分布更加复杂,而收入分布就是其中的一个典型。收入分布中存在的一定数量的离群值,虽然占数据个数总量的比例并不高,但是对算术人均收入的影响非常大,如通常所说的20%的高收入人群拥有80%的收入总量。人们试图通过正态分布拟合检验的办法来考察离群值对正态性的影响,问题在于有些正态性的检验结果对少量离群值对正态性造成的偏差,无法得到恰当的结论(例如利福斯正态性检验方法)。因而收入数据中的离群值对于基于正态假定下才有用的统计量会产生破坏性的影响。
收入分布的复杂性及很难确认的状况,使得传统的人均收入指标局限性凸现,用它来描述和推断收入水平,以及制定相应收入政策、就业政策和税收政策就显得不是很全面,有时甚至会得出错误的结论。因此寻求稳健统计方法和计算稳健统计量,对于收入分布来讲是非常重要的。
稳健统计量是相对于传统统计量而言的,两者是在比较中发展起来的。传统统计量往往侧重的是统计量的一系列计算程序。而稳健统计则将对统计量代表性的讨论,放在对数据分析特征的认识基础之上。稳健统计量首先强调对分布特征的探索,然后才是统计量的计算过程问题。就人均收入指标而言,若不明了收入分布的特征,则人均收入指标的解释力就会大大降低甚至起到负作用。
二、稳健统计的基本思想
在高斯发现/正态分布0以及最小二乘法提出之时,就有了/统计稳健性0的思想萌芽。正态分布下的各种统计量,包括均值、众数等均有较好的估计量特征,尤其是在对称分布下这些特征表现得更加充分,即使在稍有偏态的对称分布中,这些统计量也具有一定的抗御离群值的能力。应用得非常广泛的最小二乘估计量在和正态分布的前提结合的时候,也具有很多众所周知的优良性质。
正态分布假定下各种参数估计和假设检验的方法,诸如以样本均值估计总体期望值,以样本方差估计总体方差,检验统计量在原假设成立时服从正态分布的检验规则建立等等,都是优良的估计量和估计方法,无偏性、有效性和一致性等高效率性无论怎样论证都会得到理想的结论。正态分布下各种统计方法得以快速发展。
但是从对经济、社会、管理以及自然科学中各种现象的实际问题和数据分析中发现,正态分布的基本假定有时不能满足,或者即使是一个正态分布,但是否是理想化的正态分布也是值得怀疑的,人们往往发现很多数据分布是非正态和非对称的。有些统计专家甚至建议,正态分布可能不会代表大多数的分布形态,最好以其发明者的姓氏命名为高斯分布,与其他分布在名称上同等待遇。对很多数据分布形态的研究也发现,正态分布是一种理论上的分布,实际上数据至多是近似的正态分布,具体表现为适度偏斜的正态分布,而这种偏斜的程度可能会对估计量的稳健性产生致命的影响。如果某种统计方法对偏高正态假定的分布十分敏感,则就不是稳健的统计方法。
对稳健统计问题较早进行理论探讨的是t分布的发明者戈赛特等人。研究发现,若正态分布假定在实践中不能被满足,那么在正态分布基础上建立起来的估计和推断方法的价值就值得怀疑并能导致错误结论的发生。如果放宽对总体分布的正态性假定,则可用中位数等统计量来对总体的分布进行描述或者推断。这也使得不规定总体分布函数确切形式的非参数方法有了一定的应用空间。对非参数方法的应用招致批评,主要是基于当总体近似正态分布时,非参数方法没有有效利用有关分布的先验信息,因而方法的效率不高。但是当总体分布为近似正态时,常规的正态方法仍然有可能导致估计量不能达到最优,甚至不会达到近似最优。
在加拿大官方统计中,有三项商务方面的调查运用统计稳健的方法整理有关经济指标的多元数据,以发现和处理离群值数据。这三项调查分别是制造业月度调查(MSM)、批发和零售贸易五年度调查(P13)、工作场所和职业工作调查(WES)。多元统计分析中稳健统计方法的应用,主要是位置向量和协方差矩阵的稳健估计。对于具有离群值数据的统计资料,使用稳健统计方法估计相应的位置参数向量和离散参数矩阵,以缓轻和限制多元变量下离群值的不利影响。
缓解现有估计量的缺陷和改善传统估计方法的目的在于,使统计量具有更强的抗御离群值干扰的能力。
通过采用模拟研究方法能够达到改进估计量稳定性的目的。一个包含有4100个单位、涉及到四种社会类型的总体,被用来产生模拟的制造业月度调查的随机样本。被研究总体源于两个不同的数据分布形式,第一个分布是含有两个变量(产出量和原材料消耗量)的多无正态分布;第二个分布是一个被污染的分布产生这个分布中具有和第一个分布相同的算术平均数,但是变异指标方差是第一个分布的九倍(由Hulliget提出的一种污染分布的类型)。从这个含两种不同分布组成的总体中模拟产生了10000个样本容量为100的随机样本,并应用加权的方法和以前采用传统方法识别离群值的结果进行全面比较。
作为实际应用的理论准备,在稳健统计方法形成的开发和研究中,除了切尾均值、中位数等较好的稳健统计估计量以外,还相继提出了一类位置参数的稳健估计量方法(例如位置M估计量),在多参数回归模型的估计方面也拓展了稳健性回归方法,在离散特征的估计方法中提出了稳健的离散特征值估计量等等。除了稳健估计量之外,稳健平滑线、稳健拟合线的思想和统计方法也受到统计专家的重视。除了稳健统计量主要受极端离群大值和极端离群小值的影响之外,数据分布的中间段部分或其中的任意部分存在跳跃性较大的局部离群值,都会对平均平滑线和方程拟和线产生影响。例如当遇上离群值数据时,传统的一般平滑技术实际上得到的是/非平滑0效果,因此也开发出一些稳健平滑和稳健拟合的技术。良好的统计稳健性应能允许模型的假设和实际情况有一定的偏差,对数据中的离群值有较高的抗干扰性,以及当总体是由多种类型分布组合成复合分布时,都有较好的性能。
三、稳健统计的几点启示
1.重视统计量的系统化公布和有效解释。官方统计应该更加重视统计量的系统化分布,同时对相应数据分布特征的信息描述应予以有效的解释。例如收入分布的位置特征值可以考虑给出算术平均收入、中位收入等多种信息,同时辅以劳伦茨曲线、基尼系数、分段均值等统计量,详细阐述收入的分布特征。在可能的条件下,对收入全部观察值中划定一定的比例,作为离群值予以专门的处理和分析。人均收入指标的统计稳健性应将着眼点主要放在数据的主体部分。
2.加强对统计指标中各种统计量的比较研究。近年来国际统计学界提出了比较统计学的概念,它不仅是对各种统计思想和统计流派及统计制度进行比较,还着重对各种数据体系、统计分布、统计估计方法和统计量进行比较。其中较有实用价值和直观效果的比较研究,当属对传统统计量和稳健性统计量异同的比较。在收入分布的研究中,可以先按全部观察值给出统计量,然后删除离群值后给出切尾统计量。据此我们可以分析统计量在多大的程度上分别反映了数据的主体部分和个别极端部分,以及两部分数据的相互关系,同时可以观察分析的偏态。对统计量比较分析的意义还在于能使统计指标的使用者和分析者都能更好地理解数据的分布特征,以及为什么要使用稳健的统计量。
3.对经济指标的统计稳健性和统计敏感性的权衡。统计的稳健性实际上是要求统计量对离群值之类的数据具有不强的敏感性,因此它采取剔除离群值的方法,来达到统计稳健性的目的,或者是以离群值的位置,而不是以其具体数据来达到此目的。但是统计稳健的获得较之传统的经典统计量而言,要忍受观察值的一定信息量的损失,这也使得稳健统计量带来了一些缺憾。实际上这关系到对统计量稳健性和敏感性之间的权衡,因为统计量除了要谋求稳健之外,对一定程度敏感性的谋求也应是统计量优良性的标准之一。例如数据中的离群值出现,可以反映经济指标中的一些动向和新的经济亮点,可能昭示着某种趋势的到来。若统计量对此全然不顾,不能敏感地反映这种变化,则会使统计量走向另一个极端。观察值位置上分布的不均匀,使得中位数之类的稳健统计量也发生了波动,为了谋求进一步的改进,产生了复合统计量的方法。例如可由对第一、第二和第三分位数简单平均后得出稳健统计量,其特征在于稳健统计量不是一步求出来的,而是在不断改善和逼近的多次迭代过程中产生的。因此不仅增强了统计量的稳健性,也使统计量对观察值的抽象性加强。
4.重视对离群值数据确认和处理技术的开发与应用。从某种意义上讲,统计量的稳健性在很大程度上表现为离群值干扰性的严重存在,所以对经济指标数据中离群值的分析应用就显得十分必要。离群值是那些离主体数据部分的极端大(或小)的数值,从其产生的来源和过程来看,会有因测量条件(测量环境和计量单位)、登录错误、定义概念不一等各种导致测量误差的原因,也有其他总体的分布数据混入以及反映了真实情况的离群值异常情况。同时某个数据是否属于离群值,一般是用残差的大小来判断的,若残差值较大,则可以被视为离群值,并可以进一步分析其产生的原因和可能的解决方法。需要注意的是,残差的衡量最好应以稳健的统计量作为标准,同时残差的大小与计算单位有关,变换计算单位或改变残差大小的标准,会使得分布的对称性受到影响。因此,应重视计算单位和残差标准理论的研究。如城市人口以万计还是以百万计,所表明的分布偏态程度具有较大的差异,因此在规模大小不同的城市间进行差异比较时,应考虑使用不同的人口计量单位进行反复的比较研究。当离群值数据较多时,可以视其为一种由异质总体合并而成的复杂总体。此时可能的解决方法是以多个统计量进行分段式的统计量化,或者用某些稳健统计量描述主要的总体部分,而忽略次要总体的存在。
5.利用计算机软件来支持和分析。虽然当变量和数据的个数较少时,手工的计算可以满足稳健统计量的计算要求,但是对于大量数据的统计稳健性分析,以及需要通过多次迭代过程才能产生的稳健统计量而言,计算机技术的应用是不可避免的。早在20世纪80年代初期,Minitab统计软件包中就已经有用于考察残差的稳健统计方法。时值今日,普及程度相当高的Excel问世以后,为稳健统计量的计算和分析开辟了全新的、更简单快捷和更普遍使用的手段。使用Excel宏命令中的加载宏和复制宏功能可以很方便地打开各种稳健统计量的计算方法,并可以对其进行假设检验。