美章网 资料文库 计量经济学可行性研究范文

计量经济学可行性研究范文

本站小编为你精心准备了计量经济学可行性研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

计量经济学可行性研究

一、引言:“经验研究可信性”的三次大讨论

在我国,经过30年的发展,计量经济学模型已经成为经济理论研究和实际经济分析一种主流的实证方法。①与此同时,人们对于计量经济学模型方法产生了不同的甚至是相反的评价,究其原因部分来自于计量经济学模型方法本身,更多地来自于计量经济学模型的应用研究(李子奈和齐良书,2010a)。一部分研究者由于不了解计量模型方法具体的应用背景和适用条件,陷入一种滥用和错用的误区,一项实证研究从计量经济模型的设定开始,一直到模型的估计、检验、评价和解释,随意性和错误随处可见。针对这一现象,洪永淼(2007)、李子奈(2007,2008)以及李子奈和齐良书(2010a,2010b)联系我国实际,从计量经济学在现代经济学中的地位、作用和局限性以及其哲学基础、经济学基础、模型设定问题等角度对计量经济学的方法论进行了奠基性的研究。

计量经济学作为一门独立的经济学分支学科,其区别于其他相关学科的本质特征是什么?计量经济学应用研究的科学性和可靠性如何保证?这些问题引发了国际计量经济学界三次集中的大讨论,一场经验研究的“可信性革命”(AngristandPischke,2010)蔚然成风。第一次大讨论始于著名的“凯恩斯—丁伯根之争”(Keynes,1939,1940;Tinbergen,1940),凯恩斯认为丁伯根所用的多元回归分析是一种“巫术”,计量经济学作为“统计炼金术”的分支还远未成熟到足以成为科学的分支。凯恩斯反对使用概率论,而丁伯根使用的“回归”却未能利用概率论的原理很好地解释估计结果,当时的经济学经验研究陷入困难丛生的境地。最后这场争论以Haavelmo(1944)《计量经济学中的概率论方法》一文的发表而告结束,该文为经济学中的概率论思想正名,在概率论的基础上建立起统一的计量经济学基本框架。自此,计量经济学不仅改变了人们关于客观经济世界知识的形成方式,而且逐渐成为经济学主流的经验研究方法。

1980年代初,众多学者的反思掀起了有关经验研究可信性问题的第二次大讨论。Sims(1980)对当时的大型宏观计量经济模型所施加的外部约束条件的可靠性提出质疑,认为这些不现实的约束条件将导致不可靠的政策分析结论,进而建议使用更少约束条件的VAR建模策略。该模型已被研究者和政策制定者所广泛采用,主要用于分析经济如何受到经济政策临时性变化和其他因素的影响,Sims也因此获得2011年诺贝尔经济学奖。Hendry(1980)就计量经济学的应用沦为炼金术问题展开尖锐的批判,提出让经验研究走向科学的一条金科玉律就是“检验、检验、再检验”。Leamer(1983)一文则指出回归分析中模型假定以及控制变量选择的随意性导致的结果脆弱性,由此提倡应该进行回归模型的敏感性分析。Black(1982)以及Pratt&Schlaifer(1984)对应用研究者将回归模型中的相关关系错误推广至因果关系提出批判,同时对两者的区别进行了详细的论述。

面对第二次讨论中出现的难题,计量经济学家提出了各种建模思想、估计量以及检验统计量,理论计量进入百花齐放的阶段;然而,理论计量研究与经验研究之间的裂缝反而扩大了,理论计量越来越复杂,应用计量则在某些领域变得越来越简单(Heckman,2001)。为此,进入新世纪以来,以JournalofEconometrics百期纪念专刊对计量经济学方法论、模型方法发展的总结为开端,以重要学术期刊的专刊①为阵地,计量经济学界掀起了对经验研究可信性的第三次大讨论,并形成了模型设定的统计适切性和因果关系的有效识别两大核心议题。

纵观三次大讨论,可信性革命的核心问题在于实现经济理论、统计学、数学在计量经济学应用研究中的科学结合。第一次大讨论主要关注经济理论与数学的结合问题,解决了计量经济学的概率论基础问题,同时确立了凯恩斯宏观经济理论在模型设定中的导向作用。第二次大讨论突出了数据与模型的结合问题,在宏观实证领域摈弃了模型设定的经济理论导向,确立了数据关系的导向作用。第三次大讨论强调了模型设定的统计适切性问题和因果关系的有效识别问题,本质上是试图实现经济理论导向和数据关系导向的综合,向实现经济理论、统计学、数学的科学结合迈出了坚实的一步。

当前,中国计量经济学正处于迈向国际化和规范化的新阶段,面临着与国外先进水平的实质性接轨,这其中的一个关键问题就是提高应用研究的可信性。如何借鉴国际经济学界对于经验研究可信性问题的研究成果应成为我们的着力点之一,这也是我国计量经济学基本理论研究延续和深入的需要。为此,本文首先厘清计量经济学探索客观经济世界过程的本质特征,进而从模型的随机性设定、经济变量之间的因果关系识别以及模型的统计适切性评价等三个方面论述计量经济学应用研究的可信性来源,以期抛砖引玉,达到对计量经济学应用研究的正本清源。

二、计量经济学对客观经济现实的探索过程

现代经济学研究建立的基本假设前提是(Hendry,1995):现实经济世界中存在着某种具有规律性的机制,这种机制是由经济主体的生产、交易、消费等行为构成的,并进一步认为经济机制的某些规律性是可以测度的,这种可测的机制部分称为数据生成过程(简称DGP)。经济学家对于客观经济世界真实DGP的认识和探索经历了一场从决定论法则到“无序中的有序”的概率论法则的变革,而在这场变革中,计量经济学起着关键作用。计量经济学家将随机性视为客观经济现象的特殊矛盾性,并致力于寻找合适的方法论基础以保证计量经济学应用的可靠性。

Haavelmo(1944)澄清了计量经济学研究对象的特殊矛盾性,认为经济规律的特有性质决定着概率论方法运用的必然性;文中把随机性作为一条规律引入模型,用概率分布及其特征值来描述客观经济现象的变动规律,尤其是引入联合分布来刻画相互依存、同时确定的变量的变动关系,使得随机性设定成为计量模型不可或缺的重要部分;进而在概率论的基础上,利用20世纪初统计学的最新成果建立起计量经济学的基本框架。因此,该文被誉为计量经济学的“南十字星座”,开启了计量经济学的现代之门(Hoover,2005),Haavelmo也因此获得1989年的诺贝尔经济学奖。此后,计量经济学家对计量模型描述客观经济现象的本质特征有了清晰的认识,本文阐述如下。

(一)计量经济学探索客观经济世界的本质特征

经济现象(体现为观测数据)是定义于一个完备概率空间(Ω,,P0)的随机过程Z≡{Zt∶Ω→ν,ν∈,t=1,2,…}的一个实现,概率测度P0提供了对序列Z的随机行为的完全描述,因此被认为是真实的数据生成机制,即最一般意义上的DGP。正是由于P0未知,才产生建模、估计和推断问题,如果我们可以得到Z的一个实现,就可能从Z中推断P0。因此,计量经济模型建模的首要含义是从现实经济世界到概率空间的映射。由于概率空间(Ω,,P0)过于抽象,并不能为我们提供一个足够灵活的框架用于对随机经济现象的建模,需要将概率空间映射到更灵活的概念———概率模型。从实际角度看,我们只能得到有限序列Zn=(Z1'''',…,Zn'''')''''的一个实现zn,即样本容量为n的抽样。生成容量为n的样本的随机过程可由其分布完全刻画。进一步定义分布函数和密度函数的参数化形式为ΦF={F(z;θ),θ∈Θ,z∈νn}和Φf={f(z;θ),θ∈Θ,z∈νn},称之为参数化概率模型,其中θ为未知参数向量。

随机过程最重要的特性是统计特性,它刻画了随机过程的本质,因而可以从偶然性中揭示出必然性。多维联合分布(密度)函数是随机过程统计特性最完善的描述。随机过程{Z}t的分布(密度)函数是既包括变量关系又包括样本点关系的高维联合分布函数,要从中得出具体可用的模型,往往需要对向量Zt(假定v×1维)进行分块Zt=(Xt'''',Yt'''')''''以及一系列的约化。例如,把对联合分布的建模约化为对条件分布建模,进而约化为对条件期望建模,这就是总体回归模型;其中Yt是l×1维的被解释变量,Xt是(v-l)×1维的解释变量。计量经济模型就是使用经济和统计假定从联合分布(密度)中识别出经济定量关系(White,1994;ReisandWolak,2007)。综合上述,计量经济学对客观经济世界的探索,蕴含着从“现实经济世界到概率空间的映射———概率空间到概率模型的映射———概率模型到计量经济模型的映射”这一过程。把随机因素规律化,这是计量模型区别于其他经济模型的本质特征:一方面可以体现人类行为与经济活动内在的随机性,另一方面也是我们控制未知因素影响的重要途径。因而计量模型的设定包含随机扰动项及其概率分布的设定,它使得模型能最大限度地逼近客观经济现实。

揭示变量之间的经济关系是建立计量经济模型的主要目的,需要基于观测到的信息资料推断结果。问题在于,我们所观测到的数据,是从某个可能的假设或原因的集合中所导致的结果,也就是说,数据和假设之间缺乏一一对应的关系,由此产生的新知识(推断结论)是一种带有不确定性的知识。这种精确性的缺乏成为归纳推理系统化的最大障碍。20世纪初,统计学家提出的一种有关新知识产生的方式有效地解决了这个问题,Rao(2004)将其总结为以下的逻辑方程:不确定的知识+所含不确定性度量的知识=有用的知识在形成新的具有不确定性的知识时,对其存在错误的可能性进行度量是一种理性选择,由这种逻辑过程产生的知识才能够用于解释现实并指导实践。计量经济分析中,无论是参数估计还是假设检验,都是基于一个样本得到的结论,但处理方式遵循了上述逻辑方程所强调的有关不确定知识的产生方式,这种处理最终通过分布来实现。因此,计量经济模型只有包含随机性设定,才能在经济关系的检验中包含对自身置信度的有效度量,从而实现对客观经济现象随机性的有效驾驭。

(二)探索过程的多样性与可靠性

经济规律具有相当局限的持续不变性,或者说经济规律的不变性是有条件的,只有在一定时空条件下,经济运行规律即真实DGP才是唯一的。然而,现代经济生活极大的复杂性,使得我们发现并建立真实模型之求往往成为奢望。从未知的真实DGP到计量经济模型,是一个探索过程,当然也就允许研究者多方尝试,从而最后的模型设定呈现多样性。

但是,这种探索性和多样性并不意味着模型设定的随意性。只有在一定建模准则下建立的计量经济模型,才能成为对真实DGP的一个有用的、可靠的近似。我们认为,经验研究的可信性必须依赖以下三个重要来源:其一,扰动项的概率结构不仅体现于模型设定,而且主宰了参数估计、假设检验等经济计量分析的主要环节,其丰富的经济和统计含义应该得到重视。其二,每项实证研究都有特定的研究目的,需要通过模型设定实现对关注效应的有效识别和可靠推断;因果关系推断作为计量经济分析的重要目标,其有效识别是经验研究的核心问题。其三,模型设定是统计推断的基础,错误的设定可以导致错误的推断;模型统计适切性是评价模型对真实DGP概率结构近似程度的重要标准。

三、扰动项的含义与随机性设定

对计量经济模型的不可观测成分尤其是随机扰动概率结构的研究,包括相应的估计和检验是理论计量的主要研究对象。对应用研究而言,它们是计量模型描述客观经济现象不可或缺的一部分,也是计量经济模型“计量含义”的集中体现。未能有效地驾驭随机设定对客观经济现象的描述功能,某种程度上也限制了对计量经济模型的创新性运用,计量经济学发展过程中的多次创新和重大突破就发端于如何更好地运用随机扰动项分布来描述客观经济现象。①Woodridge(2003)认为,对于扰动项的处理可能是任何计量分析中最重要的内容。忽视其存在,或仅作为一种摆设,计量经济模型设定就失去一个重要的可靠性来源。应用研究中却存在诸多误区,本文对此进行了梳理。

第一,将扰动项视为一种符号,忽略其重要含义。

计量经济模型的设定包含着确定性设定与随机性设定两部分。以最常见的回归模型为例,确定性设定刻画了模型中的观测变量、参数以及函数形式,随机性设定描述了扰动项的概率分布以及与解释变量的关系。一般而言,确定性设定更多体现经济意义,随机设定更多体现统计意义②,两者是相依共生的。一方面,无论确定性设定如何体现经济意义上的合理性,模型推断的可靠性仍然依赖于随机性设定的合理性;另一方面,确定性设定部分如果不合理,也会影响随机性设定的合理性,比如遗漏重要解释变量或者函数形式错误设定,可能导致随机扰动项与解释变量相关而破坏外生性假定,或者导致扰动项呈现异方差等复杂变化,从而对随机性设定部分的可靠性造成严重影响。

而且,大多数计量经济学模型方法在研究条件分布的某一属性(例如条件均值)时,往往会对其他属性(如条件方差)做一些辅助性的限制假设,忽略扰动项,这些假设的合理性就得不到讨论与研究。例如,在研究市场有效性时,常用的混合Q检验统计量只有在条件同方差下才服从渐近卡方分布,这一结论在条件异方差下并不成立,许多国内研究由于忽视这一点(如波动集聚性的存在),导致错误推翻市场有效性(洪永淼,2007)。

还应指出的是,面板数据模型目前虽大量应用,但截面相关问题尚未引起重视。面板数据中截面相关是普遍存在的,其设定既有丰富的经济含义,又是统计推断结果可靠性的重要保证。以非平稳面板数据的单位根检验为例,广泛应用的LLC检验、IPS检验都假定ADF回归中不同个体的扰动项相互独立,当存在截面相关时,这些统计量就不再收敛于原来的分布,产生严重的水平扭曲问题;即使是一般的面板回归模型,截面相关也将影响估计量的有效性甚至是一致性(Pesaran,2006)。

第二,检验过程忽略有关扰动项及DGP的设定,主观选择符合所需要的结果。

很多统计量是基于有关扰动项及DGP的某种设定推导出来的,如单位根检验、Granger因果关系检验以及协整检验对于扰动项及DGP设定有很强的依赖性。这些检验几乎是我国目前宏观经济与金融实证研究应用最广的方法,同时也是错误集中的领域。

单位根检验的DF、ADF方法的临界值选择依赖于模型是否存在截距项与趋势项。很多研究者完全按自己研究的“需要”,随意地选择模型设定,导致模型设定过程成为一个黑箱。根据Enders(2004)给出的严格检验步骤,应该对截距项、趋势项的系数进行反复的检验,以确保得到数据支持的模型设定。原始的Granger因果检验没有规定变量必须平稳但事实上隐含这一假定,很多研究都将此检验应用于非平稳时序,后续的研究已经表明,使用非平稳时间序列时,该统计量的渐近分布不再是标准分布。周建和李子奈(2004)的蒙特卡罗模拟显示,序列的不平稳性是造成虚假Granger因果关系最主要的因素之一。

在非平稳时序的协整检验中这一问题更是突出。Johansen(1988)、Johansen&Juselius(1990)提出了协整关系的MLE估计和检验方法,其检验结果对DGP的设定具有很强的依赖性。Eviews软件就给出了5种DGP下协整关系的可能结果。目前国内几乎没有应用研究进行严格的DGP识别检验,而是根据某些主观因素在各种DGP下选择检验结果。这种做法抹煞研究对象真实的总体属性,扭曲了真实的协整关系,其检验结果可能是错误的。①

第三,忽略不同数据类型的分布特性,想当然地推广统计量。

忽视检验统计量分布成立的前提,随意扩展检验的适用范围,想当然地将已有的检验统计量直接推广到不同类型的数据结构,也是造成研究结论不可靠的原因。例如,在面板协整检验中,有些研究原封不动地移植时间序列下的EG两步法。时间序列仅有时间维度,非平稳时序统计量的概率基础是随机泛函的极限定理,在此基础上产生了单位根与协整理论,其中由基于残差的EG两步法构建的协整检验统计量收敛于非标准分布。面板数据同时包括时间维度T和截面维度n,Pedroni(1999)和Kao(1999)基于残差的协整检验统计量并非时间序列EG两步法的直接推广,而是序贯收敛于标准正态分布,且要经过与真实DGP有关的参数调整。蒙特卡罗模拟显示,这种错误推广存在过度拒绝原假设的问题,此时面板协整就很容易成为一种普遍关系了,结论是不可信的。

第四,缺乏对检验的名义水平和实际拒绝概率的甄别。

在扰动项是正态分布的严格假定下,可以推导某些检验统计量原假设下的有限样本分布,对应的检验称为精确检验。更多的情形是我们只能得到统计量在原假设下的渐近分布,相应的检验称为大样本检验或者渐近检验;一些复杂检验统计量甚至是服从非标准分布,必须通过模拟获得其临界值。渐近检验用样本容量趋于无穷时的分布函数来近似表示统计量有限样本的统计特性,计算出的P值都是渐近值,可能存在过度拒绝或拒绝不足的水平扭曲问题。例如,GMM框架下的Hansen-J检验与MLE框架下的IM检验,在有限样本下就存在明显的过度拒绝问题;又如面板协整检验,其极限分布是时间维度T和截面维度n趋向无穷的结果,大部分检验统计量的极限分布建立在序贯收敛或联合收敛的极限定理(PhillipsandMoon,1999)之上,联合收敛的推导过程还往往有n、T比率的假定。这将给有限样本下统计量的检验水平和功效造成影响,使得统计量的应用受到n、T长度的限制,有些甚至不可使用(胡毅等,2010)。在国外的优秀学术期刊中,对检验的名义水平和实际拒绝概率进行区别和处理,已经成为一项经验研究可靠性的重要体现。我国大部分的宏观经济时序数据时间长度都较短,统计量分布的绝大多数已知结论又只是渐近性质,但检验统计量的有限样本适用性问题却还未受到足够重视。

四、因果关系的识别和推断

一项经济学经验研究,应该与一个清晰的、表述确切的目标相联系,只有了解构建一个模型的初衷,我们才能对其做出评价(Granger,1999)。而在诸多目标之中,因果关系的推断是核心。因果关系首先是一个哲学概念,但哲学上迄今没有给出普遍、严格、可量化的定义,社会科学对因果关系的测度更多地是基于某一角度的考虑。例如,计量经济学中广为采用的Granger因果关系检验就是从变量之间的预测关系来检验因果关系。如何定义因果效应并进行有效识别则成为可信性革命第二次和第三次大讨论的核心话题。

(一)有效识别因果关系的困难之处

Stock&Watson(2007)指出,因果效应(casualeffect)可以定义为,在一个理想的随机化控制实验中,一个给定的行为或处理对某一结果的影响。Wold(1969)明确指出,计量经济学想成为一种基础创新的科学方法,关键在于必须克服由于缺少实验所带来的局限性。在实验室条件下,先验控制某因素的效应与后验分离出该因素的效应,其结果是等价的。而现实中得到的数据大多是观测数据,我们若想在计量经济学也取得这种等价性,就必须首先将与“实验”有关的所有非控制因素的效应全部测定并分离出来。

研究者往往通过在回归方程中引入足够多的控制变量来构造一种类似于实验的环境,即获得关注变量的净效应(Woodridge,2003;Stock,2010)。我们认为,这只是获得因果效应的必要条件而不是充分条件。一方面,计量经济学分析的重要环节之一就是如何判断究竟哪些因素与“实验”有关,只要无法确定所有显著有关的变量,我们就面临着误设实验模型的问题,因而也不具备实验科学所要求的基础条件(Hendry,1995)。另一方面,即使是一种因果关系,基于回归模型也很难对其背后的作用机制进行清晰的刻画,或者明确究竟是哪一项机制在起作用。因此,无论是因果效应的存在性,还是其背后的具体作用机制的识别,都需要在研究设计和模型设定中充分考虑。经验研究中的另一种处理方式是基于描述性计量建模进行明确的因果关系推断。例如通货膨胀持久性研究,有些研究者基于自回归、不可观测成分、状态转移等模型进行了明确的因果论断。但是,这些模型都属于描述性的统计模型,意在刻画通胀的统计特征,唯有以不同形式施加经济假设,建立诸如粘性信息模型、学习模型、Calvo-Rotemberg模型或者DSGE模型,才能解释通货膨胀持久性的经济动力源(Fuhrer,2011)。又如地方政府策略互动行为的研究,往往以空间计量模型中的空间滞后系数度量策略互动行为的方向与强度。部分研究者仅据此进行特定策略互动机制的因果效应阐述是不恰当的,原因是忽视了两个重要的识别问题:第一,空间滞后关系既可能是地方政府策略互动过程的结果,也可能是某些遗漏的地区特征的外生相关或者对地方政策的共同冲击所致;①第二,支出溢出、财政竞争以及标尺竞争等理论假说都可以推导出同样的简化型地方政府政策反应函数,空间滞后模型本身不能识别哪种机制在起作用。我们认为,对于描述性建模工作,模型结果的相关背景或者可能原因的阐述是有必要的,但不能过度推广甚至是错误推广其经济含义。

(二)因果关系识别方法的新近发展

对因果关系的推断是经济学研究的重中之重,而在非实验条件下进行因果关系的有效识别又是难之又难。然而,这一事实并不排斥我们科学地进行计量经济学研究的可能性,追求更为明确、透明化的识别策略则是努力的目标。由于对哪些因素有利于透明化、识别所需的假定以及经济理论扮演的角色有着不同的见解,对因果关系的识别发展出两个方向:一是基于实际实验与准实验方法;二是结构计量建模。

1.实验与准实验(自然实验)方法

实验学派②已成为经济学经验研究的一个新潮流(AngristandPischke,2010),这些方法往往用于对一个项目、政策或一些其他的干预或处理的影响进行研究。理想的随机化控制实验为使用实际数据进行因果效应的计量经济分析提供了一个理论基准。其中心思想是通过从一个总体中随机地选取个体,然后随机地对部分个体进行处理,进而测度因果效应。处理的随机分配可以保证处理的水平独立分布于结果的任何其他影响因素,由此消除了遗漏变量偏差的可能性。此时,处理水平X对Y的因果效应就是条件期望E(YX=x)与E(YX=0)之差,其中E(YX=x)是处理组中处理水平为X时Y的期望值,E(YX=0)是控制组中Y的期望值。如果某一处理对所有成员都一样,那么X就是二元变量,因果效应可用处理组与控制组之间的样本平均结果之差来估计。而且,随机分配下这种因果效应等同于单变量的回归模型Y=β0+β1X+u的斜率系数,OLS估计量^β1就是因果效应的一致估计。由于理想的随机化控制实验所具有的对因果关系推断的优势,越来越多的研究者进行了实际实验;有些实际实验存在着道德与成本问题,研究者转而将其思想应用于基于观测数据的准实验。前文认为普通的回归分析本质上是一种相关推断,那为什么实验框架下的回归分析却可以进行因果推断呢?关键的差别就在于上述的随机分配思想。问题是,现实中的实验和准实验,都与理想的随机化控制实验存在或多或少的差距。目前国内应用该建模思路的研究存在大量错误,根源就在于对这些方法的适用范围和隐含假定缺少认识。③如果随机化失败,处理部分地以主体的特征或偏好为基础,那么实验结果反映的既是处理效应,也是非随机分配效应;即使处理的分配是随机的,但个体并不总是完全遵守随机化实验协议,实际得到的处理也可能不是随机的。④而且,实际实验和准实验还可能存在损失问题、实验效应、工具变量可靠性、控制组个体的匹配等问题,它们的叠加将使得情况变得更加复杂。⑤虽然实际实验和准实验方法得到了广泛的应用,但我们必须看到这些方法本身的局限性,并不是所有的经济学领域都具备实际实验或准实验的条件;而且,这些方法更多地是验证因果效应的存在性及程度,对于背后的作用机理则多少显得无能为力,根本原因在于这其中没有多少经济理论(结构)。

2.结构建模方法

Reiss&Wolak(2007)区分了非结构计量经济模型(或称描述性模型)以及结构计量经济模型。非结构模型基于正式的统计模型①,揭示数据(经济变量)之间的统计特征与统计关系,经济理论的作用仅限于选择被解释变量和解释变量,或者为变量间的关系提供可能的经济学解释,最终模型是以变量的联合分布的某些特征展现出来。所谓结构计量经济模型,则明确地将经济理论模型与统计模型相结合,从而有效识别出定量的经济因果关系;结构建模是计量经济学区别于统计学以及统计学与其他学科交叉研究的集中体现。

我们认为,过去十年是结构计量建模的复兴时期。之所以说是复兴,是因为既有继承,又有发展。事实上,早期基于凯恩斯主义理论的大型宏观联立方程模型就是一种结构模型。但是,这些模型一方面未能体现理性预期以及经济主体的行为特征等微观基础,因而受到了“卢卡斯批判”;另一方面在统计假定上又未能考虑数据特征,使经济理论处于一种超检验的地位,从而阻断了建模者根据数据信息逻辑一致地修改结构模型的可能。20世纪80年代随着宏观经济学中RBC模型框架的兴起以及随机效用等微观计量模型的发展,结构建模有了新的进展,而过去十年计量方法的快速进步则使得模型高度结构化。现在所谓的“结构”是指在经济行为主体的动态最优化过程中,刻画偏好、技术、禀赋以及制度等因素的深层参数(Heckman,2000;ReisandWolak,2007),从而使得模型具有坚实的微观基础;而且包含了更多的统计结构,变量的动态结构以及不可观测效应都得到高度重视。

以微观经济学的动态均衡建模为例,按照行为主体的互动类型,可以分为单经济主体的动态局部均衡模型、多经济主体的动态一般均衡模型以及动态博弈模型(AguirregabiriaandMira,2010)。在宏观经济学中,DSGE模型成为新的研究范式②,该类模型严格依据一般均衡理论,刻画了包括对行为主体所处环境、决策行为的一系列决策规则以及决策时所面临的不确定性,并在动态优化背景下构建经济主体行为方程,最终获得以非线性期望差分方程组为形式的模型均衡关系式,同时利用有关方法进行均衡的计算以及模型参数的估计。结构模型方法最大的优点在于,结构参数有着明确的经济含义,这使得实证结果也有相应的经济解释。而且,通过反事实分析可对新政策进行评估,相比实验方法,结构建模的效用最大化框架使得福利分析成为可能,政策比较和最优政策选择有了可靠标准。③

(三)经济理论在因果效应识别中扮演什么角色?

洪永淼(2007)曾指出:统计方法与工具,不管是数理统计还是经济统计,均不能确认经济变量之间的数量关系是否为因果关系。因果关系的确认,必须借助于经济理论的指导。问题在于如何指导呢?

目前流行的回归分析对经济理论的应用主要体现在以下两个方面:

其一,为变量的选择提供依据,或者通过施加回归模型参数的约束而将理论本身作为研究对象。这里需要再一次强调的是,即使回归模型的变量有相关经济背景,仍然只是提供了一种潜在的、可能的因果解释,而不是结构模型中深层参数直接的因果效应。例如,为研究拍卖的中标额和投标者数量的均衡关系,非结构建模将中标额对投标人数进行回归,在标准的统计假定下,该回归模型给出了给定投标人数时对中标额的线性预测。结构计量建模则在风险厌恶程度、追求预期利润最大化以及和人信息分布等假定下,得到给定投标人数目、中标额的条件密度和条件期望。

其二,是在实证研究前面附加一个理论模型,然后说明后面的实证模型是对该理论模型的验证,或者认为这样的实证模型设定就有了依据。然而,这并不是真正的结构建模,理论模型中的结构参数在各种“演化”之后在实证模型中已不见踪影:如果没有进行实证模型参数与结构参数之间的识别则未能根本解决因果效应的有效识别。

在经济理论与计量分析相结合的过程中,还存在一种现象,将理论模型的某些概念等同于统计概念,均衡方程与协整方程就是一个典型。经济模型中的均衡往往是一系列假定之下得到的经济变量关系的结构方程,而协整体现的是变量间某种长期稳定的统计关系,这种等同至少在以下三个方面存在问题:第一,即使变量之间不具备经济意义上的均衡关系,仍然可能具有协整关系;第二,均衡关系往往存在于多个时间序列之间,仅对其中部分时间序列进行协整检验进而得到的协整方程是不完全的,并不是变量之间均衡关系的真实反映;第三,经济理论的均衡有着丰富的含义,包括一般均衡与局部均衡、跨期与期内均衡、长期均衡、博弈均衡等,并不是所有均衡都能通过协整检验来验证,或者说协整未能体现其含义。忽视这种区别,一方面是导致DSGE模型均衡的计算以及动态博弈模型马尔可夫精炼均衡的计算等前沿领域没有得到重视,另一方面却出现了“为均衡而协整”的泛滥现象,协整似乎成为一种普遍关系了。

对于因果效应的推断,我们认为,不同的建模方法是一种互补,而不是相互替代。越来越多的经济学家(例如Granger,2001;ReissandWolak,2007;Acemoglu,2010;Keane,2010)认为必须在宏观经济学、发展经济学、产业组织、劳动经济学等各个领域的经验研究中引入更多的经济理论(结构),才能从本质意义上解释因果效应背后的逻辑链条与作用机制。结合因果推断这一重要研究目标,我们更加推崇上述的结构计量建模,实现理论建模与经验分析的统一;但在卫生经济学、社会经济学等领域,理论数理化相对滞后,一些命题的提出并没有经过严格的数理模型推导,甚至是依赖于直觉,此时实验与准实验方法则应是其因果推断的选择。那么,在承认各种建模思路合理性的前提下,如何在各自的建模框架下保证其统计推断的可靠性呢?这涉及到一项研究可靠性的另一根本问题———模型的统计适切性评价。

五、模型的统计适切性评价

计量分析中,参数估计与参数约束关系检验是我们获得有关经济规律一般性结论的归纳论证过程,其可靠性依赖于统计量的良好性质,而这些良好性质的获得又依赖于计量经济模型这个载体中的各种设定。问题在于,这些设定在实际应用中并不必然得到样本数据的支持。如果统计推断建立在各种未得到数据支持的设定之上,其结论将是危如累卵。因此,在Pesaran&Smith(1985)提出的评价计量经济模型的三个标准中,模型在统计上的适切性(StatisticalAdequacy)逐渐成为最主要的标准。当一个模型的各种假定得到数据的支持时,我们称该模型在统计上是适切的,或者说是正确设定的(White,1994;Gewekeetal.,2006;Spanos,1999;CameronandTrivedi,2005)。对模型统计适切性的重视,是计量经济学提高其应用可靠性的需要,由此形成第三次大讨论的另一核心议题。计量经济学家从两种思路解决这一难题。一种简单的想法就是,找到稳健的计量模型方法,使得统计适切性不依赖于特定的模型设定。另一种思路则是,找到合适的方法证明自己所依赖的假定是合理的,由此形成了模型选择和模型设定检验两种模型评价思路(Gewekeetal.,2006)。实证研究中,对于稳健推断、模型设定检验和模型选择的应用也存在重视不够或认识模糊的问题,以下是本文的一些看法。

首先,我们要强调经济分析不能代替统计适切性评价。例如,对于可能存在内生解释变量的回归模型,研究者往往根据理论分析、直观判断或者已有文献结论等先验经验信息,找到工具变量进行IV估计,进而根据Hausman检验判断是否确实存在内生性问题。如果工具变量的可靠性只停留在经济意义层面,而没有通过模型设定检验进行甄别,由此得到的推断结论很可能是误导性的。以教育收益率的经典实证研究(Hayashi,2000)为例,使用不同的工具变量集,得到的检验结果截然不同。原因在于上述做法忽视了Hausman检验要求IV估计量具有一致性的隐含条件,而这是在工具变量符合与扰动项正交且与内生解释变量(强)相关等严格假定之下才能得到的理论结果,在实证研究中并不必然成立,必须通过模型设定检验进行验证。①

其次,稳健推断方法与模型评价体现的是对统计适切性的不同要求,各有所长。以回归模型的非球形扰动问题为例,White(1980)与Newey&West(1987)的稳健标准误方法受到越来越多经验研究者的青睐,Angrist&Pischke(2010)甚至认为稳健标准误方法的诞生使得异方差以及序列相关这些设定检验变得不再重要,相应的GLS方法将退出舞台。Leamer(2010)指出这种认识是有失偏颇的,稳健标准误方法与设定检验及相应的GLS方法体现的是对统计适切性的两种不同要求,前者只是要求得到可靠的置信区间范围,后者则更进一步要求有效的点估计。当研究者只关注参数约束检验时,稳健标准误方法足以保证其可靠性;如果关注的是某些政策效应的比较,就涉及参数估计值的具体大小,此时GLS的有效性显然更为重要。此外,以施加较少约束的稳健推断方法代替模型设定检验这一做法还可能限制我们对客观经济世界的进一步探索。Sims(2010)就认为对面板数据的条件异方差进行建模并使用FGLS可以比稳健标准误方法获得更多的经济信息,一个明显的例子就是随机系数模型可以同时体现异方差的来源以及个体的异质性特征。

再次,对于完整的模型评价而言,模型设定检验和模型选择都具有重要意义,但前者更为关键。在许多时间序列分析中,包括单位根检验、Granger因果关系检验和VAR建模,我们经常只看到研究者根据AIC或BIC等信息准则来确定最优滞后阶数,并未见有关模型设定检验,这种以模型选择替代模型设定检验的做法是危险的。在模型选择过程中,需要先确定一个模型族{f(z;θi),θi∈Θ,z∈νn,i=1,…,m},所有的备选模型都享有同等的地位,然后在特定的标准下挑出最佳模型f(z;θk)。Lehmann(1990)、Spanos(2010)认为这其中隐含着两种可能错误:一是正确的模型f(z;θ0)可能不包括在模型族中,更重要的是没有考虑选择可能犯错的概率,这恰恰没有体现在形成新的具有不确定性的知识时,对这些新知识存在错误的可能性进行度量的要求。而模型的设定检验有原假设和备择假设的区别,其结论是基于分布和犯错概率的推断结果。即使通过模型选择得到的最优模型也不能保证所有的设定都得到数据的支持,对那些关系到估计和推断性质的模型设定问题还必须进行严格的设定检验。相比模型选择,模型设定检验是关系到计量经济分析过程可靠性的更为根本的步骤,如时序分析中的模型选择就只是在平衡拟合和简洁性之间的选择,并不能保证残差必然满足独立同分布假定。

最后,我们强调模型设定检验并不是对数据的重复使用或者数据挖掘。对于给定的数据Zn,通常需要用于两种检验:(1)参数约束关系检验;(2)对于设定模型Mθ(z)可靠性的检验。因此,有人质疑这是否对数据进行了重复使用。Spanos(2010)对此给予反驳:一是上述两种检验是对数据Zn所提出的两个不同问题,二是这两种检验具有不同的边界。具体而言,参数约束检验假定Mθ(z)在统计上是适切的,问题的探究仍然在其边界内;而模型设定检验考察的问题是数据Zn是否由Mθ(z)所刻画的随机机制所产生,问题的探究已经超越Mθ(z)的边界。也有学者指责模型设定检验本质上也是一种数据挖掘。实际应用中,数据挖掘的含义很宽:一种是指建模者为了证实某种先验理论而有意掩盖或摒弃与理论相悖的数据信息,这是不可取的;一种是指为了使计量模型通过一系列设定检验而反复修正模型形式的做法,此时只要建模者将模型设定检验的过程明朗化、严谨化和系统化,便是可取的建模方法(韩德瑞和秦朵,1998)。

在计量模型统计适切性评价中,稳健推断、模型设定检验与模型选择都发挥了重要作用,这些不同方法的使用一定程度上也依赖于研究目的。其中,模型设定检验是最为关键的步骤,每一种模型方法下都有相应的模型设定检验问题。如果设定检验的结果暴露出问题,就应当重新考虑模型的设定,重新进行检验,直至通过检验。这一过程可以概括为“模型设定———模型估计———模型设定检验———模型再设定”,设定检验这种内在的一致性虽然不是保证模型正确分析的充分条件,却是合乎科学逻辑的必要条件(Hendry,1995)。我们认为,无论是模型设定还是模型设定检验,都要仔细推敲其具体的应用背景和适用条件,对这些细节的处理是否恰当是一项研究科学性的重要体现,前文列举的忽略扰动项概率分布导致错误的例子,很多就是忽略统计适切性的结果。

六、结论与启示

可信性是计量经济学应用研究的最重要的问题,国际计量经济学界对此有过三次大讨论,涉及计量经济学的学科性质、经济变量之间因果关系的识别及模型统计适切性等方面的内容。本文以此为出发点,联系我国计量经济学应用研究中存在的主要问题,阐述计量经济学应用研究的可靠性来源:

1.随机性设定是我们利用计量经济模型对真实DGP进行探索的一个主要体现,是正确设定计量模型不可或缺的部分,应得到足够的重视,努力用好。

2.目前广为应用的非结构计量经济模型对因果关系的推断并不符合因果关系的本质含义,应该慎之又慎。实验与准实验方法及结构计量建模是近年发展起来的对因果关系进行推断的新方法,但在我国尚少运用,应努力发展。

3.稳健推断、模型设定检验和模型选择都是保证应用研究统计适切性的重要工具。建模过程可靠性的最终落脚点在于模型设定检验,“检验,检验,再检验”这一计量经济学的金科玉律必须成为计量经济分析过程中的“杂草清除”机制。

我国计量经济学的应用研究面临进一步提高可信性的重要问题,需要全面吸收和借鉴国际计量经济学界对于可信性问题的成果,这对我们的研究模式和教学模式提出了更高的要求。对于研究模式而言,应该避免简单套用国外模型方法的做法,否则将导致研究思路单调、薄弱,甚至是低水平重复。一项成功的、高水平的经验研究通常具有高度综合性,需要对经济理论、计量方法、数据特征、国别情况及其制度约束有深刻理解,并在上述各环节体现研究的科学性与可信性。这一方面有助于我们更准确地解释中国经济现象,另一方面也给了我们对计量模型方法本身进行创新的机会。对于教学模式而言,不应将计量经济学的教学视为计算软件的实验课,如果认为应用计量经济学知识只需要懂得如何操作软件来得到估计和检验结果,就从教学阶段埋下了错用、滥用计量经济学的种子。①计量经济学的教学是一项系统工程,需要重视计量经济学思想方法的培养和训练,帮助学习者深入了解整个计量经济学的思想方法和理论体系,明确每种计量模型方法的适用范围和前提条件,才能为提高计量经济学应用研究的可信性打下坚实的基础。