本站小编为你精心准备了贝叶斯统计学的运用与展望参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
0引言
贝叶斯统计方法是一种以贝叶斯公式为核心,以先验信息和后验信息为综合依据,以“辩证”推断为主要特征的统计方法。与经典的统计归纳推理方法相比,它采用了一种全新的思维范式,将不确定参数看作随机变量,并以贝叶斯理论(BayesTheory)为基础,将获取数据前人们的主观信念作为先验信息与样本信息进行综合,再根据贝叶斯定理推导出参数的后验概率分布,最后以该后验分布为基础,利用模拟方法进行参数的统计推断。
1贝叶斯基本统计理论
就基本统计理论而言,贝叶斯统计学与经典统计学存在着重大的差异,其中最主要的特征可以概括为以下三个方面:
1.1“主观”概率在经典频率统计学中,概率通常被定义为:在同一条件下进行多次重复实验的基础上对事件出现可能性的一种测度,是一种基于数据的“客观”的概率。然而,在贝叶斯统计学中,概率被看作是人们对于一个不确定事件真实度的相信程度或者信念,不依赖事件能否重复,是一种“主观”概率。贝叶斯学派认为频率解释的概率只能应用于在一定时期内可以重复地、无限次地出现的事件,至少在理论上应该如此,然而事实上,一些事件的概率通过大量重复试验获得是不现实的,很多时候人们都是根据已有的知识和逻辑推理能力来对统计问题作出判断的。
1.2先验信息对于“客观“概率的经典频率统计学而言,统计推断一般只需要两方面的信息:—是模型信息,即已知(或假定)研究对象(数量特征)形成的总体服从某种概率分布,如正态分布等等。二是数据信息,即通过试验或者调查获得的相关样本数据信息。所有统计推断都仅依赖于这些“客观”样本数据来完成。然而,贝叶斯统计学除了以上两种信息外,还利用另外一种信息,那就是先验信息。基于“主观“概率的贝叶斯统计学认为在进行试验或者调查获取相关数据前,人们往往已经从理论分析、实践经验积累以及主观判断,长期积累了许多资料和信息,这些先验信息使得人们在没有数据的情况下仍然能对不确定事件给出一定的信度评价。如果能够利用这些信息,并与观察数据有机结合起来无疑能帮助提高统计推断的质量,特别是在可获数据较少的情况下,先验信息的作用更为明显。
1.3未知参数的随机性在经典统计学派看来,总体中的待估参数是一个普通的未知变量,其值是一个固定不变的常数。为了对这个未知参数进行推断,往往需要从总体中进行大量重复的抽样,被抽取的样本被看成是来自服从一定概率分布(如正态分布)总体的随机变量。因此,经典统计实际上是利用了所有可能的随机样本信息,来实现对某个参数的无偏估计。相反,贝叶斯统计学将任何一个未知参数都看作是随机变量,都具有不确定性,并且可以通过一个概率分布来描述。在获取数据之前可以根据经验或历史资料构建该参数的先验分布,在获得样本数据之后,可以利用样本数据对先验分布修正获得该参数的后验分布。因此,贝叶斯统计所研究的并不是样本空间,而是参数的取值规律,其利用的是已固定的一组样本信息,而非所有可能的随机样本。
2贝叶斯统计推断方法
参数估计与假设检验构成统计推断的两大基本内容,贝叶斯统计学在这两个方面形成了与频率统计学相平行的理论方法,并赋予统计推断以新的解释。
2.1点估计就点估计而言,经典统计学通常要求,作为总体参数的一个优良估计必须具备无偏性,即如果用θ赞表示总体参数θ的优良估计值,那么θ赞必须具备E(θ赞)=θ的性质,也就是从总体N个单位中按随机性原则抽取n个单位组成样本,如果对每一个样本都计算一次θ赞的值,那么共CnN个θ赞值的期望均值应该等于θ。然而,在实际应用中,人们往往只能根据一次抽样观察做出估计,显然就不可回避这样的问题,在一次抽样观察中用θ赞去估计θ,其优良性如何去评估呢?对此,按照经典统计学的理论是不好给出确切说明的。然而,贝叶斯统计推断采用损失函数作为选取最佳估计值的评价标准。它认为最佳估计值的选取依赖于用θ赞来估计参数真值θ时所造成的损失,一般用损失函数L(θ赞,θ)来表示,若要获得最佳估计值,就必须使在θ所有可能值上的后验加权平均(或期望)损失最小,即Eθ(/yθ/y,[L(θ赞,θ)])=乙L(θ赞,θ)π(θ/y)坠θ达到最小。如果采用二次损失函数L1=c(θ赞,θ)2,那么后验期望损失就变为:Eθ(/yθ/y,[L(1θ赞,θ)])=乙c(θ赞,θ)2π(θ/y)坠θ对上式求导,得ddθ赞=2乙c(θ赞-θ)π(θ/y)坠θ,令上式为0,即可获得θ的最佳点估计值实际上就是后验密度的均值(期望):θ赞=E(θ)=乙θπ(θ/y)坠θ。由此可见,在贝叶斯点估计时,参数估计的优良性可以通过期望后验损失最小来反映,而且后验分布是仅依赖于一次抽样观察做出的,因此无论抽样是否可以重复,都可以对某一次抽样观察给出最优估计值。
2.2区间估计对于区间估计而言,在经典统计学中,通常假设对于给定值α(0<α<1),如果由来自总体分布F(y,θ)的随机样本y1,y2,…yn确定的两个统计量θ=θ(y1,y2,…yn)和θ=θ(y1,y2,…yn)满足:P{θ=θ(y1,y2,…yn)<θ<θ=θ(y1,y2,…yn)}叟1-α,那么就将随机区间(θ,θ)称作为θ的置信水平为1-α的置信区间。然而这里出现了一个问题就是,由于在经典统计学中,总体参数被视为是一个固定不变的常数,因此并不能认为参数θ落在置信区间(θ,θ)中的概率为1-α,只能认为,在n次抽样中,有(1-α)CnN次求出的置信区间能够覆盖到总体参数μ,另外αCnN次无法覆盖。因而这种解释,对于仅进行一次抽样或者试验的人来说,其实是毫无意义的。相反,在贝叶斯统计学中,总体参数θ被看做是一个服从一定概率分布的随机变量,因此,一旦获得θ的后验分布π(θ/y),就可得到θ落入某个区间内的后验概率,例如P{a燮0燮b/y}=ba乙π(θ/y)=1-α,它表示参数θ落入区间[a,b]的概率为1-α。当然,这里的a和b并不唯一(单峰型的密度函数中是唯一的),在贝叶斯区间估计时,通常选用最大后验密度(HPD)作为总体参数θ的贝叶斯可信区间,以保证这个可信区间内的每点的后验密度函数值都大于区间以外点的密度函数值。由此可见,在置信区间的解释和处理上,较经典统计而言,贝叶斯统计含意更为清晰明了,并且在置信区间的寻求和计算上也简单得多。
2.3假设检验对于假设检验问题,经典统计学运用的是反证思想进行推断。即认定在一次实验中,小概率事件不会发生的前提下,如果观察到的事件,是H0为真时不合理的小概率事件,则拒绝原假设H0。具体可表示为如果α代表小概率,那么在原假设H0为真的条件下,若样本y发生的概率P(y/H0)<α,则说明是小概率事件,原假设H0为假。与之不同的是,贝叶斯统计学直接讨论H0和H1的后验概率,通过比较后验概率的大小进行判断。如果P(H0/y)和P(H1/y)分别为两个假设事件的后验概率,那么当P(H0/y)<P(H1/y)时,则拒绝原假设H0,反之则接受。事实上,上述两种推断方法在一定程度上统一于贝叶斯公式。由贝叶斯公式容易得到:P(H0/y)P(H1/y)=P(H0)•P(y/H0)P(H1)•P(y/H1)。
因此,当P(H0)=P(H1),即H0与H1居于平等地位时,经典学派与贝叶斯学派的结果是一致的。然而,在进行假设检验的时候,原假设和备择假设的提法一般是有讲究的,它要求把带有倾向性的意见当作备择假设,而把与备择假设相对立的假设作为原假设。因此,H0常居于将被否定的位置,由于这种倾向性意见的存在,经典统计推断的结果很容易受到原假设和备择假设的位置的影响,当两种假设的位置互换后,其推断结果很可能不同。但对于贝叶斯统计推断而言,由于是基于各个假设的后验概率进行判断,因此其推断结果并不受到两者位置的影响。此外,经典统计学中的假设检验也存在如同参数估计解释那样的问题。如果在给定的显著水平α下,根据经典统计学的解释是,在可能的CnN个样本中,共做CnN次假设检验,其中平均有αCnN次否定了原假设,而(1-α)CnN次没有拒绝原假设,因此,同样没有直接回答原假设成不成立的问题。而贝叶斯假设检验不要求接受或是拒绝某个假设,因为后验机会比就足以说明问题。贝叶斯统计在检验问题中的另外一个优势在于多重检验问题,是经典统计所办不到的。例如将假设设为:H0∶θ=0;H1∶θ>0;H2∶θ<0。贝叶斯统计中只需分别计算H0、H1和H2的后验概率来做出推断,而经典统计方法则很难去处理此类问题。
3结论与展望
由上所述,贝叶斯统计学能够不断发展壮大的原因在于,在很多方面它比经典统计有明显的优势。然而,贝叶斯统计学赖以与经典统计学叫板的地方,恰恰是其受到质疑的地方。贝叶斯学派受到的批评集中于两个方面:一是,将参数看成是随机变量是否妥当;二是,参数的先验分布的主观问题。其实在许多情况下,如果不考虑其中涉及到的统计思想和概率理论基础,用贝叶斯统计方法导出来的结果与经典统计学几乎没有二致。贝叶斯统计学与经典统计学不存在谁要取代谁的问题,解决二者之间争论的最好办法,恐怕还要着眼于相互取长补短,一切以能得到良好的统计推断为根本目的。