前言:我们精心挑选了数篇优质进化博弈理论文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
一、进化博弈的基本理论
进化博弈论的研究起源于生物学领域,其目的是为了解决动物和植物的冲突及合作,为达尔文的自然选择过程提供数理基础。进化博弈理论结合经典博弈理论及生态理论研究成果,以有限理性的参与人群体为研究对象,利用动态分析方法把影响参与人行为的各种因素纳入其模型之中,并以系统论的观点来考察群体行为的进化趋势。正是基于其在生物物种与种群的竞争进化演变规律分析中的成功,众多学者纷纷将其概念和前提加以修正,将其广泛应用于经济领域、社会领域来解释并预测人的群体决策行为。
二、进化博弈理论的应用研究
1.社会行为领域
Conlisk利用带滞后项及随机项的离散时间动态来分析参与人是否总是行为的最优者。它假定有“最优化”及“模仿”两个纯策略,其中非最优化者有一个二次损失函数,在此基础上,他寻求一个满足非最优化者损失函数等于最优化者正的常数成本的均衡群体比率,从而得出结论:当群体中几乎都是最优化者时,模仿比最优化策略更合算,因此,群体中非最优化者在群体中最优化者所占比例并不渐进地收敛于1。Peyton Young认为现实中每个参与人都是在前人给定的经验知识基础上选择策略,个人选择策略是一个适应性的学习过程。个体在做出选择时,尽管参与人存在一定的惯性及犯错误的可能性,经过行为的长期进化,这个适应性学习过程也会收敛于一个有效率的传统或合约。Sandholm对个体行为偏好的进化进行了动态分析。Juang从进化的视角研究了规则的进化与均衡的选择问题。Nyborg和Rege探讨了有关吸烟行为的社会规范的深化,并运用挪威的经验数据对结论进行了检验。
2.制度的演化
青木昌彦等运用进化博弈理论分析了社会经济体制的变迁。他们认为:任何一种经济体制的产生都具有一定的惯性,并随着经济所处的外部环境与所积累的内部环境的变化一起逐渐地进化。吴炯、彭飞以进化博弈的复制动态方法为工具解释了公司治理结构演进过程中的“两极化”现象。邱中华等通过演化博弈模型考察委托人和人在委托过程中行为策略的自发演化过程,发现这一博弈过程的所有均衡都是鞍点,从而得出委托人和人之间的监察博弈没有进化稳定策略。Kandori和Rafael运用进化博弈理论研究了两种具有网络外部性的技术之间竞争的博弈过程,提出了解决“花车效应”问题的对策,论证了后发技术取代主导技术的可能性。
3.经济行为的演化
Routledge基于Grossman和Stiglitz提出的经济模型,探讨了金融市场上个体行为人是如何通过适应性和进化学习来发现内生变化并运用这种内生关系的一种学习模型。他通过模仿过程和经验过程来对个体的投资行为建模,而不是运用传统上的显性最优化方法放松关于知识和理性的假设。Cowen和Kroszner利用进化博弈理论研究了在自由竞争易货贸易经济中,在存在交易成本的情况下,交易媒介的选择问题。罗发友等对集群内企业技术创新行为构建了鹰鸽博弈、鹰鸽反击者博弈和鹰鸽应变者博弈三个模型,并得出集群内企业创新行为不存在纯策略进化稳定均衡,但存在混合策略进化稳定均衡和行为策略进化稳定均衡,反映了集群内企业创新行为的协同竞争性以及这种协同竞争创新行为的进化稳定特性。
三、借鉴意义
1.进化博弈论从有限理性人出发,强调系统达到均衡的过程而非均衡本身。进化博弈理论是完全摒弃传统理论中非现实的“理性人”假设,直接从有限理性参与人群体出发而提出的一种全新的动态分析方法,该方法认为经济系统达到均衡需要一个长期的渐进过程,均衡结果依赖于达到均衡的过程。
2.进化博弈论纳入了系统到达均衡的时间因素,有利于决策者控制系统向目标的进化。进化博弈理论的动态分析方法中一个显著特征就是把参与人的决策过程时间及因素互动的时间纳入到其基本模型之中,强调系统达到均衡的过程。这样有利于决策者控制经济系统使之朝向既定的目标前进,也有利于决策者寻找能够最大限度地促进系统向意愿均衡转化的因素,使系统尽快达到有效率的均衡。
3.进化博弈理论引入突变因素较好的解决了多重均衡的选择问题,即系统最终会趋于哪一个均衡依赖于系统的初始状态。进化博弈理论的基本均衡概念――进化稳定均衡,描述了当经济系统一旦进入到某一均衡的吸引域内,系统就会对其他的突变策略具有一定程度的抵抗力。
参考文献:
[1] J. Conlisk. Costly Optimizers Versus Cheap Imitators. Journal of Economic Behavior and Organization. 1980 (1)
[2]H. P. Young. Individual Learning and Social Rational. European Economic Review. 1998
[3] 青木昌彦 奥野正宽:经济体制的比较制度分析.中国发展出版社,1999
[4]邱中华 金翔:基于进化博弈论研究的一类监察博弈. 南京邮电大学学报(自然科学版),2006,26
本文以进化博弈理论的基本均衡概念----进化稳定策略的提出、发展及不断完善为主线,在指出原初概念缺陷的基础上,文章从非对称博弈、有限群体、随机因素及动态过程四个方面分别介绍了博弈论理论家们对该概念的拓展。
关键词:进化稳定策略;渐近稳定性;严格N群体ESS;随机稳定集;群体稳定集
引言
进化博弈理论来自于达尔文的生物进化论,至少自雷威丁(Lewontin 1960)用于解释生态现象 ②就已经产生了。但直到1973年梅纳德·史密斯和普莱斯(Maynard Smith and Price)、梅纳德·史密斯(1974)提出了该理论的基本均衡概念----进化稳定策略[3](evolutionary stable strategy, ESS)及泰勒和乔克(Taylor and Jonker)提出该理论的基本动态概念---模拟者动态以后,进化博弈理论得到了理论界的普遍关注。特别是1992年关于进化博弈理论发展的国际学术会议在康奈尔大学的召开,正式确定了进化博弈理论在经济学上的学术地位,此后,该理论在经济学便上获得了迅速的发展及广泛的应用。越来越多的经济学家运用进化博弈理论来分析诸如社会制度变迁[阿克赛尔罗德和米尔顿(Axelrod and Hamilton 1981);阿克赛尔罗德(1984)]、行业发展趋势[波特Porter 1980)]、股市发展方向[康利斯克(Conlisk 1980);利奈尔和罗尔(Cornell and Roll 1981)]、消费者对品牌的选择[凯思和史培罗(Katz and Shapiro 1985)]、社会学习过程[弗登博格(Fudenberg 1995)]及社会习俗形成[彼特·杨,(H. Peyton Young 1993,1998)等领域的相关问题。进化稳定策略是进化博弈理论最基本的均衡概念,它具有广泛的应用并在发展中得到了不断完善。本文以进化稳定策略概念的发展为主线来介绍博弈论理论家们对它在不同条件下的拓展。
一、原初ESS定义及其缺陷
在梅纳德·史密斯和普莱斯(1973);梅纳德·史密斯(1974)提出进化稳定策略概念以前,进化博弈理论的发展还仅仅处于萌芽阶段。在这一时期生态学家们主要应用纯数学理论如极限环、分岔、奇异吸引子(罗森,Rosen 1970)等概念来描述生态演化系统并用于解释生态现象,同时把生物之间的互动行为纳入到进化模型之中(威尔·艾德瓦兹,Wynne-Edwards 1962),他们处理问题的方法已经蕴含了进化博弈理论的基本思想。
在七十年代,生态学理论和博弈理论在各自领域中都获得了迅速的发展,同时实验经济学作为一门学科也获得了经济学界的一致认同,这些条件为进化论与博弈论的结合提供了理论和现实基础。生态学家梅纳德·史密斯和普莱斯(1973)在总结以前理论的基础上,提出进化博弈理论的基本均衡概念----进化稳定策略③ ,该均衡概念的提出使得进化博弈理论的研究有了明确的方向,为进化博弈理论的进一步发展奠定了坚实的基础。
所谓进化稳定策略就是指:如果占群体绝大多数的个体选择进化稳定策略,那么小的突变者群体就不可能侵入到这个群体。或者说,在自然选择压力下,突变者要么改变策略而选择进化稳定策略,要么退出系统而在进化过程中消失。下面我们给出梅纳德·史密斯和普莱斯(1973)所定义的进化稳定策略(文献[3]对此有详细的介绍):
说是进化稳定策略,如果,存在一个④,不等式对任意都成立。其中A是群体中个体博弈时的支付矩阵;y表示突变策略;是一个与突变策略y有关的常数,称之为侵入界限(Invasion Barriers);表示选择进化稳定策略群体与选择突变策略群体所组成的混合群体。从定义可以看出,当系统处于进化稳定状态时(群体选择进化稳定策略时所处的状态就是进化稳定状态),除非有来自外部强大的冲击,否则系统就不会偏离进化稳定状态,即系统会“锁定”(Lock in)于该状态。定义的直观意思就是,当一个系统处于进化稳定均衡的吸引域范围之内时,它就能够抵抗来自外部的小冲击。显然,进化稳定策略是一个静态概念,但它却可以描述出系统的局部即吸引域内的动态性质。
原初进化稳定策略定义为以后的研究者提供了理论基础,但它是建立在许多理想化的假定之上,存在着许多不够完善的地方:第一,梅纳德·史密斯等是在研究生态现象时提出的进化稳定策略概念的,由于动植物的行为完全是由其基因决定的。因而,每个种群体都被程式化为一个纯策略,整个生态环境的所有种群也被看作一个大群体。然而,同一种群的个体由于其性别不同、需要不同、能力不同、基因突变或基因遗传⑤ 等因素都会影响到它们的行为,把每一个种群行为程式化一个纯策略是没有太强说服力的,把一个生态环境中所有种群看作一个大群体也存在不妥之处;第二,从梅纳德·史密斯等提出的进化稳定策略定义可以看出,它仅适应于互不重叠且相互独立的突变因素的影响,其吸引域半径只与单个突变因素y有关,也就是说只有等到一个突变因素对群体的影响消失之后,才能出现另一个突变因素,现实中出现这种现象是非常偶然的;第三,梅纳德·史密斯等为了技术上处理的方便及更好地利用数学工具和博弈论来描述生态演化过程而假定群体规模无限大 ⑥,即隐含地假定博弈的支付⑦ 空间是一个连通、闭集,这个假定不符合现实;第四,从原初的进化稳定策略定义可以看出,它是一个静态概念,只能描述系统的局部动态性质,没有涉及到动态系统整体的调整过程,而现实中许多系统的均衡依赖于系统的整体动态性质。
从生态意义上说,进化稳定策略把种群之间的互动行为纳入到模型之中,推广了达尔文的优胜劣汰理论,然而与纳什均衡概念相比,进化稳定策略并不能解释群体如何达到稳定的。它只能回答一旦达到了这种稳定状态,原群体就对突变者群体者具有较强的抵抗力。也就是说,它只能回答当系统处于某一个均衡点的吸引域时,在一定条件下,随着时间的演化,该系统就会趋于这个均衡点,而当系统有多重均衡或者多个吸引域时,原初的定义就显得无能为力了。事实上梅纳德·史密斯和帕克(Maynard Smith and Parker 1976)、梅纳德·史密斯(1978;1979)已经识到原初定义的某些缺陷,梅纳德·史密斯(1982)给予了一定程度的修进并提出了修进的ESS(Modified ESS)概念。下面我们从四个方面来介绍理论家对进化稳定均衡所作的拓展。
二、非对称群体中的ESS概念
梅纳德·史密斯早在1979年就已经意识到,原初的进化稳定策略在处理多群体非对称博弈时遇到了困难。他发现,在现实中,如生态学、经济学和其他社会科学中的许多策略互动行为可能发生于两个或多个群体的个体之间,个体之间进行的是非对称博弈,单用原初定义不能很好解释现实中的这些现象。如何把静态的单群体进化稳定标准拓展到多群体情形呢?在单群体中,所有的个体都被程式化了一个纯策略(梅纳德·史密斯假定只有纯策略是可以遗传的),个体之间进行的是两两重复匿名博弈;并且在单群体中,规模很少的突变因素对群体所产生的影响是可以忽略的,因此,非严格纳什均衡策略不可能侵入到最优反应的严格纳什均衡策略群体。在多群体中,突变因素可能来自于各个群体,突变策略者的互动行为会对群体行为产生不可忽略的影响。因此,原初的进化稳定标准仅仅限于严格纳什均衡之间的选择就不能运用于解释多群体情形。Selten(1980)认为,把均衡概念由单群体拓展到多群体不是一个简单的过渡,而是涉及到系统的动态调整过程及动态稳定性等一系列的变化。哈曼斯顿(Hammerstein 1981)认为,在非对称博弈中,个体更加倾向于应用稳定策略来选择行为并决定竞争结果,而这些稳定策略与进化稳定策略相比,可能会有更少的“吸引域”。因此,由进化稳定策略定义所得的结论就显得有点似是而非了,但他没有作出进一步解释。
泽尔腾(Selten (1980))首次深入地研究了非对称博弈动态稳定性并利用两群体博弈情形证明 “在非对称博弈原初进化稳定策略必定是严格纳什均衡”。后来,Van Damme(1987)在更一般的情形下证明了这个命题⑧ 。我们知道,严格纳什均衡本来就显示出很好的性质,如果一个理论把其主要的注意力集中于研究严格纳什均衡,那么它就没有任何理论价值;更重要的是许多非对称博弈根本就不存在严格纳什均衡,因而也就无法研究动态系统的稳定性;在非对称博弈中,渐近稳定性(Asymptotic Stability)实质上也蕴含了严格纳什均衡,因此,渐近稳定性在非对称博弈中也不是一个合适概念;进化稳定策略是一个静态概念,虽然能够描述系统的局部动态性质,但在非对称博弈中,原初的进化稳定均衡与动态演化过程极限结果之间的对应关系却不明显(即出现了局部与全局的矛盾)。因此,要研究非对称博弈的动态稳定性就必须通过考察系统的动态演化过程来寻求能够适应于对称博弈与非对称博弈的稳定性概念。为了能够更精确地描述非对称博弈,泽尔腾(1983,1988)通过对引入角色限制行为(Role Conditioned Behavior)而提出了适应于非对称博弈的ESS概念。
他的定义如下:在有角色限制的博弈G中,一个行为策略称为进化稳定策略,
如果 (ⅰ)对任意的,满足
(ⅱ)如果那么对任意的有。
然而,泽尔滕的ESS概念尽管适应于描述两群体非对称博弈的情形,但它只能描述系统的局部动态性质,而且该定义并不能够显示出均衡概念与动态演化过程极限结果之间的关系。因此,要更好地描述非对称博弈均衡,就必须正确处理好均衡概念与动态演化过程均衡结果之间的关系。于是,弗里德曼(Friedman 1991)考察了非对称博弈的更一般的单调调整过程并得出了四个基本结论:(1)每一个纳什均衡都是动态系统的静止点(rest point)⑨ ;(2)渐近稳定结果必定是纳什均衡;(3)在对称和非对称博弈中,对所有单调调整过程而言ESS不一定是渐近稳定的;(4)对某些单调调整过程而言,正规ESS是渐近稳定的。在此基础上,他得出了“渐近稳定结果必定是纳什均衡”结论。莱瑞·萨谬尔森和张建波(Larry Samuelson and Jianbo Zhang 1992)在弗里德曼(1991)的基础上进一步考察了非对称博弈的累积单调选择动态(Aggregate Monotonic Selection Dynamic)并得出:在非对称博弈中,单调调整过程能够剔除所有严格劣的纯策略,并且能够确保均衡结果必定是纳什均衡。同时,他们证明了“稳定点必定是纳什均衡”及“渐近稳定结果必定是严格纳什均衡”,进而强化了弗里德曼(1991)的“渐近稳定结果必定是纳什均衡”的结论。
Swinkels(1992)认为,进化稳定标准不对突变策略组合给予适当限制是说不过去的。特别地,在处理某些经济问题时,突变策略可能来自于参与人或者企业的创新、试验等活动,这些突变策略组合本身可能会影响系统的稳定性。因此,考察相对于后进入突变群体最优反应策略组合的稳定性可能会更合理,并且这些稳定性概念很容易由单群体情形推广到多群体N-人非对称博弈。于是他定义了适应于非对称博弈的策略稳健性概念。
定义:称之为相对于均衡进入者的稳健策略(Robust against Equilibrium Entrants REE),如果存在对所有的策略组合及满足:。其中表示突变策略;表示选择突变策略者在群体中所占的比例;表示混合群体;表示突变策略相对于策略x的最优反应策略,他并且证明了REE是ESS的一个子集。然后,他又把REE概念推广到了N-人非对称博弈的情形而提出了均衡进化稳定(Equilibrium Evolutionarily Stable EES)概念:
定义:称集合是均衡进化稳定的(EES),如果它是相对于下面性质的最小集: X是纳什均衡策略集合一个非空闭子集,存在,如果及,那么。
换句话说,EES集是纳什均衡策略集的最小闭集,它能够保证任何小规模的均衡进入突变者不可能使得群体离开进化稳定均衡的吸引域。
三、有限群体上的ESS概念
梅纳德·史密斯等提出的ESS概念另一个缺陷就是,他们为了在技术上处理的方便而认为群体规模无限大,这个假定与现实尤其应用于解决经济问题时并不相符。为了使理论与现实更接近,许多博弈论理论家对有限群体的均衡问题进行了深入的研究。沙弗尔(Schaffer 1988)首次放开群体规模无限大的假定,考察了有限规模群体的进化稳定性并提出了有限群体ESS(Finite Population Ess)概念。他证明“在一般情况下,有限群体ESS并不是纳什均衡策略”。汉森和萨谬尔森(Hansen and Samuelson 1988)分析了经济博弈的演化过程,并把有限群体ESS称之为“普遍生存策略”(universal survival strategy)。他们认为,在现实世界竞争中,未来的利润和可供选择的策略具有不确定性,这就会阻碍企业选择最优化策略,企业必须通过不断的试验、学习过程来寻求有利可图的满意策略 ⑩(不一定是最优策略)。沙弗尔(1989)应用“普遍生存策略”来研究寡头企业之间的竞争并得出结论:通过经济自然选择过程 ⑾而得以生存下来的策略是相对的而不是绝对的利润最大化策略。泰尼克(Tanaka 2000)利用模拟者动态,考察了差别产品对称寡头企业竞争的情形并定义了“全局生存策略”(Globally Surviving Strategy GSS)。他得出结论的是:在价格与数量竞争的寡头模型中,GSS都是随机稳定的并且在两种情况下它们是等价的。
以上所得到的均衡概念基本上是适应于单群体有限个体情形,并不适应于有限个体多群体博弈。哈佛保尔和西格蒙德(Hofbauer and Sigmund 1988)证明了“两群体对称博弈中不存在混合策略ESS”。泽尔腾(1988)在考察了大量的两人对称博弈的基础上也得出了类似的结论。克瑞斯曼(Cressman 1992)定义了有限两群体非对称博弈的进化稳定策略,1996年对他所定义的概念作了进一步说明。他认为,在模拟者动态下,至少一个群体的突变者所得到的平均支付少于选择稳定策略者所获得的支付,才能保证静止点的渐近稳定性。Garay and Varga(2000)认为,定义有限数目多群体的均衡概念应该满足如下三点:其一是突变者不能侵入他自己的群体;其二是现有群体对来自外部的随机冲击具有较强的抵抗力;其三是多群体ESS定义应该与非对称博弈理论的基本结论一致。众所周知,纯策略模拟者动态的渐近稳定集并不一定是ESS。那么,哪一种动态稳定概念等价于ESS呢?克瑞斯曼(1990)指出,在单群体条件下强稳定性等价于ESS,那么多群体的ESS定义也应该满足多群体稳定性概念等价于多群体ESS。根据这个标准,Garay and Varga(2000)定义了严格N群体ESS概念。其定义如下:
定义:策略组合 称之为N-群体进化稳定策略,如果对每一个,存在,对所有的都有:
框架。
四、随机因素影响下ESS概念
梅纳德·史密斯等提出的ESS概念第三个缺陷是要求突变因素是不连续且不重叠的。原初ESS定义由于仅仅考虑单个因素对系统的影响,所以任何偏离均衡状态的行为都会随着时间的演化自动回复到原来的进化稳定状态。帕克和菲尔德曼(Peck and Feldman 1988)认为,由于群体规模和后代数目很大,因而随机因素对动态系统的影响是可以忽略不计的。现实并不是这样,经济演化系统常常会受到来自突变和其他偶然事件的冲击,这些因素可能会对系统产生不可忽略的影响。福斯特和杨(Foster and Young 1990)认为,首先,ESS概念把影响系统的因素都看成是一个个孤立的事件,而在现实中系统常常会受到连续的随机冲击。如果假定有一个因素的影响消失以后,再考虑另一个因素对系统的影响,那么,系统当然就不会远离原来的均衡状态;其次,现实中出现上述情况纯属偶然现象,一个只能处理偶然现象的理论是没有任何存在价值。现实中,尽管单个随机因素对动态系统的影响较少,但它们却可能对系统产生累积作用而定量地改变系统的稳定性,使得系统离开进化稳定状态,系统什么时候回复到当初的进化稳定状态,依赖于动态过程的全局结构,而ESS定义是一个局部概念,因此在考虑随机冲击时就不能作为判断系统稳定性的标准;再次,由于系统的极限行为依赖于初始条件,同时在吸引子集合中只有一部分状态是随机稳定的,且随机稳定状态的选择还依赖于随机过程特定的结构,因此,ESS和一般意义上的吸引子(Attractors)由于没有充分地考虑到随机因素对进化系统的影响,在描述随机系统的稳定性时也很不理想。于是,他们首次把影响系统的随机因素纳入到进化模型之中并提出了一个既不同于传统ESS也不同于吸引子(Attractor)概念的随机稳定性(Stochastic Stability)概念。他们的定义如下:
定义:群体向量是随机稳定的,如果随着随机影响,极限密度对的每一个小邻域都赋有正概率;更精确地说,其中。其中是当时,的极限分布,表示随机因素对系统所产生的影响。
粗略地说,一个状态P是一个随机稳定的,如果在长期中,随着随机冲击因素影响的不断变少,系统几乎一定(nearly certain)不会离开P的任意少的邻域。随机稳定的群体向量总是存在的,它有如下性质:随着及,它是一个最小闭集。接着,他们又提出了更一般的概念----随机稳定集(Stochastic Stable Set)。随机稳定集 是一个满足如下条件的状态集合,即从长期来看,随着随机冲击的不断变少,系统几乎一定处于包含于S的任何一个开邻域中。随机稳定集概念的提出把传统确定性动态模型中的ESS拓展到随机性动态系统中,并且它是一个比进化稳定策略集更精练的概念,是进化稳定集的子集。随机稳定集已经成为描述随机动态系统的基本均衡概念。
五、ESS与动态的结合
从ESS的定义可以看出,它只能描述系统的局部动态性质而与系统的全局动态过程无关,然而,要更准确地描述一个系统的动态性质就必须对仔细考察整个系统的动态调整过程。泰勒和乔克(Taylor and Jonker 1978)首次把传统的ESS定义用模拟者动态模型表示出来,他们证明在一个多群体的模型中,进化稳定策略是渐近稳定的充分但非必要条件。但他们没有作出进一步的研究。鉴于此,吉尔博和马特休(Gilboa and Matsui (1991))在考察群体行动态调整过程的基础上,提出了“循环稳定集”(Cyclically Stable Set)又一均衡概念。“循环稳定集”直接来源于群体行为的调整过程,其基本思想是“可接近性”(Accessibility)。一个策略分布f称为可以从另一个策略分布g接近是指,如果存在一条从f到g的道路,且在该道路方向上任何一点都是相对于该点的最优反应。“循环稳定集”是指在满足“可接近性”条件下是封闭的策略分布集合(在该集合中任何两个分布之间都是接近的)。与一般均衡理论不同,仅当参与人按照均衡策略而作出选择时才有效,CSS并不要求群体保持这种决策状态。CSS的直观意义是,在一个很短的时间间隔内,只有少部分人离开或者死亡并且由一些新来的人(新生的孩子)代替,这些新来者从他们的母体那里继承一些行为模式,并且在现行预期(也就是说他们并不关心行为模式未来的变化)条件下作出最优的反应,一旦新来者选择了某一行动,他就会一直坚持下去(转换成本的存在是他坚持这个行动的一个重要原因)。马特休(Matsui 1992)给出了一个“稳定”策略的静态表述,在存在对原群体中各策略的初始分布冲击的情况下该策略能够保持这种分布。斯温克斯(1992)在马特休的基础上提出了“群体稳定策略”(Socially Stable Strategy SSS)。相对于均衡的进入者而言,所谓“群体稳定策略”是指如果存在一个突变群体(或者进入者群体,譬如说群体A),其支付高于原群体的支付,那么必定存在另外一个群体(如群体B),在这个包含大部分原群体个体而有一少部分群体A的个体的群体中,群体B将获得高于群体A的支付。这个概念也称为“稳健策略组合”。当然在某些情况下,“群体稳定策略”可能并不存在,但不是这个概念本身的缺点,出现这种情况与我们所研究的动态过程本身是分不开的。然而,我们可能会问,实际的行为模式又是怎么样呢?如果这个过程并不是稳定状态,那么稳定状态又是什么呢?在对这个问题作出回答时,马特休利用了吉尔博和马特休(1991)所提出的集值解的概念(Set-valued Solution),同时他也证明了循环稳定集的存在性。Binmore and Samuelson(1993)把参与人的学习过程纳入到了进化模型中并提出了自我强化均衡[10](Self-confirming Equilibrium)。他们认为,每个参与人都会通过自己的经验来推断对手可能选择的策略而作出最优反应,这个学习过程可能使得系统在不同自我强化均衡的吸引域之间漂移而不会停留在某一个均衡,由于在非均衡路径上的推断不一定正确,所以自我强化均衡可能不一定是纳什均衡。
结束语
进化博弈理论从发展到现在虽然只有二十几年的历史,但它却受到社会学、经济学、生态学们的普遍关注。特别是该理论的基本均衡概念----进化稳定均衡提出以后,理论界已经从不同的方面对它进行了拓展,并取得了令人瞩目的成果,使进化博弈理论体系得到了在发展中不断完善。进化博弈理论具有较强的实用性和广阔的发展前景 ⑿,相信它会引起更多经济学家的兴趣,必将成为主流经济学的一部分。
注释: ①张良桥:中山大学岭南学院经济学系数量经济学硕士研究生,广东省顺德职业技术学院经济管理系教师(邮政编码:528300;联系电话:0765-2338029;13825507060,值此文发表之际谨向他们致以深深的谢意,同时要感谢经济管理系的仇颖老师对此文中英文名字进行了认真的翻译。 ②生物学家在研究生态现象时发现,利用纳什均衡可以很好地解释生物进化结果。然而,生物是没有思维的更谈不上理性要求了,它们的行为却可以趋于纳什均衡,因此,理性要求并不是纳什均衡的必要条件。这样,生物进化论与博弈论的结合便成为可能,为进化博弈理论的产生奠定了基础。进化博弈理论以群体(Population)为研究对象,主要处理群体中近视且幼稚的(Navie)个体进行重复、匿名博弈的动态调整过程。其基本思想为:给定群体所处的状态,随着时间的演化更合适的策略会被更多参与者采用,其目的是为预测群体最终行为提供一个理论依据。 ③此后本文称之为原初定义 ④实际上相当于吸引域的半径,也就说进化稳定策略考察的是系统落于该均衡的吸引域范围之内的动态性质,而落于吸引域范围之外是不考虑的,所以说它只能够描述系统的局部动态性质。 ⑤如长颈鹿进化的过程。 ⑥对群体模型为无限大的要求有两个原因:其一是机械式的,为了假想的“侵入界限”(Invasion Barriers)也就是突变者群体在大群体中所占的份额(Population Share),当突变群体模型超过1/n时,n是大群体的个体数,突变群体就有可能侵入到大群体,进化稳定策略的条件就有不满足了。其二是技术上的,群体模型足够大,就可以忽略掉现行群体个体的行为对其他突变者群体未来行为的影响,即不考虑学习过程。 ⑦其中的支付是生态学上的适应度(Fitness)或繁殖成活率。 ⑧下面我给出Van Damme1987的证明:首先设是进化稳定的,并且令所有参与人都选择不变的策略。令,对所有的。令,其中,那么对所有,满足及,因此,由进化稳定性可知。所以,而是任意的,所以。其次,设是一个严格纳什均衡策略,并且,那么至少存在一个满足,由的连续性可知,至少存在一个,对所有及,至少存在一个 满足:,这就说明 是进化稳定的。 ⑨静止点(Rest Point)就是当动态系统处于静止点时就不会离开该点。 ⑩Alchian(1950)指出,企业必须通过对所观察到的市场参与者的行动与结果之间的比较来得知什么是好的策略什么是不好的策略。 ⑾他考察了如下的选择过程,每一个企业所能够选择的策略不随环境的变化而变化。在每一个阶段结束时,如果企业1的利润大于企业2的利润,那么企业1在下一阶段生存下来的概率就大于企业2在下一阶段生存下来的概率。相应地可以把企业的生存规则看作为策略的幸存,成功策略在群体中所占的比例通过企业之间对策略的模仿而得以增长 ⑿杨小凯教授(1995)认为,博弈理论当前最有趣的研究成果及日后有可能获得诺贝尔奖的工作就是信息不对称的动态博弈模型,以及对策游戏规则演化模型(也就是进化博弈模型)。事实上1996年及2001年的诺奖都属于研究信息经济学的经济学家,这说明杨教授具有超前的预见性,进化博弈理论研究者虽然还没有获得诺贝尔经济学奖,但也可以说明杨教授非常看重对进化博弈理论的研究。
[参考文献]
[1] 王则柯(1999):《博弈论平话》,中国经济出版社。
[2] 张维迎(1999):《博弈论与信息经济学》,上海三联出版社。
[3] 张良桥(2001):《进化稳定均衡与纳什均衡:兼谈进化博弈理论的发展》,《经济科学》,3,103-111。
[4] 张良桥(2001):《理性与有限理性:论经典博弈理论与进化博弈理论之关系》,《世界经济》,8,74-78。
[5] Binmore, K., G., and Larry Samuelson(1993): Musical Chaires: The Evolutionary Mechanica of Equilibrium Selection, Mimeo, (University College London and University of Wisconsin, Madison) .
[6] Cressman, P.,(1992): The Stability Concept of Evolutionary Game Theory (A Dynamical Approach), Lecture Notes in Biomathematics, Vol. 94, Springer Berlin.
[7) Cressman, P.,(1996): Frequency-dependent Stability for two-species interactions, Theoretical Population biology, 49, 189-210.
[8] Cressman, r.,(1990): Strong Stability and Density-dependent Evolutionarily Stable Strategies, Theoretical Population biology, 145, 319-330.
[9] Friedman, D.(1991): Evolutionary games in economics, Econometrica 59.
[10] Fudenberg, D. (1998): Learning in Games, Cambridge MIT Press.
[11] Gilboa, I. and A. Matsui (1991): Social Stability and Equilibrium, Econometrica,59, 869-867.
[12] Hammerstein, P., (1981): The role of Asymmetries in Animal Contests, Anim. Behav. 29, 193-205.
[13] Hansen, R. G., and Samuelson, W., (1988): Evolution in Economic Games. Journal of Economic Behavior and Organization, 10, 315-338.
[14] Hofbauer, J., Sigmund, K.,(1988): The Theory of Evolution and Dynamical Systems, Cambridge University Press, Cambridge.
[15] Lewontin, R. C. (1960): Evolution and the Theory of Games. Journal of Theoretical Biology, 1, 382-403.
[16] Matsui, A.(1992): Best Response Dynamics and Socially Stable Strategies, Journal of Economic Theory, 67, 343-362.
[17] Maynard Smith(1974): The theory of Games and the Evolution of Animal Conflict, Journal of Theoretical Biology, 47, 09-221.
[18] Maynard Smith(1978): In defence of Models, Anim, Behav. 26, 632-633.
[19] Maynard Smith, J. And Price, B. R. (1973): The Logic of Animal Conflict, Nature, 246, 15-18.
[20] Peck, J. R., and Feldman (1988): Kin Selection and the evolution of Monogamy, Science, 240, 1672-1674.
[21] Rosen, R. (1970): “Dynamical System Theory in Biology,” Vols. 1 and 2, Wiley-Interscience, New York.
[22] Samuelson, Larry and Jianbo, Zhang(1992), Evolutionary Stability in Asymmetric Games, Journal of Economic Theory 57.363-391.
[23] Schaffer, M. E., (1988): Evolutionarily Stable Strategies for a Finite Population and a Variable Contest Size. Journal of Theoretical Biology, 132, 469-478.
[24] Selten, R.(1980), Evolutionary Stability in Extensive Two-person Games-Correction and Further Development, Mathematical. Social. Science, pp. 93-101.
[25] Selten, R.(1983), Evolutionary stability in extensive two-Person Games, Mathematical. Social. Science 5. 269-363.
[26] Selten, R.(1988), Evolutionary stability in extensive two-Person Games—Correction and further development, Mathematical. Social. Science 16 . 93-101.
[27] Swinkels, J. (1992): Evolution and Strategic Stability: From Maynard Smith to Kohlberg and Mertens, Journal of Economic Theory, 57, 333-342.
[28] Swinkels, J. (1993): Adjustment Dynamics and rational Play in Games, Games and Economic Behavior, .5, 455-484.
[29] Tanaka, Y., (2000): Stochastically Stable States in an oligopoly with Differentiated Goods: Equivalence of Price and Quantity Strategies, Journal of Mathematical Economics, 34, 235-253.
[30] Taylor, P. D., and Jonker, L. B. (1978): Evolutionarily Stable Strategies and Game Dynamics, Mathematical. Bioscience. 40, 145-156.
[31] Wynne-Edwards, V. C. (1962): “Animal Dispersion in Relation To Social Behavior,” Hofner, New York.
【关键词】 会计信息博弈;披露;监管
一、研究背景
云南绿大地生物科技股份有限公司(简称绿大地)创立于 1996 年 6 月, 2007 年 12 月,公司向社会公开发行股票在深圳证券交易所挂牌上市,成为国内绿化苗木行业首家上市公司。2011 年 3 月中旬,绿大地公司公告称,其董事长何学葵因涉嫌欺诈发行股票罪被公安机关逮捕。调查发现,公司涉嫌虚增资产、虚增收入、虚增利润等多项违法违规行为。其实,在此之前,绿大地造假事件早已露出端倪,上市三年多来,公司频繁更换高管人员和会计师事务所。可是问题如此之多的绿大地,为何能通过层层关口上市融资,并直至三年后才被揭穿呢?
从银广厦到绿大地,上市公司涉嫌财务造假背后总有会计师事务所如影随形。本来,中介机构的任务是将真正优秀的公司输送到市场中,可事实却是中介机构与上市公司串通起来蒙骗投资者。这是由于这种行为的成本与收益不对称:与上市公司串通可以获得很大的收益,而一旦东窗事发,处罚却十分有限。显然,造假成本小而收益大。针对这种会计信息失真现象,本文从动态博弈的角度出发,对这种现象进行了分析,并提出了减少会计信息失真现象的建议。
二、博弈模型的建立与假设的提出
在会计信息的披露过程中,有披露方和监管方这样两个参与者,其中会计信息的披露方主要指企业的管理层即经营者,会计信息的监管方指会计师事务所等外部监督管理机构(这里暂不讨论股东这个角色)。每个博弈方都有两个纯策略可供选择,对于披露方可以选择披露虚假的会计信息即不诚信,也可以选择披露真实的会计信息即诚信;对于监管方则可以选择实行监管,也可以选择不监管。这里用I和H分别表示监管方和披露方的策略集合,Ii和Hi分别表示第i个纯策略(i=1,2),即I={I1,I2}={监管,不监管},H={H1,H2}={不诚信,诚信}。同时可以作出如下假设:
假设1:披露真实的会计信息为企业带来的效用是Y,而披露虚假的会计信息为企业带来的效用是X(X>Y),其中伪造虚假会计信息的成本是a,这里a相对于X来说特别的小即X-a>Y,只有在这种条件之下,企业才有可能对会计信息进行造假。
假设2:若披露虚假的会计信息,则监管方遭受的损失是m,若披露真实的会计信息,则监管方既无收益也无损失。如果监管方发现企业有造假行为,则企业应向监管方交纳f的罚款,而监管方在监管过程中需要付出c的成本。
假设3:如果披露方披露虚假会计信息,监管方进行监管,就一定能查出该造假行为,且需满足f-c>0,否则根据理性人的假设,监管方不会实施监管。同时也假定监管方监管的惩罚力度是很大的,实施的是有效监管,使企业在被处以罚款之后的效用低于披露真实会计信息的效用,即X-a-f
从以上假设可以得到监管方和披露方的得益矩阵(见表1)
三、会计信息披露与监督的静态博弈分析
基于上述假设可以得出,在静态博弈分析中,如果监管方选择I1监管,则披露方就会选择H2披露真实会计信息即诚信;如果监管方选择I2不监管,则披露方就会选择H1披露虚假会计信息即不诚信;如果披露方选择H1不诚信,则监管方就会选择I1监管;如果披露方选择H2诚信,则监管方就会选择I2不监管。这样博弈双方就一直在博弈矩阵里循环往复下去,显然这个博弈不存在占优策略,但是纳什均衡存在性定理告诉我们:每一个有限博弈至少存在一个纳什均衡(纯策略的或混合战略的)。从以上分析可以看出这个博弈不存在纯策略纳什均衡,因此它必然存在一个混合策略纳什均衡。
假定监管方的混合策略为p={p,1-p},披露方的混合策略为 Q={q,1-q},这表示监管方以P的概率选择监管,披露方以q的概率选择不诚信即披露虚假的会计信息。这样就可以推出博弈双方的期望得益:
监管方选择监管的期望得益值为:
Up=q(f-m-c)+(1-q)(-c) (1)
监管方选择不监管的期望得益值为:
U1-p=q(-m) (2)
披露方选择不诚信的期望得益值为:
Uq=p(X-a-f)+(1-p)(X-a)(3)
披露方选择诚信的期望得益值为:
U1-q=PY+(1-p)Y(4)
在混合策略纳什均衡中,应该使得无论披露方选择哪一种策略,监管方选择监管和不监管的期望得益都是相同的,同时,也应该使无论监管方选择哪一种策略,披露方选择不诚信和诚信的期望得益是相同的。因此可以得到以下两个等式:
Up=U1-p,Uq=U1-q
计算可以得到P*=(X-a-Y)/1,q*=c/f,,这表示监管方分别以概率P*和1-P*选择“监管”与“不监管”,披露方分别以概率 q*和1-q*选择“不诚信”和“诚信”,即监管方和披露方博弈的唯一的混合策略纳什均衡为{((X-a-Y)/f,(f+a+Y-X)/f),(c/f,(f-c)/f)}。从中可以得出当p>P*时,诚信是披露方的最佳策略,即q=0;当pq*时,监管方会选择监管,即p=1;当q
四、会计信息披露与监督的进化博弈分析
在有限理性下人们不一定有能力找到纳什均衡,每个博弈方通过把不同策略的得益与平均得益进行比较,然后逐步调整策略。这与生物进化过程很类似,在物种进化过程中,生物调整自身行为很缓慢。在这里,假设由披露方和监管方组成的大群体学习速度很慢,这样就可以用复制动态来模拟博弈方的动态调整,在整个复制动态过程中,如果出现一种适应性较高的策略,就会被大多数人采用,否则就会被淘汰。
在演化博弈分析框架下,监管方博弈群体中采用监管策略的比例为p,披露方博弈群体中采用不诚信策略的比例为q,因此,由方程(1)和(2)得到监管方群体的平均得益UI为:
UI=pUp+(1-p)U1-p=pqf-pc-qm(5)
由方程(3)和(4)得到披露方群体的平均得益UH为:
UH=qUq+(1-q)U1-q=q(X-a-Y)-pqf+Y (6)
由方程(1)、(5)可以得到监管方采用监管策略比例的复制动态方程为:
从上述分析可以得出以下结论:
第一,适当提高罚款额有助于降低披露方不诚信的可能性。
上述不等式说明监管方监管的可能性和披露方不诚信的可能性是罚款额的减函数。对于披露方而言,罚款额越高,越会选择诚信即披露真实的会计信息,这与现实也是相符合的,一旦被发现会计信息造假,企业不仅要承担因虚假会计信息带来的损失,还要额外地支付罚款,这样企业将会承担更大的成本和风险,因此披露方会更倾向于选择诚信的策略。同时,对于监管方来说,他们考虑到由于罚款额上升会使披露方不诚信的可能性降低,因此他们监管的可能性也会降低;相反,较低的惩罚力度会使披露方产生不诚信的心理,使得监管方监管的可能性增强。
第二,降低监管成本可以减小披露方不诚信的可能性。
这个不等式表明披露方不诚信的可能性会随着监管成本的降低而降低,是因为较低的监管成本使得监管方实施监管的可能性增加,披露方考虑到监管方的这种心理,自然就减少会计信息造假的可能性。所以,为了尽可能地减少会计信息失真的现象发生,监管部门应该采取一切可能的方法来降低监管成本,有效遏制会计信息造假的发生。
第三,诚信遵从的改善是缓慢的,即监管方监管的概率p*较高时,披露方处于规避风险的考虑,他不诚信的概率q*较低,同时,一旦监管方觉察到会计信息造假的事件比较少时,也会放松监管,即选择监管策略的可能性就会降低,这样就会使得披露方偏向于选择不诚信,提高不诚信的概率q*。这就表明,提高披露方的诚信遵从度是一个非常缓慢的过程,并非在短时间内可以实现,为减少会计信息失真的现象,应该尽量使得p>p*,从而使披露方不诚信的概率q保持在一个较低的水平上。
五、总结
本文从理论的角度分析了会计信息的披露和监管过程中的静态博弈和动态进化博弈,克服了经典博弈模型中要求参与者具有完全理性的缺点,而进化博弈正是有限理性的研究框架,降低了参与者的理性程度,更贴近现实。除此之外,动态进化博弈提供了各种可能的均衡状态,并给出了均衡状态下的方程,同时将罚款金额、监管成本和造假成本纳入动态分析过程,更符合现实,还得出了降低监管成本和加大惩罚力度是减少会计信息失真的有效途径。
【参考文献】
[1] 李敏.上市公司会计信息失真博弈分析[J].合作经济与科技,2008(2):80-81.
[2] 徐焕章,管慧芳,刘丽华.基于博弈论的会计信息失真研究[J].西安工程大学学报,2009(2):126-130.
[3] 张维迎.博弈论与信息经济学(第二版)[M].上海:上海人民出版社,2005.
摘要:经典博弈理论的理性基础是“完全理性”假设,但现实中人们更多地表现为有限理性。因此在分析企业价格竞争博弈时应以有限理性假设为前提的进化博弈理论作为分析的理论基础。本文运用进化博弈理论,以企业群体为研究对象,通过构建进化博弈模型分析企业在价格竞争中价格策略调整以及变化趋势,对现实中企业价格竞争的策略选择做出解释。
关键词:复制动态方程;企业价格竞争;高价策略;低价策略
一、引言
经典博弈理论在分析人们的策略选择时,实际上沿用了经济学中通常采用的“理性经济人假设”,即认为博弈方都是以个体利益最大化为目标,且有准确的判断选择能力,也不会“犯错误”。这种置于完全理性假设下的博弈意味着博弈方在博弈一开始就能精准地计算出自己的收益从而选择最优的策略。依照这种逻辑,在企业价格竞争的初始阶段,企业就能够根据收益的大小,选择适当的价格策略获得最大利益,从而实现一种静态均衡。而现实中企业的价格竞争往往呈现出一种不断调整趋于稳定的动态过程。由于企业所面临环境的不确定性以及人们对环境的计算能力和认识能力的有限性,使得企业很难一次性地选择最优策略。因此我们在分析企业价格竞争博弈时,需要对完全理性博弈分析框架做出调整,把我们的分析建立在有限理性分析框架下的进化博弈理论基础之上。
二.进化博弈理论简介
进化博弈理论从有限理性博弈方出发,以群体为研究对象,利用动态分析方法来考察群体达到均衡的过程,并利用该理论的均衡概念进化稳定均衡来预测群体的行为,其核心概念就是进化稳定策略。
进化稳定策略的是指假设占群体绝大多数的个体选择某种特定策略,如果选择不同策略的小的突变个体获得的收益大于群体中的个体所获得的收益,那么这个突变就能够侵入到这个群体。反之,就不能够侵入这个群体而在进化过程中消失。当一个群体的特定策略能够消除突变个体的侵入,那么这个群体就达到了进化稳定状态,此时该群体所选择的策略就是进化稳定策略。我们可以用复制动态方程,即一种策略在一个群体中被选择比例的动态微分方程,来描述这一变化过程。当某种策略的收益比群体的平均收益高时,那么这种策略就会在群体中被模仿、学习和发展,其变化速度与选择相应策略个体的比例和该策略收益超过平均收益的幅度成正比。
用微分方程表示:
其中, 表示群体中选择策略 的比例, 表示选择策略 的期望收益, 表示群体的平均期望收益, 表示不同的策略。令 ,就可解出复制动态方程的稳定点。如果出现小的突变个体偏离该稳定点,复制动态仍然会使其恢复到该点,该点就是进化稳定策略点,群体达到进化稳定状态。利用进化博弈理论,我们可以分析企业价格策略的调整变化以及达到稳定均衡状态的动态过程。
三.模型的建立与分析
假设在生产同种产品的企业群体中,每个企业只有两种价格策略选择,即高价和低价。为了便于分析,我们认为其中任何两个企业在策略和利益方面都是对称的。由此构造一个两个企业的对称博弈,其收益矩阵如下图所示,其中H表示高价,L表示低价,且 。
现在我们分析企业随机配对的价格竞争博弈。由于博弈方的理性是有限的,所以并不是所有企业一开始就能找到最佳策略,这与不同策略组合的收益有关。可能既有选择高价策略的企业,也有选择低价策略的企业。假设选择高价策略的企业比例是 ,选择低价策略的企业比例就是 。那么:
选择高价策略企业的期望收益为:
选择低价策略的企业的期望收益为:
群体平均期望收益为:
按照复制动态的思想,选择策略收益较低的企业或早或迟会发现改变策略对自己是有利的,转向(模仿)有较高收益的策略,因此群体中选择不同策略的企业比例就会发生变化。我们以选择高价策略企业的比例为例,
其动态变化速度可以用下列复制动态方程表示: 。
由此我们可以进行进化稳定性分析:
令 。此时博弈有三个稳定点,分别是 , , 。其中前两个稳定点意味着所有企业趋向于选择相同的策略,或者都选择低价策略或者都选择高价策略;后一个稳定点意味着企业以一定比例选择不同策略。作为进化稳定策略点 ,除了本身必须是均衡状态以外,即 ,还必须能够消除突变个体的侵入,也就是说如果某些博弈方由于偶然的错误偏离了 ,复制动态仍然会使 回复到 。这就要求当突变使 时, 必须大于0,当突变使得 时, 须小于0,也就是在这些稳定点处 的导数 必须小于0。
求 对 的导数得: 。则 , 。由于 ,有 ; ,所以 , 均为进化稳定策略点。 , 不是进化稳定策略点,对微小的突变不具有稳健性。由此我们可以得出:
当初始选择高价策略的企业比例 落在区间 时,复制动态会使其趋向于进化稳定状态 ,即所有企业都选择低价策略;
当初始选择高价策略的企业比例 落在区间 时,复制动态会使其趋向于进化稳定状态 ,即所有企业方都选择高价策略。
选择低价策略和高价策略的机会分别为: 和 。
从以上分析可以看出企业的价格竞争是一种变化调整趋于稳定的动态过程,其结果将趋于两种稳定均衡状态,或者高价的均衡状态或者选择低价的均衡状态,究竟会趋向于哪个稳定点,取决于企业初始选择某种策略的比例以及由不同策略组合的收益所确定的区间。
四.结论
利用有限理性框架下的进化博弈理论在对企业价格竞争博弈进行分析时,尽管进行了理想化的假定,但仍具有一般性。企业价格竞争的初始阶段往往表现为多样性的价格策略,这是由于人们的理性有限以及竞争环境的不确定性所致。但企业可以在竞争中通过不断地比较收益,模仿、学习寻找到有利可图的价格策略,从而实现一种进化稳定均衡。这也可以部分解释为什么企业“价格战”的结果往往是都选择低价策略,或者企业为避免“价格战”所导致的两败俱伤,彼此心照不宣地形成默契价格,维持高价策略。当然影响企业价格竞争动态变化的原因还有很多,本文只是从进化博弈的角度进行了分析,但这并不影响分析结果的有效性。
参考文献:
论文关键词:知识共享,进化博弈,研发团队
知识经济时代,知识管理的逐渐普及和深化,使得知识共享的地位日益突出。知识共享作为知识管理的关键环节,在提高企业对环境的应变能力和知识创新能力方面有巨大的推动作用。越来越多的企业清楚地认识到,只有致力于知识的共享,才能把分散于个体头脑中的零星知识整
1文献回顾<
在知识经济中,绝大部分知识将通过共享得到应用,个人独占形式的知识将微不足道,共享成为知识价值实现的一种形式,也成为知识增值发展的一种途径。鉴于知识共享的价值和重要性,国内外已有研究人员就知识共享进行了大量的研究企业文化论文,国内对知识共享的研究要晚于国外。通过文献的查询和阅读发现目前国内的研究方向大致集中在对企业知识共享中存在的障碍及对策的分析,如文献[1];对知识共享机制的研究,如文献[2]的研究;企业文
2企业研发团队知识共
2.1知识共享
知识共享(Knowledge Sharing)的概念是伴随着知识管理理论和实践的产生而出现的,在最初的知识管理研究中,学者们只是把知识共享看作知识管理的一个子内容来研究。随着知识管理理论及其实践的逐渐普及和深化,管理者们逐渐认识到组织实施知识管理的
对于知识共享的概念,目前学术界还没有统一的定论。很多学者用不同的文字从不同的角度对知识共享进行了解释和描述,如有的学者从沟通的观点用知识转移(Knowledge Transfer)来描述知识共享,认为知识是通过个体之间的沟通交流来实现知识从拥有者到接受者的转移[2];有的学者从知识社区的视角用知识扩散(Knowledge Distribution)来描述知识共享,认为知识共享就是知识在知识社区内的扩散过程,从而实现知识的增值[6];还有的学者从市场交易的观点用知识交易(Knowledge Transaction)来描述知识共
2.2企业研发团队的
企业研发团队的知识水平决定了企业开发新产品的能力。企业研发团队的成员都是高水平的知识工作者,都拥有很专业的知
结合以上关于知识共享的定义和企业研发团队的实际,可以将研发团队的知识共享理解为将研发团队中从属不同个体的知识进行整合的过程,在这个过程中研发团队成员之间不断地进行沟通和学习小论文。在知识共享的过程中,研发团队中作为知识提供者的个体成员将其本身所拥有的知识、技能、经验等外化,提供出来,以获得某种有形或无形的收益;而作为知识接收者的其他成员通过各种方式与知识提供者互动学习
3企业研发团队知识共享的
3.1进化博弈
进化博弈论(Evolutionary Game Theory)是近年来博弈理论的新发展,最初产生于生物学领域。进化博弈论是基于生物进化论,以有限理性为前提的实用性较强的博弈理论,它突破了传统博弈论对参与人完全理性假定的限制。以进化理论为基本的进化博弈理论的基本思路是:在具有一定规模的博弈群体中,博弈双方进行着反复的博弈活动[2]。进化博弈论遵从生物进化论中“物竞天择,适者生存”的基本原则。在进化博弈论中,由于有
在进化博弈论中企业文化论文,最核心的概念是“进化稳定策略”(Evolutionary Stable Strategy ,ESS)和“复制动态”(Replicator Dynamics)[8]
若策略s*是一个ESS,当
s*构成一个Nash均衡(即对任意的s,有u (s* ,s*)
如果s*s满足u (s* ,s*)= (s*,s),则必有u(s* ,s*)>u(s,
复制动态实际上是描述某一特定策略在一个种群中被采用的频数或频度的动态微分方程。根据进化的原理,一种策略的适应度或支付(Payoff)比种群的平均适应度高,这种策略就会在种群中发展,即适者生存体现在这种策略的增长
=[u(k ,s)-u(s ,s)],k=1,2…K
其中为一个种群中采用策略k的比例,u(k ,s)表示采用策略k时的适应度,
3.2研发团队知识共享进化
由于掌握知识的个体的创新能力高于没有掌握的个体,所以其所得的企业报酬相对要高,加之知识共享使得员工充满不安全感,于是就产生了知识共享的障碍,这里将这些障碍因素看作一个综合效益参数。
研发团队知识共享的进化博弈的支付
表1 博弈双方的支
知识共享者S
知识独占者M
共享(Co)
独占(Mo)
关键词:车载DVD;进化博弈;鹰鸽博弈
中图分类号:F42 文献标识码:A
原标题:基于进化博弈理论对我国车载DVD行业的市场分析
收录日期:2011年12月26日
一、我国车载DVD行业发展历程概述
车载电子产品是一类新兴的汽车电子产品,主要作用包括提高汽车的娱乐性、为驾驶员和乘客提供各类信息,以及提高汽车通信能力等。就目前来看,汽车上主要应用的车载电子产品有:GPS、车载电视、车载DVD、车载MP3、车载音响、TPMS、车载通信系统、车载网络系统、CarPC等。就车载DVD产品来看:在行业发展初期,产品价位高市场认知度低,普及率较低;随着时间的延续和经济的发展,汽车相关产业快速发展。同时,生产厂商的增加,产品数量的增大使车载DVD的价位逐渐下降,市场普及率逐渐提高。
二、我国车载DVD行业发展的经济学理论模型
(一)基本理论――有限理性和进化博弈。在博弈理论中,将理性分为完全理性和有限理性。其中,完全理性是指那种具有完美的理性意识、行为准确的理性经济人,而与之相对的有限理性则是指理性程度高但偶尔犯错误的正常人。进化博弈就是有限理性博弈方的博弈,这种博弈对均衡稳定性存在一定程度的偏差,但经过一段时间的调整就可以获得均衡的博弈。
(二)基本理论――最优反映动态博弈与复制动态博弈。进化博弈中的最优反应动态博弈是指那些能迅速调整策略的有限理性博弈方的动态策略调整,他们通常会采用针对上次博弈对方策略的最优对策。复制动态博弈是对优势策略仅具有简单模仿能力的有限理性博弈方所使用的动态策略调整机制,这一机制的核心是在群体中采用较为成功的策略(比平均水平较好的策略)的个体逐渐增加。
(三)进化博弈典型模型――鹰鸽博弈(表1)
在鹰鸽博弈模型中,鹰代表战争,是市场中较为强势的厂商经常使用的策略。这类厂商在市场中或者占据较大市场份额,或者拥有较为雄厚的资本和自主品牌,多为某行业的龙头老大或领军企业;鸽代表和平,是较为平和的市场策略。一些进入某一行业较晚的厂商或者产品处于成熟阶段的厂商往往倾向于采取这一策略。模型中,V代表收益,是厂商执行某一市场策略成功所获取的利益;C代表成本,是策略失败所付出的代价或成本,而博弈各方胜败概率假设均为1/2。
三、基于进化博弈理论对车载DVD行业的分析
车载DVD行业形成初期,市场上存在的厂商数量较少,产品品种有限,参加博弈的博弈方数量较少;而当车载DVD产品逐渐为消费者所熟知,有越来越多的生产厂商进入到这一市场来,瓜分市场份额,此时的博弈方也大幅增加,众多厂商便可以分为两个大的博弈群体:早期进入市场的拥有相对较大市场份额的厂商和待市场较为成熟才进入市场企图瓜分市场份额的厂商,我们可以称之为守擂者和攻擂者。基于以上原因,车载DVD行业发展历程正好与上述鹰鸽博弈分析方法的适用背景相符合,因此可以运用进化博弈中的鹰鸽博弈分析方法对我国车载DVD行业进行分析:
(一)市场形成初期博弈分析
1、模型背景。车载DVD市场形成初期,竞争厂商数量较少,新产品上市价格较高,同时新产品前期成本主要为研发成本和生产成本。假设博弈方只有两家厂商分别是厂商一和厂商二,收益V为8,成本C为4,博弈双方胜败的概率均为1/2。
2、建立模型
(1)鹰鸽博弈基本模型(表2)
(2)期望得益与平均期望得益。设X:采用“鹰”策略博弈方的比例;1-X:采用“鸽”策略博弈方的比例。所以,期望得益:
ux=x・2+(1-x)・8,u1-x=x・0+(1-x)・4
平均期望得益:
■=x・ux+(1-x)u1-x
=x[2x+8(1-x)]+(1-x)[4(1-x)]=4-2x2
随着时间的推移,越来越多的厂商模仿鹰策略,想要赚取更多收益,所以有:
dx/dt=x・(ux-■)
=2x3-6x2+4x=2x(x-1)(x-2)
随着复制动态过程的持续,采用两种策略的博弈方比例不再发生变化,博弈达到稳定状态,此时dx/dt,即x=0,1,2。
根据微分方程的“稳定性”定理可以求出进化稳定策略下达到稳定状态时“鹰”策略博弈方的比例。
设dx/dt=F(x),随着时间t增加,x的变动逐渐减小,达到稳定状态的x*使得F'(x*)<0。由此,dx/dt=F(x)=2x3-6x2+4x,得F'(x*)=6x2-12x+4,而稳定状态下dx/dt=0的得益x*=0,1,2,带入F'(x*)。得F'(0)=4>0,F'(1)=-2<0,F'(2)=4>0。
(3)结论。在进化稳定策略下,达到稳定状态时的x*=1,说明鹰策略的博弈方数量稳定在1的水平。
(二)产品市场成熟期博弈分析
1、模型背景。车载DVD市场逐渐成熟,竞争厂商数量迅速增多,产品价格逐渐降低,同时产品的生产成本降低,但是维护成本大幅度提高。来自外界巨大的竞争压力使得厂商收益缩水幅度很大,而成本上升的却很快。假设博弈方为两个竞争集团,分别代表前期进入市场和后期进入市场的两个博弈方,称之为“守擂者”和“攻擂者”。收益V为2,成本C为12,博弈双方胜败的概率仍均为1/2。
2、建立模型
(1)鹰鸽博弈基本模型(表3)
(2)期望得益与平均期望得益。期望得益与平均期望得益的计算方法同上。随着时间的推移,越来越多的新厂商进入市场,企图瓜分市场份额。市场上的产品品种、品牌数量逐渐增加。
经计算,有:
dx/dt=6x3-7x2+x=x(1-x)(1-6x)
随着复制动态过程的持续,采用两种策略的博弈方比例不再发生变化,博弈达到稳定状态,此时dx/dt=0,即x=0,1,1/6。
设dx/dt=F(x),随着时间t增加,x的变动逐渐减小,达到稳定状态的x*使得F'(x*)<0。由此,dx/dt=F(x)=6x3-7x2+x,得F'(x*)=18x2-14x+1,而稳定状态下dx/dt=0的得益x*=0,1,1/6,带入F'(x*)。得F'(0)>0,F'(1)>0,F'(1/6)<0。
(3)结论。在进化稳定策略下,达到稳定状态时的x*=1/6,说明鹰策略的博弈方数量稳定在1/6的水平。
四、结束语
经过上述分析可知,车载DVD产品已进入生命周期的成熟阶段:产品品牌众多,产量巨大。通过利用进化博弈理论对其分析可对其发展脉络有所了解,车载DVD行业内厂商竞争激烈,新进入厂商应在产品创新与改善售后方面加大投入力度,以求从激烈的竞争中脱颖而出。
主要参考文献:
[1]杨锡怀,王江等.企业战略管理[M].高等教育出版社,2004.4.
基于博弈双方有限理性的假设,本文构建了一个影子银行和传统银行合作的进化博弈模型。研究发现,该动态博弈过程的结果有两个可能的进化稳定策略,其一是双方都选择不合作,其二是双方都选择合作的最优进化稳定策略。为了增大该博弈过程收敛于最优进化稳定策略的可能性,笔者认为政府应该给予影子银行合法地位,同时搭建影子银行与传统银行之间的联动平台,降低双方合作成本,增加合作效益。从而促使二者最终选择合作博弈,达到双赢。
【关键词】 影子银行、有限理性、进化博弈、传统银行
一、引言
影子银行是游离在传统银行体系之外的金融体系。它能够促进信贷市场进行有效的资金配置,刺激经济发展。然后影子银行不受监管,难以把控,从而导致其产生负面影响。2008年美国的次贷危机国内外学者几乎将内因归结于影子银行。但是,在如今互联网金融发展的背景下,想要完全消除影子银行是不可能的,引导影子银行朝着积极正面的方向发展才是正确之路。若是影子银行与传统银行能够实现合作共赢,那将成功解决对影子银行的监管问题。
二、相关概念阐述
(一)影子银行
影子银行一词来源于美国次贷危机爆发后,首次被Paul Mcculleys提出的。后来FBS(2011)正式指出,影子银行是传统银行体系之外所涉及信用融资活动的机构。这成为了国内外学者接受度最大的界定。
我国对影子银行的界定一直与体制外金融、民间金融、民营金融、地下金融等概念混用的现象。但是大家对影子银行的基本认知都包括未受国家法律规范,游离于监管当局监管之外等等。有的学者还指出,除了金融机构外,还应包含金融创新产品、服务以及产品和服务适用的金融市场。不过由于本文讨论的是两个主体间的合作关系,故而本文所指的影子银行即是游离于传统银行管理体系之外的非银行金融机构。
(二)有限理性
由于现实生活中许多现象无法用传统金融学来解释,故而后起之秀――行为金融学因合理解释了这些金融现象被广大学者所接受,行为金融学与传统金融理论最大的不同之处就在于,行为金融学认为是投资者不是完全理性人,而是有限理性人。他们总是会受到心理、环境、他人的影响而作出决定。投资行为不全是根据利益最大化原则,还包括安全最大化等等。
(三)进化博弈模型
进化博弈论博弈是一个动态的博弈过程,是有限理性博弈双方群体在一定的前提下对当前局面进行选择,在一个群体中得益较差的博弈方迟早会发现这种差异,并开始学习模仿得益较高的博弈方,后经过自我体验以及学习其他人的选择,而不断改变自己的策略。最终市场会根据优胜劣汰的自然规律,形成一个稳定的策略。这种类似于生物进化论的动态博弈方式被称为进化博弈论。最终形成的策略成为进化稳定策略(ESS)。
本文基于进化博弈论的研究方法,对传统银行和影子银行二者的合作进行预测,并判断何时能够达到二者自然选择合作策略。基于进化博弈论的基本理论,我们假设传统银行和影子银行都是有限的理性人,对两个博弈方不再细分其内部的个体,并且假设传统银行与影子银行的最大的区分是是否受监管当局监管。
三、影子银行和传统银行合作问题的进化博弈分析
我们粗略地假定我国金融市场中有传统银行机构和影子银行两类机构,而双方面临的选择只有合作和不合作两种策略,自我的选择和其他群体的选择都将影响自身与他人的收益。他们都将依据这种相对收益率不断地调整自己的策略。两个群体不断地博弈交流,最终通过物竞天择、适者生存的进化法则自发进化到具有稳定性的均衡状态――进化稳定策略(ESS)。
1.博弈双方的得益
我们先假设传统银行和影子银行在非合作状态下的收益分别为Rc和RY。我们假设,当二者采取合作时,由于渠道拓宽,客户量增大以及销售效率提升,双方的收益将会增加Y,此时双方存在一个合作的成本分别Cc和CY,且我们假定c大于Cc,Y大于CY。根据上述假设,可以得到如表1所示的矩阵图。我们发现,如果传统银行与影子银行都是理性经济人时,表1的结果必然存在一个纯战略的纳什均衡(合作、合作);但是如果我们把前提假设放宽至有限理性,我们发展最后的进化稳定策略并非都是(合作,合作)
2.传统银行和影子银行的期望得益及其动态微分方程
假定当t时,x是传统银行群体中选择合作策略的银行占传统银行的且X(0,1),则选择不合作策略银行比例为1-x;同理,在影子银行群体中,y是选择合作策略的银行占影子银行的比例,且Y(0,1),则选择不合作策略的银行比例为1-y。
在传统银行群体中采取合作和不合作策略两类博弈方的期望得益分别为CHZ和CNH,群体平均期望得益为C:
3、基于传统银行群体和影子银行复制动态微分方程的分析
从(7)式可知,传统银行群体中选择合作策略博弈方的比例x的变化率与该类型博弈方的超额期望得益呈正相关关系,也与该类型博弈方的比例x呈正相关。
当y=时,,传统银行中选择 合作 策略的银行的比例的变化率为0,即采取合作策略的博弈方比例不会发生变化,此时传统银行群体处于稳定状态。当,即采取合作策略的银行获得超额收益,那么,选择不合作策略的银行将逐渐发现并调整策略的策,选择合作策略,选择合作的比例x会向趋近1,此时是该群体复制动态下的一个ESS。当,即采取合作策略的博弈方的期望得益小于群体平均得益。那么, 选择合作策略的银行也会逐渐选择不合作策略,采取合作策略的博弈方数量会逐渐减少,直到X=0 ,此时是该群体复制动态下的另一个ESS。下图1给出了上述三种情况 的动态变化的相位图和稳定状态。
同理可知影子银行群里的情况。当,在影子银行里选择合作策略银行比例y的变化率为0 ,即y不会发生变化,此时影子银行群体处于稳定状态。当0,即选择合作的影子能够获得超额收益,此时采取不合作策略的银行将会调整策略,最终选择合作,之后y会向趋近1,当y=1时,该群体处于进化稳定策略。当,表示,选择合作的影子银行不能获得超额收益,甚至所获得的收益低于平均收益,故而采取合作策略的银行数量会调整策略,y会向趋近0,此时是该群体复制动态下的另一个进化稳定策略。下图2给出了上述三种情况的动态变化的相位图和稳定状态。
4. 传统银行与影子银行合作的进化博弈系统复制动态分析将传统银行和影子银行两个特殊群体类型的比例变化复制动态的关系用一个坐标平面图表示,可得到下图3:
从图 3中A、B、C和D四个区域我们可发现,传统银行和影子银行的合作博弈过程中,最终会趋向(0,0)和(1,1)这两个进化稳定策略。同时,若传统银行与影子银行是处于 B区域时,二者将收敛到进化稳定策略(1,1),即采用合作策略;而传统银行与影子银行在C区域时,二者将收敛到进化稳定策略(0,0),即采用不合作策略,当他们处在A和D 两个区域时,二者是否选择合作是不确定的。传统银行和影子银行能够选择合作策略由双方合作后的收益增加量与成本决定。想要增加B区域的面积,提高传统银行与影子银行趋向纳什均衡(合作、合作),有两种方法。一是在传统银行与影子合作时他们的收益增加量c和Cc不变时,让二者的合作成本Cc和CY越小;二是当双方的初始合作成本Cc和CY一定时,提高双方获得的合作收益增加量Y。
四、政策建议
通过进化博弈论,我们对传统银行与影子银行的合作博弈动态过程进行了分析。我们发现,二者存在着都选择合作和都选择不合作两种进化稳定策略。而决定他们选择哪种策略的主要两个因素是合作后的收益的增加量大小和合作之时的成本高低。收益增加量越大,成本越小,传统银行与影子银行越有可能选择合作。因此如何增加合作后的收益,降低合作时的成本是目前金融监管改革的重要目标之一。从增加合作效益与降低双方的合作成本的思路出发,当局者多制定出几种传统银行与影子银行合作的模式,如:建立个人征信体系。传统银行凭借多年的行业地位与广大的客户流量,可建立一个巨大的个人征信大数据系统。除此之外,影子银行体系中,如信托公司、P2P网贷平台等等可添加其他辅助信息,完善个人征信系统。我国若能建立一个完善的个人征信系统,能够有效减低二者,甚至其中任意一方的借贷成本,从而促进双方的合作。除此之外,我国政府应该给予影子银行合法地位,在宏观环境、法律政策、金融监管等多个方面搭建影子银行与传统银行之间的联动平台,助力传统银行与影子银行在合作时降低成本,提高收益。从而对影子银行的无监管转变为间接监管,对传统银行的过度监管转变为简政放权。这样才能形成一个有活力、有动力的金融市场。
【参考文献】
[1] 达庆利,张骥骧.有限理性条件下进化博弈均衡的稳定性分析[J].系统工程理论方法应用. 2006(03).
[2] 黄敏镁.基于演化博弈的供应链协同产品开发合作机制研究[J].中国管理科学.2010(06).
[3] 蒋国银,胡斌,钱任.进化博弈视角下移动服务商合作行为分析[J].运筹与管理.2010(05).
[4] 李波,伍戈.影子银行的信用创造功能及其对货币政策的挑战[J].金融研究. 2011(12).
[5] 袁增霆.中外影子银行体系的本质与监管[J].中国金融.2011(01).
然而,直到最近10多年来,在均衡选择方面才取得进展,这些进展提出当存在多个均衡时,应该怎样去做。
一、纳什均衡
纳什,在1950年就已经对纳什均衡给出两种解释。第一种是群体作用的解释。此种解释假设,在博弈中存在对每个参与者又称局中人(player)起作用的参与者群体。参与者不断地积累各种纯策略中的令人注意的经验信息,如果此博弈稳定下来,那么这种均衡必是纳什均衡。然而。Shapley在1964年证明,如果博弈没有稳定下来,那么必然存在一种策略选择的有限循环。第二种解释的观点是把均衡看成一个“自动实施协议”或者是理性的预测。如果基于理性的预测是唯一的,那么博弈均衡确实得以存在,这时倘若均衡是众所周知的,它必是纳什均衡。纳什本人对此做了阐述,这是“一种十分强的理性化和理想化的解释”。这对阐述均衡而言是有效的,解决均衡选择问题是一个基本的问题。因此,对于经济学家的研究目的而言,与均衡选择相关的问题是必须加以分析和深入探讨。
对纳什均衡的第三种解释,是由MaynardSmith和Price在1973年首次提出的,它源于生物学领域的研究。在这种解释中完全不存在有意识的选择:参与者预先选取某一种策略,而且更为成功的策略生存下来;如果种群(population在生物学上称为种群,在经济学中我们将其称为群体更好)达到一种稳定状态,那么所有策略必是等价的,因此,这种状态必是纳什均衡。这种生物学上的方法,其优点是它不仅具体指出稳定的结果,而且它还靠可能达成的一些结果来给出一种显示性的过程。
当然,经济学家清楚地意识到将涉及到的生物学领域中的思想和方法应用到经济学领域中的疑问和困难,比如,像生物学中的“复制方程”扩展到经济学领域中的内容和意义是什么,至今还在探索中。
二、进化思想在经济学中应用的回顾
对经济学给出进化的解释不是一种新的手法。实际上,进化解释在社会科学中是先于达尔文(Darwin)而出现。例如,亚当·斯密(AdamSmith)曾说:“带来许多利益的劳动分工,原本不是人类智能的结果,虽然人类智能预见到劳动分工产生普遍富裕,并想利用它来实现普遍富裕。尽管在人类本能里没有意识到这样广泛效用中的一种互通有无、物物交换,以及相互之间交易的倾向,此倾向很缓慢并且渐进产生结果,但是劳动分工是必须的。”
进化思想也能够在马尔萨斯(Malthus)、马歇尔(Marshall),熊彼特(Schumpeter)和哈耶克(Hayek)所写的著作中找到。关于进化经济学,这是一个单独的学科领域,经常与熊彼特的工作相联系。Robson在2001年系统地给出了经济行为的生物学方面的基本解释。
进化经济学与进化对策论至今是完全相互独立地发展起来的。在经济学的理论研究中,理性人的偏好通常是固定的。然而,对于理性人的偏好变化或者进化选择,经济学家对此也进行了研究,特别是利他主义的生存价值以及风险态度等。然而,我们这里的进化对策论是将偏好作为固定的和已知的。
关于市场生存进化方面的研究和探讨,开始于Winter在1964年的文章“经济的‘自然选择’与厂商理论”,接下来Winter在1971年发表了“满足、选择与改革残余物”,Nelson和Winter在1982年出版的著作《经济变迁的演化理论》(有中文版),是这一领域中出现的最为重要的文献。最近由Blume和Easley(1992,1995,1996),Dutta(1992)Dutt和Radner(1993),Radner(1995),Bega—redondo以及Boldeke和Samuelson(1997)等学者在此领域进行探索和研究。虽然这个论题与进化对策论紧密相联系,但是,目前这两种文献在方法论上相距甚远。
三、进化对策论的基本原理与结论
最近10多年里,不像对策论的传统分析方法那样——考虑有限理性的经济行为人以及在严格的认知局限之下必须学习执行策略,这样的对策论理论及其应用有了迅速的发展。这方面的大量研究工作是在称为进化对策论所提供的框架下进行的。正如此学科标题所表示的,这一新学科的原理借用生物学中的进化模型所具有的与众不同的一些特征。然而,此学科本身也发展了一些新的方法和技术,特别地适合于有限理性基本假设下对社会和经济体制方面的分析。进化对策论在10多年里以快速的步伐取得长足的发展。
进化对策沦为人们提供一种具有广泛适用性的工具。其潜在的应用领域从进化生物学延伸到一般的社会科学,特别是经济学中。进化理论在经济学中有着悠久的历史传统。直到最近,这种方法在非合作对策论框架中才得到应用。
进化对策论是研究策略行为的稳健性,它是针对有限理人所组成的大群体中多次博弈背景下的进化力量而言的。这种新的组成部分在经济理论里导致一种新的预测方法,并且为其他社会科学开辟一条崭新的研究途径。
进化对策论的基本内容:
(一)进化稳定策略概念。进化对策论理论中,一个关键概念是进化稳定策略(ESS),这一概念的提出归功于MaynardSmith和Price在1973年的“动物冲突的逻辑”一文。此种策略在特定的意义上对进化压力而言是稳健的:群体执行该种策略对执行任何其他策略而言是非入侵的。假定一对个体是重复随机地来自于大的群体,去参与一个对称并有限的两人博弈,还假定所有的个体在博弈中起初都执行某一个纯的或混合的策略x是进化稳定的,那么对于每一个变异策略y,都存在一个正的“入侵障碍”,使得执行变异策略y的个体群体所获得的支付低于此障碍,从而x赢得的预期支付比执行的y所得要高。下面的不等式对于充分小的ε>0成立,即:
u[x,(1-ε)x+εy]>u[y,(1-ε)x+εy]…………(1)
其中左边的表达式记为对于策略x而言,当执行相对应策略的个体进入之后,混合群体情况的混合策略(1-ε)x+εy时的预期支付,而右边的表达式记为对于策略y而言,其所对应的情况的预期支付。
实际上,由上述定义知道,进化稳定性十分有用的特性是一个策略x是进化稳定的当且仅当(1)它是对自身的最佳反应;(2)它是对所有其他最佳反应的反应,当这些策略对其自身的反应比较时。为了弄清楚(1)是必要的,只需充分观察即知,否则会存在一个对x而言的最佳反应y。在一个充分小的种群中,表现出的这个“变异”策略几乎总会遇到策略x,从而会赢得比x水平高的收益。同样,(2)是必需的,因为否则的话一定会存在一个对x而言的可供选择的最佳反应y,它会赢得与x遇到x的时候或者至少x遇到y时候的收益相同,从而y的平均水平会赢得比混合种群要高一些的收益。注意到,进化稳定性准则没有解释种群是如何达到这种策略的。然而,一旦达到这种策略,则这样的策略对进化压力来说是稳健的。同时,人们发现,进化稳定性没有处理种群中具有两个或更多“变异”同时出现的情况。因而,它隐含地把变异当成稀少事件,以致于种群有时间在另一个变异出现之前响应这种状况。
虽然,进化稳定性准则是一个生物学上的概念,但是它为各种各样的人类行为提供一种有关的稳健性准则。这样,进化稳定性要求人类群体中企图采用可选择的策略的任何一个小团体不比已经采用“固有”策略的那些个体所构成的团体收益好。相反,采用固有策略的那些个体所构成的团体缺乏激励来改变他们的策略。但是,那些采用可选策略的小团体却受激励而具有转变固有策略的行为。在这种社会背景下,进化稳定策略被人们看成是传统习惯或者已经确立起来的行为规则。比如,社会风气、企业管理模式等都可以看为是某种人类群体的规则,而极个别的人群社会行为、习气的变化就会被认为是“变异”。当然,在这种背景下,如果那些极少数的人群或企业的收益比不变异的人群或企业高时,那么这些变异分子会生存得更好!反之,则被淘汰掉。
可惜的是,许多博弈没有进化稳定策略。于是,研究人员探讨各种比进化稳定性稍弱一些的形式,以及集值形式的进化稳定性概念等。此外,ESS概念不能推广到n人对策的情况上。在本质上,ESS要求强的纳什均衡来实施,也就是每一个策略对于策略组而言应是唯一的最佳反应。
(二)复制动力学。复制动力学是选择过程的显性模型,它说明种群是如何分配博弈中有联系的不同纯策略随时间而演化的。复制动力学的数学公式是由Taylor和Jonker于1978年在“进化稳定策略和对策动力学”一文中提出的。他们认为由随机配对的个体所构成的一个大种群执行有限对策的两人博弈,犹如进化稳定性的设置一样。然而,此处的个体仅仅采用纯策略。种群状态是指在纯策略上的一个分布x。这种状态在数学上与博弈中的混合策略是等价的。
如果博弈中的收益表示成生物学上的适合性,也就是后代的数目,同时每一个后代继续其父母的策略,因此,采用纯策略i的个体数目(在大的种群中)将以某一比率指数增长,而此等于对纯策略i的预期收益u(ei,x),当执行着表示种群中当前策略分布的混合策略x时,采用任何纯策略i的种群分布的增长率等于此策略的收益与种群中平均收益的差。后者,等同于混合策略x当与其自身博弈时的预期收益u(x,x)。这是一个单种群的对称两人博弈的复制动力学。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,对当前种群状态x的最佳反应具有最高的增长率。第二最佳反应具有第二高的增长率,如此等等。然而,虽然更成功的纯策略比欠成功的纯策略增长得快,但是种群中的平均收益不必随时间而增长。产生这一原因的可能性是,如果一个个体由采用最佳策略的个体所代替,那么遇见这个新个体的成员会得到比较低的收益。例如,这正是囚徒困境博弈的情况。如果最初几乎所有个体采用“合作”,那么个体中将逐渐地转向“抵赖”,从而平均收益将下降。然而,如果博弈在两个人总是获得相等的收益意义上是一个双对称的,那么自然选择的基本规律将成立:种群中收益随时间而增长,即使没有必要成为全局最大的。例如,这就是合作博弈的情况,其中所有个体逐渐地转向到执行同一个纯策略上。复制动力学能够推广到n人博弈的情况上,这可以看成是来自于n种群、中的个体随机地以n类型配对,其中每一个参与者的地位状况正如纳什所给出的群体行为解释的那样。目前,存在两种形式的n种群复制动力学,其中一个是由Taylor在1979年提出的,另一个是由MaynardSmith在1982年给出的。
(三)学习模型与选择动力学
人们把学习模型分成三种类型,即基于信念的学习、强化学习以及模仿学习。最近的一些研究表明,复制动力学是由后面两类的某种模型所促成的。
1.强化学习模型
心理学上的有关个体学习文献的中心模型是所谓的强化模型,这是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“导致过去好的选择在将来最有可能重复”。当然,人们注意到这里的选择隐含地作为概率上的一种说法。
Bush和Mosteller的强化学习模型及其他的推广形式,已经在一系列的人类主观执行博弈中得到运用。可惜,这些模型的通常数学性质,人们还知道得很少。然而,Borgers和Sarin在1997年发表的“通过强化和复制动力学的学习”文章把Cross的Bush—Mosteller学习模型的形式与Taylor的两种群复制动力学进行了理论上的对比研究。虽然这种学习过程在离散时间背景中是随机的、演化的,而复制动力学在连续时间背景中是确定的、演化的。他们证明,在适当地构造连续时间的界限下,他们的学习过程在有限时间区间内可通过复制动力学来*近。
更确切地讲,他们研究在多次博弈回合中(n=l,2,…),在一个固定的两人参与者采用混合策略对中有限两人博弈的情况。每一个参与者凭借由其所运用的纯策略来记录概率如下。如果参与者1(同样的考察参与者2)在博弈的n次回合中运用纯策略k,并且获得一个正的收益Vk(n),这里Vk(n)作为随机变量,它依赖于参与者2所做出的随机选择,那么参与者1对于运用这个策略的未来概率将越增加,其收益也就越高。参与者2以同样的方法记录其选择概率向量Y。所有收益均假设处于单位开区间上,不过,这里的收益不能解释成N—M(冯·诺依曼和摩根斯藤)效用。因此,一旦所用策略的概率是递增的,那么所有选择均是强化的。
从任何一个初始概率向量X(0)=x0和Y(0)=Y0开始,方程(3)定义出博弈的混合策略空间中的一个马尔可夫链{X(n),Y(n)}∞n=1。其中参数δ>0表示博弈的两次回合之间的时间:t=nδ是n次博弈回合中的“真实”时间。Borgers和Sarin得到这一过程的连续时间界限,通过设n∞和δ0以便有δn=t,在任何有限的“真实”时间上来估计价值。因此,博弈在越来越短的时间区间上执行,同时概率以相称的较小数值得以适应。他们证明,在这个界限内,此过程以状态(x(t),y(t))的形式出现在单位区间概率上,其中如果复制动力学的初始状态在时间0处以(x0,y0)开始,那么复制动力学会在时间t达到。在这个意义上,复制动力学在有限时间区间上近似于强化动力学(3)。
然而,这两类模型的渐进性质却十分不同。例如,为了在直观上理解这点,假设参与者1的收益既是恒定独立于他的策略选择又独立于参与者2的策略选择。设参与者1在强化动力学中的初始状态指派概率等于参与者1的所有可获得纯策略的概率。同样的,设复制动力学的初始状态指派种群的各部分采用策略的概率等于所有可获得纯策略的概率。显然,复制动力学的解是一个常量:所有种群的各部分分得的收益永远相等。然而,强化动力学的实现会容易随时间而收敛到参与者1可获得的任何一个纯策略上。由于在博弈的第一个回合中选用策略的概率将高于在下一次博弈回合中所选用的策略概率,所以强化动力学的性质更有可能把参与者1“锁定”到他的任何一个纯策略上。Borgers和Sarin证明,任何有限两人博弈的强化动力学以概率1收敛到一个纯策略组合上,而不像复制动力学那样。
2.模仿学习模型
博弈论学者Gale,Binmore和Samuelon在1995年提出一个所有个体参与者都采用纯策略的大群体,但是有限博弈的社会学习的简单模型。每一个参与者在博弈中都赢得一个渴望水平的收益。在离散时间0,δ,2δ,…上,任意从群体中抽取个体δ部分,把其当前收益与他们的渴望水平收益相比较,其中δ>0是很小的数。如果个体实现的收益低于其生存水平收益,那么该个体就会随机地模仿已抽取的个体,在相同的参与者群体中,所有其他个体都具有相同的概率被抽取。由此可见,如果渴望水平收益具有均匀分布(某一个区间上包含所有可能的收益值),那么模仿的概率对于个体的当前策略而言,在预期收益上是线性递减的。对于很小的δ,他们证明这个过程可以由有限时间区间上的复制动力学来*近。
人们把个体策略的适应过程作为连续时间中的一个随机过程。假设在有限群体中每一个个体时常得到一个冲动,使其改变纯策略。如果这些冲动是依照i.i.d.的Poisson分布,那么同时发生的概率是零,而且总的过程也是一个Poisson过程。此外,总过程的密度刚好是各个过程密度的和。如果群体是很大的,那么人们利用预期值给出的确定流来近似这个总过程。
Bjornestedt和Weibull在1996年研究了一系列这种模型,其中改变的个体在其博弈的群体中模仿其他的个体,并证明许多正收益的选择动力学可以被人们推导出来,包括复制动力学的三种形式。特别,如果个体改变比率对其策略而言预期收益是线性递减的,那么每一个纯策略Poisson过程的密度是与其个体总数大小成比例,同时比例因素将是其预期收益递减的。如果每一个改变的个体选择其未来的策略是通过在其博弈中随机地模仿抽取的个体,那么其作为结果的流*近也是一个复制动力学。
Schlag在1997年分析当个体经常以参与者的同样地位去模仿其他参与者个体时,个体应该选择什么样的模仿规则的问题,然而参与者的同样地位却受制于信息和记忆的约束。他发现,如果个体想要学习规则是在所有平稳环境中收益递增,那么此个体应该满足:(1)当改变策略时,总是通过模仿来进行;(2)永远不向收益实现比其所拥有收益低的那些个体模仿;(3)向收益实现比其拥有收益高的那些个体模仿。
这种模型被各种各样不同的环境所发展。在有限两人博弈中,Schlag假设在随机地来自于两个相等大小的有限群体的个体之间两两配对,每一个有其自己的地位。个体总是执行纯策略。在每一个收益实现之后,每一个个体都要随机地与其他个体所处的群体进行抽样调查,并且比较两种收益的实现。行为规则是一种函数关系,即把收益实现和所用策略对应到博弈中个体地位上可获得的纯策略集合上的分布,为的是采用新的策略。换句话说,允许使用个体的唯一资料是这种收益实现和纯策略对。特别,从较早的博弈回合中实现收益被忽略。此外,假设个体在所有博弈中运用相同的行为规则,具有相同数目的纯策略可选择;也就是,个体不需要知晓他们执行什么样的博弈,他们知道所使用的纯策略数目就足够了。
在任何这样的博弈中,导致预期收益弱递增的以及在对手种群中对于任何固定策略分布的行为规则,称为改进。本文中的重要结果是对于所有这样规则的刻画。改进规则的一个特征是他们是模仿的:个体坚持其初始的策略或者采用抽样的个体策略;但是不会转向第三个的策略。
行为规则称为是占优的改进规则,如果在某一个博弈中不存在改进规则产生比较高的预期收益改进比例,而且在对手种群中的某一个策略分布上。Schlag证明,某一个行为规则为占优的改进规则,其具有上面给出的性质(1)(2)(3)。这个比例模仿规则是其自己的一个改进规则,而且可以证明它确有一些其他吸引人的性质。Schlag证明,Taylor两种群复制动力学的离散时间形式可以*近在任何给定有限时间范围内导出的一个随机过程,只要种群充分的大就行。
(四)进化对策论中的一些结论
本文集中探讨关于有限n人博弈的显性动力学种群模型方向的介绍,其中个体执行纯策略。首先探讨确定性选择动力学,然后介绍随机进化模型,其中把随机变异过程与确定性选择过程或者随机选择过程结合起来。
研究确定性动力学项目性质的一种直接方法是选取一个初始的种群状态,并且稍后可以计算。然后,人们应该记住让初始的所有纯策略在种群中出现,由于初始的已亡策略将在选择过程中仍保持已亡的状态。这种解的轨迹称为内部的。解的轨迹随时间流逝而安定下来,就称为收敛的。反之,则称为发散的。
如果种群状态是收敛的,那么什么是长时期限制状态的本质呢?可以证明,在任何一种弱的正收益选择动力学中,沿着任何收敛的内部轨迹,限制状态必将构建纳什均衡,研究人员发现,种群执行某种纳什均衡或者在渐进意义上的纳什均衡。Nachbar在1990年第一个证明出单种群复制动力学的这个结果。事实上,如果选择过程遇见弱的正收益的相对温和的条件,且如果汇总的行为随时间而安定下来,那么在长时期种群状态中的个体就好像他们预期一个特殊的纳什均衡对此执行着一个最佳反应,这点颇像是纳什所声称的“群体解释”。
如果对于弱的正收益选择动力学的内部解随时间而收敛,那么我们看到幸存下来的策略在作为结果的混合策略组合的最佳反应的意义上是理性的。此处的问题是,如果解的轨迹不收敛,那么会发生什么情况吗?当长时期中没有均衡达成时,我们产生的问题是,执行是否为理性的。
非合作博弈论中基本的理性假设是参与者不采用作为严格的劣(strictlydominated)纯策略。这个假设要求不知道其他参与者的偏好或者行为。一个更严格的理性一--附有知识的---假设是参与者不采用作为迭代的严格的劣策略。除了回避严格的劣的策略之外,这个假定要求所有参与者相互知道彼此的收益,而这些就是他们知道等等,一直到共同知识的某一个有限水平上使得迭代剔除严格劣的纯策略的过程停止。
因此,进化对策论中的基本问题是进化选择过程是否剔除掉所有的严格劣策略或者所有的迭代的严格劣纯策略。如果所有迭代的严格劣策略消失,那么这提供了在策略上相互作用的参与者行为假设的一种进化证明,就好像此假设是参与者他们作为理性人的共同知识。
Akin在1980年证明,在任何有限对称两人博弈中所有严格劣的纯策略沿着关于单种群复制动力学的任何一个内部解的轨迹都能消失。Samuelson和Zhang在1992年把这一结论推广到某一个两种群选择动力学的正收益子集合中的迭代的严格劣纯策略上。他们将这种情况称为聚集单调的(aggregatemonotonic)。
对长时期进化状态分析的辅助方法是研究种群状态的稳定性,也就是考察种群对于很小的扰动是如何反应的。Bomze教授在1986年曾证明,如果种群状态在单种群复制动力学中是弱的动态稳定的,那么此状态就是对自己的最佳反应,这里的状态被认为是采用混合策略的。经常运用的稳定性准则是李雅普诺夫稳定性,即状态x是李雅普诺夫稳定的,如果x的邻域B包含x的邻域A,使得在A中开始的解将永远保留在B中。不是李雅普诺夫稳定的状态称为不稳定的。因此,不仅进化稳定性的静态稳定性准则,而且复制动力学中的动态稳定性都蕴涵着纳什均衡的实施。这个结果能够推广到任何有限n人博弈中的任何弱的正收益选择动力学上。总之,对进化压力而言,以各种不同方式系统阐述的稳定性都需要纳什均衡来实施。然而,不是所有的纳什均衡在这个方面都是稳定的,因此,这些进化稳定性准则是纳什均衡概念的精炼。
另外,研究者在考察动力学进化稳定性时,把随机因素并入到进化过程的建模当中。特别,变异过程被认为是内在随机的一种情况。随机振动可以凭借稳定性分析方法来解释确定性选择动力学;一个稳定的种群状态对于种群的孤立的很小扰动而言是稳健的。然而,这种稳定分析几乎说不出一系列的小振动或者同时发生的小振动累计之后促成的大振动的稳健性。这样的一系列或者同时发生的连续不断的振动会使种群状态离开选择过程的吸引域。虽然这种大量涌现的小振动不可能是统计意义上的独立而稀少变异的事件,但这一可能性在基本方法上却改变了动力学进化过程的性质。代替历史依赖性(依赖于初始种群状态),此过程会成为遍历的(ergodic),也就是具有一种渐进分布,其中渐进分布是历史独立的(对于所有的初始种群状态都是相同的)。从而,导致人们现今研究的一个专题——随机动力学稳定性。这种研究路线的先驱者是Foster和Young(1990),随后是Fudenberg和Harris(1992),Young(1993)等等。注意到,进化稳定性准则没有解释种群是如何达到这种策略的。然而,一旦达到这种策略,则这样的策略对进化压力来说是稳健的。同时,人们发现,进化稳定性没有处理种群中具有两个或更多“变异”同时出现的情况。因而,它隐含地把变异当成稀少事件,以致于种群有时间在另一个变异出现之前响应这种状况。
虽然,进化稳定性准则是一个生物学上的概念,但是它为各种各样的人类行为提供一种有关的稳健性准则。这样,进化稳定性要求人类群体中企图采用可选择的策略的任何一个小团体不比已经采用“固有”策略的那些个体所构成的团体收益好。相反,采用固有策略的那些个体所构成的团体缺乏激励来改变他们的策略。但是,那些采用可选策略的小团体却受激励而具有转变固有策略的行为。在这种社会背景下,进化稳定策略被人们看成是传统习惯或者已经确立起来的行为规则。比如,社会风气、企业管理模式等都可以看为是某种人类群体的规则,而极个别的人群社会行为、习气的变化就会被认为是“变异”。当然,在这种背景下,如果那些极少数的人群或企业的收益比不变异的人群或企业高时,那么这些变异分子会生存得更好!反之,则被淘汰掉。
可惜的是,许多博弈没有进化稳定策略。于是,研究人员探讨各种比进化稳定性稍弱一些的形式,以及集值形式的进化稳定性概念等。此外,ESS概念不能推广到n人对策的情况上。在本质上,ESS要求强的纳什均衡来实施,也就是每一个策略对于策略组而言应是唯一的最佳反应。
(二)复制动力学。复制动力学是选择过程的显性模型,它说明种群是如何分配博弈中有联系的不同纯策略随时间而演化的。复制动力学的数学公式是由Taylor和Jonker于1978年在“进化稳定策略和对策动力学”一文中提出的。他们认为由随机配对的个体所构成的一个大种群执行有限对策的两人博弈,犹如进化稳定性的设置一样。然而,此处的个体仅仅采用纯策略。种群状态是指在纯策略上的一个分布x。这种状态在数学上与博弈中的混合策略是等价的。
如果博弈中的收益表示成生物学上的适合性,也就是后代的数目,同时每一个后代继续其父母的策略,因此,采用纯策略i的个体数目(在大的种群中)将以某一比率指数增长,而此等于对纯策略i的预期收益u(ei,x),当执行着表示种群中当前策略分布的混合策略x时,采用任何纯策略i的种群分布的增长率等于此策略的收益与种群中平均收益的差。后者,等同于混合策略x当与其自身博弈时的预期收益u(x,x)。这是一个单种群的对称两人博弈的复制动力学。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,对当前种群状态x的最佳反应具有最高的增长率。第二最佳反应具有第二高的增长率,如此等等。然而,虽然更成功的纯策略比欠成功的纯策略增长得快,但是种群中的平均收益不必随时间而增长。产生这一原因的可能性是,如果一个个体由采用最佳策略的个体所代替,那么遇见这个新个体的成员会得到比较低的收益。例如,这正是囚徒困境博弈的情况。如果最初几乎所有个体采用“合作”,那么个体中将逐渐地转向“抵赖”,从而平均收益将下降。然而,如果博弈在两个人总是获得相等的收益意义上是一个双对称的,那么自然选择的基本规律将成立:种群中收益随时间而增长,即使没有必要成为全局最大的。例如,这就是合作博弈的情况,其中所有个体逐渐地转向到执行同一个纯策略上。复制动力学能够推广到n人博弈的情况上,这可以看成是来自于n种群、中的个体随机地以n类型配对,其中每一个参与者的地位状况正如纳什所给出的群体行为解释的那样。目前,存在两种形式的n种群复制动力学,其中一个是由Taylor在1979年提出的,另一个是由MaynardSmith在1982年给出的。
(三)学习模型与选择动力学
人们把学习模型分成三种类型,即基于信念的学习、强化学习以及模仿学习。最近的一些研究表明,复制动力学是由后面两类的某种模型所促成的。
1.强化学习模型
心理学上的有关个体学习文献的中心模型是所谓的强化模型,这是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“导致过去好的选择在将来最有可能重复”。当然,人们注意到这里的选择隐含地作为概率上的一种说法。
Bush和Mosteller的强化学习模型及其他的推广形式,已经在一系列的人类主观执行博弈中得到运用。可惜,这些模型的通常数学性质,人们还知道得很少。然而,Borgers和Sarin在1997年发表的“通过强化和复制动力学的学习”文章把Cross的Bush—Mosteller学习模型的形式与Taylor的两种群复制动力学进行了理论上的对比研究。虽然这种学习过程在离散时间背景中是随机的、演化的,而复制动力学在连续时间背景中是确定的、演化的。他们证明,在适当地构造连续时间的界限下,他们的学习过程在有限时间区间内可通过复制动力学来*近。
更确切地讲,他们研究在多次博弈回合中(n=l,2,…),在一个固定的两人参与者采用混合策略对中有限两人博弈的情况。每一个参与者凭借由其所运用的纯策略来记录概率如下。如果参与者1(同样的考察参与者2)在博弈的n次回合中运用纯策略k,并且获得一个正的收益Vk(n),这里Vk(n)作为随机变量,它依赖于参与者2所做出的随机选择,那么参与者1对于运用这个策略的未来概率将越增加,其收益也就越高。参与者2以同样的方法记录其选择概率向量Y。所有收益均假设处于单位开区间上,不过,这里的收益不能解释成N—M(冯·诺依曼和摩根斯藤)效用。因此,一旦所用策略的概率是递增的,那么所有选择均是强化的。
从任何一个初始概率向量X(0)=x0和Y(0)=Y0开始,方程(3)定义出博弈的混合策略空间中的一个马尔可夫链{X(n),Y(n)}∞n=1。其中参数δ>0表示博弈的两次回合之间的时间:t=nδ是n次博弈回合中的“真实”时间。Borgers和Sarin得到这一过程的连续时间界限,通过设n∞和δ0以便有δn=t,在任何有限的“真实”时间上来估计价值。因此,博弈在越来越短的时间区间上执行,同时概率以相称的较小数值得以适应。他们证明,在这个界限内,此过程以状态(x(t),y(t))的形式出现在单位区间概率上,其中如果复制动力学的初始状态在时间0处以(x0,y0)开始,那么复制动力学会在时间t达到。在这个意义上,复制动力学在有限时间区间上近似于强化动力学(3)。
然而,这两类模型的渐进性质却十分不同。例如,为了在直观上理解这点,假设参与者1的收益既是恒定独立于他的策略选择又独立于参与者2的策略选择。设参与者1在强化动力学中的初始状态指派概率等于参与者1的所有可获得纯策略的概率。同样的,设复制动力学的初始状态指派种群的各部分采用策略的概率等于所有可获得纯策略的概率。显然,复制动力学的解是一个常量:所有种群的各部分分得的收益永远相等。然而,强化动力学的实现会容易随时间而收敛到参与者1可获得的任何一个纯策略上。由于在博弈的第一个回合中选用策略的概率将高于在下一次博弈回合中所选用的策略概率,所以强化动力学的性质更有可能把参与者1“锁定”到他的任何一个纯策略上。Borgers和Sarin证明,任何有限两人博弈的强化动力学以概率1收敛到一个纯策略组合上,而不像复制动力学那样。
2.模仿学习模型
博弈论学者Gale,Binmore和Samuelon在1995年提出一个所有个体参与者都采用纯策略的大群体,但是有限博弈的社会学习的简单模型。每一个参与者在博弈中都赢得一个渴望水平的收益。在离散时间0,δ,2δ,…上,任意从群体中抽取个体δ部分,把其当前收益与他们的渴望水平收益相比较,其中δ>0是很小的数。如果个体实现的收益低于其生存水平收益,那么该个体就会随机地模仿已抽取的个体,在相同的参与者群体中,所有其他个体都具有相同的概率被抽取。由此可见,如果渴望水平收益具有均匀分布(某一个区间上包含所有可能的收益值),那么模仿的概率对于个体的当前策略而言,在预期收益上是线性递减的。对于很小的δ,他们证明这个过程可以由有限时间区间上的复制动力学来*近。
人们把个体策略的适应过程作为连续时间中的一个随机过程。假设在有限群体中每一个个体时常得到一个冲动,使其改变纯策略。如果这些冲动是依照i.i.d.的Poisson分布,那么同时发生的概率是零,而且总的过程也是一个Poisson过程。此外,总过程的密度刚好是各个过程密度的和。如果群体是很大的,那么人们利用预期值给出的确定流来近似这个总过程。
Bjornestedt和Weibull在1996年研究了一系列这种模型,其中改变的个体在其博弈的群体中模仿其他的个体,并证明许多正收益的选择动力学可以被人们推导出来,包括复制动力学的三种形式。特别,如果个体改变比率对其策略而言预期收益是线性递减的,那么每一个纯策略Poisson过程的密度是与其个体总数大小成比例,同时比例因素将是其预期收益递减的。如果每一个改变的个体选择其未来的策略是通过在其博弈中随机地模仿抽取的个体,那么其作为结果的流*近也是一个复制动力学。
Schlag在1997年分析当个体经常以参与者的同样地位去模仿其他参与者个体时,个体应该选择什么样的模仿规则的问题,然而参与者的同样地位却受制于信息和记忆的约束。他发现,如果个体想要学习规则是在所有平稳环境中收益递增,那么此个体应该满足:(1)当改变策略时,总是通过模仿来进行;(2)永远不向收益实现比其所拥有收益低的那些个体模仿;(3)向收益实现比其拥有收益高的那些个体模仿。
这种模型被各种各样不同的环境所发展。在有限两人博弈中,Schlag假设在随机地来自于两个相等大小的有限群体的个体之间两两配对,每一个有其自己的地位。个体总是执行纯策略。在每一个收益实现之后,每一个个体都要随机地与其他个体所处的群体进行抽样调查,并且比较两种收益的实现。行为规则是一种函数关系,即把收益实现和所用策略对应到博弈中个体地位上可获得的纯策略集合上的分布,为的是采用新的策略。换句话说,允许使用个体的唯一资料是这种收益实现和纯策略对。特别,从较早的博弈回合中实现收益被忽略。此外,假设个体在所有博弈中运用相同的行为规则,具有相同数目的纯策略可选择;也就是,个体不需要知晓他们执行什么样的博弈,他们知道所使用的纯策略数目就足够了。
在任何这样的博弈中,导致预期收益弱递增的以及在对手种群中对于任何固定策略分布的行为规则,称为改进。本文中的重要结果是对于所有这样规则的刻画。改进规则的一个特征是他们是模仿的:个体坚持其初始的策略或者采用抽样的个体策略;但是不会转向第三个的策略。
行为规则称为是占优的改进规则,如果在某一个博弈中不存在改进规则产生比较高的预期收益改进比例,而且在对手种群中的某一个策略分布上。Schlag证明,某一个行为规则为占优的改进规则,其具有上面给出的性质(1)(2)(3)。这个比例模仿规则是其自己的一个改进规则,而且可以证明它确有一些其他吸引人的性质。Schlag证明,Taylor两种群复制动力学的离散时间形式可以*近在任何给定有限时间范围内导出的一个随机过程,只要种群充分的大就行。
(四)进化对策论中的一些结论
本文集中探讨关于有限n人博弈的显性动力学种群模型方向的介绍,其中个体执行纯策略。首先探讨确定性选择动力学,然后介绍随机进化模型,其中把随机变异过程与确定性选择过程或者随机选择过程结合起来。
研究确定性动力学项目性质的一种直接方法是选取一个初始的种群状态,并且稍后可以计算。然后,人们应该记住让初始的所有纯策略在种群中出现,由于初始的已亡策略将在选择过程中仍保持已亡的状态。这种解的轨迹称为内部的。解的轨迹随时间流逝而安定下来,就称为收敛的。反之,则称为发散的。
如果种群状态是收敛的,那么什么是长时期限制状态的本质呢?可以证明,在任何一种弱的正收益选择动力学中,沿着任何收敛的内部轨迹,限制状态必将构建纳什均衡,研究人员发现,种群执行某种纳什均衡或者在渐进意义上的纳什均衡。Nachbar在1990年第一个证明出单种群复制动力学的这个结果。事实上,如果选择过程遇见弱的正收益的相对温和的条件,且如果汇总的行为随时间而安定下来,那么在长时期种群状态中的个体就好像他们预期一个特殊的纳什均衡对此执行着一个最佳反应,这点颇像是纳什所声称的“群体解释”。
如果对于弱的正收益选择动力学的内部解随时间而收敛,那么我们看到幸存下来的策略在作为结果的混合策略组合的最佳反应的意义上是理性的。此处的问题是,如果解的轨迹不收敛,那么会发生什么情况吗?当长时期中没有均衡达成时,我们产生的问题是,执行是否为理性的。
非合作博弈论中基本的理性假设是参与者不采用作为严格的劣(strictlydominated)纯策略。这个假设要求不知道其他参与者的偏好或者行为。一个更严格的理性一--附有知识的---假设是参与者不采用作为迭代的严格的劣策略。除了回避严格的劣的策略之外,这个假定要求所有参与者相互知道彼此的收益,而这些就是他们知道等等,一直到共同知识的某一个有限水平上使得迭代剔除严格劣的纯策略的过程停止。
因此,进化对策论中的基本问题是进化选择过程是否剔除掉所有的严格劣策略或者所有的迭代的严格劣纯策略。如果所有迭代的严格劣策略消失,那么这提供了在策略上相互作用的参与者行为假设的一种进化证明,就好像此假设是参与者他们作为理性人的共同知识。
Akin在1980年证明,在任何有限对称两人博弈中所有严格劣的纯策略沿着关于单种群复制动力学的任何一个内部解的轨迹都能消失。Samuelson和Zhang在1992年把这一结论推广到某一个两种群选择动力学的正收益子集合中的迭代的严格劣纯策略上。他们将这种情况称为聚集单调的(aggregatemonotonic)。
对长时期进化状态分析的辅助方法是研究种群状态的稳定性,也就是考察种群对于很小的扰动是如何反应的。Bomze教授在1986年曾证明,如果种群状态在单种群复制动力学中是弱的动态稳定的,那么此状态就是对自己的最佳反应,这里的状态被认为是采用混合策略的。经常运用的稳定性准则是李雅普诺夫稳定性,即状态x是李雅普诺夫稳定的,如果x的邻域B包含x的邻域A,使得在A中开始的解将永远保留在B中。不是李雅普诺夫稳定的状态称为不稳定的。因此,不仅进化稳定性的静态稳定性准则,而且复制动力学中的动态稳定性都蕴涵着纳什均衡的实施。这个结果能够推广到任何有限n人博弈中的任何弱的正收益选择动力学上。总之,对进化压力而言,以各种不同方式系统阐述的稳定性都需要纳什均衡来实施。然而,不是所有的纳什均衡在这个方面都是稳定的,因此,这些进化稳定性准则是纳什均衡概念的精炼。
另外,研究者在考察动力学进化稳定性时,把随机因素并入到进化过程的建模当中。特别,变异过程被认为是内在随机的一种情况。随机振动可以凭借稳定性分析方法来解释确定性选择动力学;一个稳定的种群状态对于种群的孤立的很小扰动而言是稳健的。然而,这种稳定分析几乎说不出一系列的小振动或者同时发生的小振动累计之后促成的大振动的稳健性。这样的一系列或者同时发生的连续不断的振动会使种群状态离开选择过程的吸引域。虽然这种大量涌现的小振动不可能是统计意义上的独立而稀少变异的事件,但这一可能性在基本方法上却改变了动力学进化过程的性质。代替历史依赖性(依赖于初始种群状态),此过程会成为遍历的(ergodic),也就是具有一种渐进分布,其中渐进分布是历史独立的(对于所有的初始种群状态都是相同的)。从而,导致人们现今研究的一个专题——随机动力学稳定性。这种研究路线的先驱者是Foster和Young(1990),随后是Fudenberg和Harris(1992),Young(1993)等等。四、进化对策论在经济学中的应用
进化对策论的产生、发展在本质上就是起因于对策论中关于理人的假设与经济应用中行为人“试验——失误”(即试错法)学习过程相偏离的事实而引发的。从上述的阐述中,我们可以看到,进化对策论在经济学里的应用前景是十分广阔的和吸引人的。
最近,Routledge探讨了金融市场上个体行为人是如何通过适应性或者进化学习来发现内生变化并运用这种内生关系的一种学习模型。他通过对来自于模仿过程和经验过程来对个体的投资行为建模,而不是运用传统上的显性最优化方法放松关于知识和理性的假设。Routledge运用Grossman和Stiglitz的1980年发表的经济模型的形式。Grossman和Stiglitz(GS)模型提供了考察适应学习过程的一种良好的框架,因为它是获得内生信息的标准模型,这点已经被后来的其他许多关于学习方面的模型都是基于GS而提出的事实所证明。
如果假设交易者能够观察到他们自己的适应度和其他行为人的行为,那么模仿是如何发生的许多特殊细节就显得不重要了。Routledge的研究结果表明:首先,作为单调选择动力学的适应学习会促成GS均衡;其次,由单凋适应学习驱使的模仿的稳健性可从随机实验中来获得噪声(noise)来研究。他发现,适应学习是缺少稳健性的。特别,他运用Binmore和Samuelson(1999)的技术来对模仿和经验建模。为了使带有漂移(drift)的适应学习产生GS理性预期均衡,必要的条件是在风险资产供给中的噪声与学习过程中的经验水平有很大的关系。
五、问题与前景
我们注意到,进化过程并不总是导致最优性、均衡或者社会有效性。通过目前已取得的一些成果,我们认为下面的一些方向或许是值得学者进一步探讨与研究的:
(1)引进机构,分析市场选择机制。
(2)探讨博弈中学习规则的进化稳定性。结果,这就会导致拥有适度认知能力的个体的模型。
(3)进一步探讨扩展形式博弈中的进化过程。
(4)对*近理论方面的进一步探讨。我们需要更多地了解确定性模型和随机性模型之间的联系与关系。
(5)探索、研究结构化的稳健预测。显然,某种博弈的子结构,诸如在最佳反应和弱最佳反应的条件下所促成的纯策略集合,是进化过程的稳健吸引子(robustattractor)等。
本文概括地阐述了进化对策论中的理论内容和一些模型,特别是博弈中有关学习模型的新近发展。通过上面的分析,我们发现,进化对策论的发展动力来自于与其他社会学科的交叉融合,吸收其他社会科学中的有益知识。为了把有关的选择过程、学习过程以及变异过程的类别变窄,我们需要更多地知晓个体、团体、组织、厂商以及整个社会是如何随时间而适应和学习的。这里的部分内容正是实验对策论中所要探讨的,同时这也是我们应向其他社会科学学习的领域。
参考文献:
1.王忠玉:《1994年度诺贝尔经济学奖与对策论》,载《科学(ScientificAmerican中文版)》,1996(7),3—5页。
2.王忠玉:《金融市场从众行为的数理模型》,载《中国管理科学》,2000(2),50~55页。
3.Binmore,K.,1990.EssaysontheFoundationsofGameTheory,BasilBlackwell.
4.Binmore,K.,Samuelson,L.andVaughan,R.,1995.MusicalChairs:ModellingNoisyEvolution.GameandEconomicBehavior11,1--35.
5.Binmore,K.andSamuelson,L.,1999.EvolutionaryDriftandEquilibriumSelection.ReviewofEconomicStudies,66,363--393.
6.Blume,L.andEasleyD,1992.EvolutionandMarketBehavior.JournalofEconomicTheory58,9-45.
7.BlumeL.andEasley,D.,1990.EvolutionandLearninginCompetitiveMarkets,inKirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).
8.Bomze,1.andPotscher,B.,1989.GameTheoreticalFoundationsofEvolutionaryStability.SpringerVerlag(Berlin).
9.Bomze,I.andWeibull,J.,1996.DoesNeutralStabilityImplyLyapunovStability.9Gameand
EconomicBehavior11,173--192.
10.Bryan,R.Routledge,1999.AdaptiveLearninginFinancialMarkets.TheReviewofFinancial
Studies12,1165--1202.
11.Canning,D.,1990.LearningandSocialEquilibriuminLargePopulations,in
Kirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).
12.Cressman,R.,1992.TheStabilityConceptofEvolutionaryGameTheory,SpringerVerlag(Berlin).
13.VanDammeE.,1987.StabilityandPerfectionofNashEquilibria,SpringerVerlag(Berlin).
14.Dekel,E.andScotchmer,S.,1992.ontheEvolutionofOptimalBehavior.Journalof
EaonomicTheory57,392--406.
15.Fudenberg,D.andLevine,D.,1993.Steady-stateLearningandNashEquilibrium,Econometrica61,523-574.
16.Fudenberg,D.andLevine,D.,1997.TheTheoryofLearninginGames.MITPress.
17.Haesanyi,J.andSelten,R.,1988.AGeneralTheoryofEquilibriumSelectioninGame,MITPress.
18.Kandori,M.,Mailath,G.andRob,R.,1993.Learning,Mutation,andLong-runEquilibriainGame,Econometrica61,29--56.
19.Nelson,R.andWinter,S.1982.AnEvolutionaryTheoryofEconomicChange.HarvardUniversityPress(CambridgeMA).
20.Robson,J.A.2001.TheBiologicalBasisofEconomicBehavior.JournalofEconomicLiterature,Vol.ⅩⅩⅩⅨ(March2001),11--33.
21.Samuelson,L.andZhang,J.,1992.EvolutionaryStabilityinAsymmetricGames.JournalofEconomicTheory,57,363--391.
当前金融创新在中国市场上活跃度高,体现了“多元化”,“个性化”,同时也引发了“羊群效应”。本
>> 基于进化博弈论的金融创新与金融监管动态博弈分析 美国金融监管与金融创新的博弈 金融监管与金融创新的博弈实证 金融创新与金融监管的动态博弈分析 金融监管协调机制的进化博弈研究 基于进化博弈论的我国金融创新和金融监管问题研究 次贷危机―金融监管与金融创新的博弈的必然结果 论金融创新与金融监管 金融创新与金融监管研究 试论金融创新与金融监管 浅析金融创新与金融监管的和谐发展 金融博弈:创新与监管 金融监管的思维变革与制度创新 国际金融危机下的金融创新与金融监管 金融创新与金融监管:互联网金融的发展思辨* 我国互联网金融环境下的金融创新与金融监管 金融创新与金融监管:互联网金融的发展思辨 我国金融监管的博弈分析 互联网金融监管的博弈分析 金融监管覆盖模式与金融创新关系研究 常见问题解答 当前所在位置:l.
[5]参见《中国统计年鉴2012》.
[6]参见《中国经济普查年鉴2011》.
[7]参见刘扬.美国金融监管改革对我国的启示[J].经济纵横,2011(1).
[8]参见楼建波.从CDS看金融衍生品的异化与监管——以瑞银集团诉Paramax案为例.《China Academic Journal Electronic Publishing House 2010》.
[9]包容MBS,ABS,CDO,CDO平方等一系列金融产品.具体参见张明《透视CDO:类型、构造、评级与市场》、《国际金融研究》2008年第6期.
[10]参见何纯.进化博弈:对金融创新与金融监管关系的辩证审视.《理论探讨》总第376期第43页.
[11]参见郭敏.浅议金融创新与金融监管的博弈关系[J].《时代金融》2009(12).
[12]参见现代博弈理论匈牙利大数学家冯·诺依曼和奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济行为》,1994年出版。指参与博弈的双方,在严格竞争下,一方的收益必然意味着另一方的损失,博弈双方的收益和损失相加总和永远为“零”,不存在合作的可能性.
[13]参见《新浪财经》http://.cn/g/20110322/23239575768.shtml.
[14]参见何坚强.论金融创新与金融监管法律理念.法制与社会.2009.1(下)
关键词:矿工违章;安全管理;进化博弈
中图分类号:X92 文献识别码:A 文章编号:1001-828X(2016)033-0000-01
煤矿产业一直是我国现代化建设的主导能源产业,为国内经济建设的前进提供了较高的动力和能源基础。进入21世纪以来,煤矿行业得到全面地发展,大大小小的煤矿企业争先涌出,促使煤矿业出现一片欣荣的发展姿态。但是,这些企业的踊跃出现,也给国家的宏观管理造成了一定的难度,由于它们所处的地域不一,政府无法进行统一的监管,因而很多中小型煤炭企业开始在安全设备上偷工减料,将更多的资金运用在煤矿开采方面,对于煤矿的安全管理问题则不予太大的关注,导致现阶段的煤矿事故层出不穷。在探究这些煤矿事故发生的原因时,不难发现,很多时候并不是由于企业的管理措施和安全设施存在问题,百分之八十的原因是由于人为因素,矿工的警觉性严重降低,进行了违章作业,进而造成了危害和损失。因而,现阶段的煤炭管理企业,规范矿工违章行为已然成为了主要的安全管理主题。以进化博弈论的角度对煤矿安全管理和矿工违章作业进行分析,可以发现两者存在一种动态的博弈关系,并且会相互影响。为此,煤矿企业应当在基于进化博弈论的基础上进行安全管理监督,进而有效地规范矿工作业行为,促使整个企业煤矿开采的安全质量受到切实的保障。
一、进化博弈的概念及其运用到煤矿安全管理中的意义
煤矿企业安全管理与矿工违章行为,本身就是一种博弈的关系。如果煤矿企业的安全管理措施,严重违背了矿工的安全管理认识,矿工会在心理上产生极大的不认同感,很多时候会出现违章行为,形成各种危害。而对于矿工的违章行为管理,也是通过煤矿企业的安全管理措施实现的。煤矿企业的安全管理,需要因时而变,不应该固守在传统的安全管理措施范围内,新时代的煤矿企业也有着全新的发展方向,企业的矿工素质也在不断朝着专业化的方向发展,两者要相互压制和协调,才能较好地促进企业的发展。对于进化博弈的概念认识,大多数学者认为它是以有限理性博弈方作为博弈分析的基础,着重分析了博弈双方的发展趋势、不足之处及稳定性促成。进化稳定策略是进化博弈论的产物,它认为在整个进化博弈的过程中,一旦某些较小的突变群体出现状况,应该有较大的管理群体将之进行消除,进而会使得整个进化博弈处于稳定的进程中,不容易发生改变。将它运用到煤矿安全管理中,很容易看出,较大的管理群体主要是指煤矿企业本身,而较小的突变群体则是指矿工的违章行为,表明这样一种观点:对于员工的违章操作行为,煤矿企I应通过积极地改变安全管理制度和措施,加大管理力度,进而对实现对这些违章行为的有效规范,形成和谐的煤矿安全管理环境。
二、煤矿安全管理与矿工违章行为进化博弈分析
进化博弈论,包括两个方面的内容,第一是进化。对于煤矿安全管理部门和矿工违章行为而言,进化主要是指煤矿安全管理内容紧紧跟随矿工的行为做出同步的发展和完善,由于矿工的违章行为是由人为判定的,因而很多时候,煤矿企业的规章制度会达不到管理矿工的要求,矿工也会因为这部分制度的缺乏,盲目地进行违章作业。第二是博弈。博弈是指两者在进行相互的制约和协调,煤矿企业的安全管理机制会对矿工的行为作业形成规范,但是很多时候也会超过适当的范围,促使矿工产生心理上的不满,进而促发了各种违章行为,而这些违章行为的产生,并不是盲目地进行违章,而是有意识地对企业规章制度进行挑战,以使企业管理部门认识到规章制度的不合理性,进而进行适当的调整。因而大多时候,煤矿安全管理与矿工行为处于一种和谐的状态,双方都不会产生极端的行为。而在这个阶段的煤矿企业安全管理策略,也是十分切实有效的,最为符合矿工的作业行为,矿工群体也会倾向于“遵章”。但是,随着时间的变迁,由于煤矿企业长期未曾进行管理制度的完善,已然与矿工的切实利益相不符,原本遵章的矿工就会出现各种“违章”行为,双方产生一定的冲突和矛盾。如果煤矿企业长期进行严格的管理,不断规范完善安全管理制度和措施,又会给予矿工很大的压力,不知道如何操作较好,进而再次产生“违章”行为。而在矿工违章行为出现以后,企业首先会选择调整自身的安全管理策略,进而符合了矿工的行为操作标准,两者又会进化到最初的和谐状态。如此循环往复,呈现出一个相互博弈并进化的过程。
三、基于进化博弈下的煤矿安全管理发展策略
1.健全矿工考核制度,提高矿工遵章奖励
在煤矿企业的安全管理中,矿工之所以经常会出现各种违章行为,很多时候的主体原因在于福利的不到位,受到的约束力太大,进而失去良好的工作活力。为此,煤矿企业应当正确认识现阶段的安全管理制度,根据矿工违章行为的产生缘由,对矿工考核制度进行实时的健全。同时,煤矿企业还应该适当地增加矿工违章的成本和难度,并对遵章的矿工给予实时的奖励,引导矿工正确认识到遵章的好处,产生积极的工作心态。此外,矿工的很多违章行为,都与工作环境较差有着较强的联系,尤其是井下作业环境,会对矿工的身心造成多重的影响。因而,煤矿企业需要对井下作业环境进行改善,让矿工可以在安全的环境中进行作业,内心的不良情绪也会因此而消减,从根源上降低了矿工违章行为发生的概率。
2.加强对矿工的安全教育,并进行合理的激励管束
在煤矿企业的众多矿工中,大部分都是文化水平较低的农民工,他们对于安全常识的认识十分少,不懂得现代化仪器设备的操作原理,因而很多时候会出现各种违章行为,然而这是他们所不知道的。因此,煤矿企业也应该切实加强对矿工的安全教育,利用一部分时间进行集中化的安全讲座和安全技能培训,全面提高矿工的安全操作意识,进而最为有效地降低安全事故发生的概率。同时,煤矿企业需要对员工进行合理的激励管束,矿工与其他人一样,都渴望得到社会的认可和尊重,煤矿企业要对矿工进行多方面的激励和认可,对他们的某一错误行为进行正确的引导和规范,使他们认识到这种行为的错误,进而在潜意识里形成正确的工作方式,有效地促进煤矿安全管理的进程。
四、结束语
综上所述,煤矿企业安全管理与矿工的违章行为之间,存在着制约和协调的关系,以进化博弈的监督进行分析,可以发现煤矿的安全管理需要做到实时的加强与规范,同时要引导矿工形成严明的安全意识,进而促使整个企业的安全效益得到切实的提高。
参考文献:
[1]陈红涛.违章行为分类和研究[J].价值工程,2011(03).
DOI:10.3963/j.issn.16716477.2014.02.016
在科学技术高速发展的今天,企业科技研发的能力关系到企业的生存与发展[1]。企业研发团队作为企业创新的主要载体,已成为企业不可分割的一部分。但是,随着企业研发团队规模的不断增大,需要团队内成员间共同协调和配合的研发任务越来越多,研发任务也越来越复杂和困难,不可避免的团队内冲突也以各种各样的形式表现了出来,适度的过程冲突对团队的有效性有促进的作用,然而,过多的过程冲突会影响团队的有效性,不利于企业科技研发任务的顺利展开[2]。关于企业研发团队过程冲突问题的研究逐渐引起广大学者的重视[3],国内外学者已经从过程冲突产生的原因和形成、冲突的类型及冲突管理方面进行了一些研究[45]。但是,研究的方法大都是采用实证或者是用传统的博弈理论进行研究的。而采用传统博弈理论,虽然可以针对所有研发团队的情况,但其不足之处在于理论本身的缺陷,该理论在理性基础方面采用的是一种完全理性的假设,该假设不仅要求行为个体始终以自身最大利益为目标,还要求他们在存在交互作用的博弈环境中具有完美的判断和预测能力,这种完全理性假设的现实性明显是有问题的,因为它不仅意味着博弈方绝对不会犯错误,决不会冲动和不理智,即使在复杂的多层次交互推理中也不会糊涂,它对行为主体能力的要求过高,在现实中不可能存在这样的理性个人或群体。因此,本文决定以进化博弈理论为基础,建立非对称企业研发团队成员的进化博弈模型,该模型不但考虑了传统企业团队成员工作中的利益得失,还注重了研发团队成员工作的特殊性和收益的不同,引入了超额收益的概念,使模型更合理。而且该理论的理性基础是有限理性,其允许博弈成员犯错和有非理性的行为,更符合我们的实际情况。综上可以看出,本文所采用的方法更适合对团队冲突的问题进行研究,得到的结果也会更准确。
一、文献综述
在企业研发团队中,注重企业研发团队的过程管理,对于确保团队工作的平稳运行具有重要意义。正如谢舜龙等[6]指出的,从企业长远发展的角度看,建立一个规范的研发过程管理体系,其重要意义远远大于某一两个研发成果。在研发过程受控的条件下,企业可以使资源通过过程方法得到最大限度的增值,并有效地实现研发成果[7]。团队过程冲突是团队成员互动的负效应,也是团队成员异质性的必然结果[3],只有合理地控制和利用它,而不是彻底消除它。研发团队过程冲突是企业研发团队成员在共同完成研发目标的过程中,由于彼此间的差异、观点的不同,利益和资源安排的分歧,而产生的各种情绪。团队成员相互作用的结果有讨论、争论、冲突等行为。
关于团队过程冲突的研究,国内外已经取得了一些研究成果,Jehn[8]通过再次观察和访谈工作团队后,发现团队中除了任务冲突和关系冲突外,还存在第三种冲突:过程冲突。在此之后,过程冲突才逐渐进入了学者的研究视线,并展开了一些论述和研究。Dreu[9]认为,不适当的冲突对组织来说会影响到工作的满意度及组织的绩效,在高水平的冲突条件下,组织之间秩序混乱绩效不佳,成员间处在高压环境状态下,工作满意度将下滑,而组织目标将无法达成;在低水平的冲突水平下,绩效及工作满意度更不会良好,故只有在适当的冲突水平下,即冲突达到最佳状态时,绩效以及工作的满意度会到达最佳状态,见图1。
要有效地管理冲突,首先要把建设性冲突和破坏性冲突区分开来。一方面要设法消除和避免阻碍团队目标实现与功能失调的破坏性冲突(如关系冲突);另一方面又要使团队营造一种批评与自我批评、不断创新进取的氛围,维持和保护有益的建设性冲突(如任务冲突和过程冲突),激发员工的创造性,即冲突具有二重性,其效果也有利有弊,应区别对待[10]。Thatcher等[11]指出,过多的过程冲突会造成成员责任的不确定以及对于工作能力的相互怀疑,特别是利益分配的不协调将导致团队的分化,导致团队过程冲突的加剧,从而对团队绩效产生消极的影响。张兰霞等[12]认为,适度的过程冲突能促进团队的发展,但是,随着过程冲突程度的日益增加,团队成员的行动、思想都会受到妨碍,从而危害团队成员的创造力。
综上所述,我们可以得出如下结论:其一,在企业研发团队中,保持适度的过程冲突有利于团队的发展,可以提高团队的有效性,过多的过程冲突不利于企业研发任务的顺利进行,会严重影响研发团队的绩效,因此,要对过程冲突进行控制,使其维持在适度的水平。其二,学者对团队过程冲突的研究大多数是研究冲突的影响或是提出冲突的解决策略(既消除冲突),而对于过程冲突进行有效地控制和管理,使其保持适度的水平,从而合理利用冲突的研究却并不多见。因此,本文分析与研究的主题是运用进化博弈的方法,对过程冲突双方的得益进行分析,有效的控制恶性过程冲突的发生(双方成员不进行合作),使团队的过程冲突维持在一个适度可控制的水平,使团队成员间总能保持合作的状态,从而使企业研发团队的过程管理达到最佳状态。
二、进化博弈的模型构建
(一)模型假设
假设1:企业研发团队成员1和成员2代表专业能力不同、对事物认识理解感知有差异的两类研发团队成员,且他们都是有限理性的。
假设2:企业技术创新团队成员1和成员2对是否展开合作创新的策略集都为{合作,冲突}。合作策略下,双方过程冲突都在适度的范围内,大家全力以赴,进行合作创新。冲突策略下,双方选择互不合作的方式,各自成员独立进行研发或在已经开始的合作过程中消极怠工,搭便车,此时过程冲突处于不可控的范围,即恶性过程冲突发生。
假设3:Ra 、Rb分别表示企业研发团队成员1和成员2在恶性过程冲突发生(既冲突)状态下独立研发所获得的收益,Ra ≠Rb,Ra 、Rb>0;ΔR为企业研发团队成员1与成员2因在创新过程中互相合作而在独立研发收益基础上获得的超额收益(如因合作创新提前完成创新研发任务而受到的企业团队领导的奖励),ΔR >0;α为超额收益在企业研发团队成员1、2间的分配系数,0≤α≤1;R为企业研发团队一方成员继续合作创新而另一方在合作过程中选择冲突策略而在原平均正常收益的基础上获得的额外收益(如学到对方的知识、技术后自己私下独立研发等),R>0;C为企业研发团队成员选择冲突策略所付出的成本(如当被合作方发现搭便车,合作方将问题反映给团队领导,导致其受到处罚);π为合作方单独采取合作策略而受到的损失(如因为恶性冲突发生,对方不合作,使研发任务中途停止,从而使单独采取合作策略一方前面的努力作废)。
假设4:在企业研发团队成员1群体中,有比例为x的博弈方采取合作策略,则有比例为1- x的博弈方采取冲突的策略;在企业研发团队成员2群体中,有比例为y的博弈方采取合作策略,则有比例为1- y的博弈方采取冲突的策略,x、y[0,1]。
(二)进化博弈模型的建立
首先构建研发团队成员过程冲突博弈支付矩阵,见表1。
四、结论
本文基于进化博弈理论对企业研发团队成员在过程冲突情况下的策略选择进行了博弈分析,分析结果表明:
其一,当企业研发团队成员冲突策略的净收益大于选择合作的超额收益时,成员在长期进化学习的过程中都会慢慢地采取冲突的策略,从而使恶性过程冲突全面升级,团队的过程管理趋于失败。
其二,在企业研发团队成员的工作过程中,当企业研发团队成员冲突策略的净收益小于选择合作的超额收益时,由于团队成员都是有限理性的特点,当过程冲突发生时,企业研发团队成员也不一定会选择最佳的策略(即保持合作),即使是在长期的进化学习过程中,也无法
借助博弈方成员的学习能力,达到百分百彼此合作的最佳策略组合。但是,通过长期的进化学习,成员的策略选择最终会趋于一致,即要么彼此选择合作策略(过程冲突适度),要么彼此保持冲突策略。
[关键词] 寻租 检查惰性 进化博弈 进化稳定策略(ESS) 复制动态方程
一、进化博弈理论介绍
进化博弈论是以有限理性的博弈方作为博弈分析的基础,研究的是博弈群体成员的策略调整过程、趋势和稳定性。其中,最重要的概念是“进化稳定策略(Evolutionary stable strategy――ESS)”和“复制动态方程”。
1.进化稳定策略(ESS)的数学描述
进化稳定策略ESS是这样的一种策略,如果群体中所有成员都采用这种策略,而这种策略的好处为其它策略所不及,那么在自然的影响下,将没有突变策略能侵犯这个群体。梅纳德・斯密斯(Maynard Smith)在1982年给出了2×2博弈的ESS数学描述(见文献[5])。
设某一种群中的某一个体,从其策略空间s中选用一种策略s1,当它的对手采用另外一种策略s2,它的收益为E(s1,s2)。称策略s1是一个ESS,
假如对所有的可选策略s2,满足以下两个条件之一:
(1)E(s1,s1)>E(s2,s1),即s1一定是一个关于它自己的最好策略。
(2)E(s1,s1)=E(s2,s1),且E(s1,s2)>E(s2,s2),即若s2是关于s1的一个等价可选策略,且s1是关于s2的一个最好策略,则s1一定是一个比s2关于它自己的最好策略。
若一个进化博弈存在ESS,则称该博弈存在进化稳定策略。
2.进化博弈复制动态方程
“复制动态方程”是描述某一个特定策略在一个种群中被采纳的比例的动态微分方程。由进化原理可知,一种策略的收益比种群的平均收益高时,那么这种策略就会在种群中被模仿、学习和发展,即适者生存体现在这种策略的变化率。
可以用以下微分方程来表示:。其中,xk 表示种群中采用策略k的比例,u(k,s)表示采用策略k的期望收益, u(s,s)表示种群的平均期望收益;k表示不同的策略。
二、商业银行与企业的博弈分析
为了方便起见,我们将所有的商业银行简称为银行,将借款的国有企业、非国有企业、居民和个体工商户统称为企业。银行与企业间的博弈,实际上是银行信贷经理(假定完全代表银行)与企业经理(假定完全代表企业)之间的博弈。下面的讨论中银行信贷经理是符合“经济人”假设的、有趋利避害倾向的人;银行信贷经理和企业都开始寻租。
1.商业银行与国有企业的寻租行为的博弈分析
(1)基本假设:假设银行贷出款项为L,进行贷中检查则会对银行信贷经理造成BL的声誉损失,如果不进行检查当贷款成为不良贷款,则会对其造成βL的损失(其中β为不进行检查,贷款成为不良贷款的概率);如果银行信贷经理检查出贷款企业有骗贷行为则会得到αSL(α为比例,SL为检查出企业有逃债行为时对企业的罚款)的奖励;如果企业经理逃债被发现后对其造成的损失为NL;如果企业经理逃债,则企业经理向银行信贷经理做公关活动费用RL(由企业承担),银行信贷经理接受就不再检查这笔贷款,不接受就会检查这笔贷款,如果银行信贷经理接受,企业经理会因为与银行关系改善而获益TL万元(纯粹个人获益)其中L,S,B,N,R,T均大于零,则我们可以得到收益矩阵如表1所示。
由于本博弈是一个非对称博弈。现在存在两个不同的博弈群体,一个是在博弈方1位置的银行信贷经理群体,一个是在博弈方2位置的国有企业经理群体,每次博弈实际上都是前一个群体中的一个成员与后一个群体的一个成员进行的。因此现在我们的分析框架是,反复在两个群体中各随机抽取一个成员配对进行上述博弈,博弈方的学习和策略模仿局限在他们各自所在的群体内部,策略调整的机制仍然是与两人对称博弈中相似的复制动态。
我们首先来看特殊情形,当α=β=0,即对银行信贷经理没有奖惩措施时,此时上面的博弈存在Nash均衡(不检查,逃债)。也就是说此时银行信贷经理存在检查惰性。很明显,在这一博弈中,受损失的是商业银行,L万元的贷款分文不能回收;受益的则是银行信贷经理、国有企业经理和国有企业。即使银行是国有商业银行,这一过程也会造成社会福利的净损失,因为银行损失L万元,其中银行信贷经理会分得RL万元、国企经理也会分得一部分,还有一部分在这一寻租、受租的过程中挥霍掉了,国有企业只分到L-RL-X万元,其中X部分便是福利净损失。因此,这种情况必须要避免,在下面的讨论中我们假设αSL-RL-BL>RL-βL,在此假设下,银行信贷经理的检查惰性问题可以避免了。
在一般情形下,假设在博弈方1位置的银行信贷经理群体中采用检查策略的人数比例是x,那么采用不检查策略的比例为1-x;国有企业经理群体中采用逃债策略的比例为y,那么采用不逃债策略的比例就为1-y。这样,银行信贷经理群体中采用检查、不检查策略的期望收益和群体平均收益分别为:
此时的复制动态方程为:
国有企业经理群体中采用逃债、不逃债策略的期望收益和群体平均收益分别为:
此时的复制动态方程为:
(2)讨论。先讨论在博弈方1位置的银行信贷经理群体的复制动态方程。根据该动态方程和进化稳定策略的性质可知:当这意味着所有x轴水平都是稳定状态,当则分别是两个稳定状态,其中当即此时检查为上策;当时,即此时不检查为上策。
再讨论在博弈方2位置的国有企业经理群体的复制动态方程。根据该动态方程和进化稳定策略的性质可知:当这意味着所有y轴水平都是稳定状态,当则分别是两个稳定状态,其中当即此时逃债为上策;当>0是ESS,即此时不逃债为上策。
2.商业银行与非国有企业的寻租行为的博弈分析
(1)基本假设。由于私营企业经理往往是企业的所有人,所以与上面的情形有很大差别。当企业有逃债动机时,向银行信贷经理提供租金,如果银行信贷经理不接受而进行检查,则银行信贷经理会损失RL的租金和BL声誉损失,同时会获得奖金αSL万元,私营企业经理则会被处以SL万元的罚款和承担ML万元的声誉损失;如果银行信贷经理接受贿赂而选择不检查,则银行信贷经理的收益RL万元,但会被罚款βL万元,而私营企业经理的收益L万元的贷款和因与银行关系改善而获得的TL万元收益。当私营企业经理没有逃债的动机时,若银行信贷经理检查,则银行信贷经理损失BL万元的声誉损失,企业没有损失;若银行信贷经理不检查,则银行信贷经理不会损失或收益什么,而企业则损失L万元的贷款(机会成本)。则可以得到收益矩阵如表2所示。
假设条件同上面的一样,我们可以得到当α=β=0,即对银行信贷经理没有奖惩措施时,此时上面的博弈存在Nash均衡(不检查,逃债)。也就是说此时银行信贷经理存在检查惰性。因此在下面的讨论中我们假设αSL-RL-BL>RL-βL,在此假设下,银行信贷经理的检查惰性问题可以避免了。
设银行信贷经理群体中采用检查策略的人数比例是x,那么采用不检查策略的比例为1-x;非国有企业经理群体中采用逃债策略的人数比例为y,那么采用不逃债的比例就为1-y。这样,银行信贷经理群体中采用的检查、不检查策略的期望收益和群体平均收益分别为:
此时的复制动态方程为:
非国有企业经理群体中采用的逃债、不逃债策略的期望收益和群体平均收益分别为:
此时的复制动态方程为:
(2)讨论。先讨论在博弈方1位置的银行信贷经理群体的复制动态方程。根据该动态方程和进化稳定策略的性质可知:当这意味着所有x轴水平都是稳定状态,当则和1分别是两个稳定状态,其中当即此时检查为上策;当即此时不检查为上策。
再讨论在博弈方2位置的非国有企业经理群体的复制动态方程。根据该动态方程和进化稳定策略的性质可知:当这意味着所有y轴水平都是稳定状态,当则分别是两个稳定状态,其中当x<1是ESS,即此时逃债为上策;当,,即此时不逃债为上策。
三、分析与建议
1.分析
(1)当企业的逃债比例大于某一数值(这一数值和对银行信贷经理检查的奖惩力度负相关,与检查时对银行信贷经理的负效用正相关)时,银行信贷经理的检查的概率会慢慢增大到1,也就是说如果加大对银行信贷经理对检查的奖惩力度,那么检查的力度会加大,同时如果减少检查对银行信贷经理带来的负效用同样会加大检查的力度;反之,当逃债的比例越低于这一数值时,银行信贷经理的检查概率会慢慢减少到0。
(2)当银行信贷经理的检查比例大于某一数值(其大小与国有企业经理从与银行关系改善中的获利率成正相关,与国有企业经理的声誉损失率成负相关)时,国有企业的逃债概率会慢慢减少到0;反之,当检查的比例越小于这一数值时,国有企业的逃债的概率会慢慢增大到1。
(3)当加大对非国有企业的罚款率、声誉损失率以及降低非国有企业经理从与银行关系改善中的获利率可以有效的降低非国有企业的逃债的概率。
2.建议
(1)在银行内部制定更明确的权力制度和激励约束制度,改变现在人人负责而又人人不负责的现状。
(2)加大银行内部的监督机制,形成交叉的监督机制,能够互相牵制、互相监督,任何人的权限不能没有限制。
(3)在社会上建立完善的信用体系,加大对无信用企业的声誉损失和加大对无信用企业的惩罚力度。
(4)建立完善的法律制定,减少企业通过与银行关系的改善而得到的获利。
参考文献:
[1]杨筱燕:金融寻租行为透视[J].煤炭经济研究,2001年第11期
[2]徐艳何泽荣:国有商业银行经营中的机会主义行为[J].财经科学,2005年第5期
[3]董玉飞杨成良:我国信贷市场寻租活动探究[J].商业时代,2003年第17期
[4]蒋燕胡日东:银监会、企业、商业银行寻租行为的博弈分析[J].价值工程,2005年第8期
[关键词]有限理性 进化博弈 基金投资者
一、引言
基金是由基金管理公司把基金投资人的分散资金募集到一起,投放到股票市场或债券市场,为投资人赚取利润的一种专家理财。由于我们普通投资人缺乏专业的技术和经验,也欠缺灵通的消息渠道,对大势难以做出正确的判断,很难在股市中取得收益。所以我们大多投资者会采用基金形式来进行投资。
截至2009年5月,中国证券市场发行28只封闭式基金,5O2只开放式基金(股票型200家,混合型141家,货币型56家,债券型105家,上市型开放式基金33家(ETF5家,LOF28家),创新型基金6家,总份额已破万亿基金单位,其中开放式基金规模为18644.3亿基金单位.选取2008年1月1日至2009年2月20日共276个交易日收盘时的上证综合指数和上证基金指数做实证分析,曾一度出现过大的短期涨幅,且股市换手率过高,股市估值长期偏高,再者不管从长期效应还是短期效应上来讲股票市场和基金市场对信息反映的速度都较慢,最终导致金融泡沫的出现(行为金融学的“套利理论”可以解释)。而证券投资基金投资者在证券市场上的行为表现也并不令人满意,投资风格趋同、投机行为时有发生。并且由于2008年的全球性金融危机,在很大程度上冲击着基金投资者的投资行为,很多因素使得投资者们不能够理性的进行投资。
并且在整个股票市场中,基金投资者们所获得信息是不对称的。一部分基金投资者会以机构投资行为出现,他们能获得到更多的私人信息,并且可以利用自己的影响干预其他投资主体,对市场环境施加影响,使之朝着有利于自己的发展。假设某基金投资机构的基金经理购买一支过去表现良好的股票,很可能会利用资金在资本市场上的影响力,向外界有利于该股票交易的信息,进而旋转恰当的时机赚取股票差价。基金投资者对市场建立信息的时间要长于信息崩溃的时间,反映在资产价格上表现为股票价格上升的时间长于股票上升的时间长于股票崩溃的时间。由于市场上的高价格由未来价格上升的预期所带来的,并没有实际价值的支撑,因此,最终泡沫会破裂。为了进一步稳定证券和股票市场,提高基金投资者的理时很有必要的。
二、有限理性基金投资行为
有限理性理论最早是由经济学家西蒙提出来的,是针对古典经济学的完全理性人假设提出的,有限理性首先意味着博弈方往往不能或不会采用完全理性条件下的最优策略,这意味着博弈方之间的策略均衡往往是学习调整的结果而不是一次性选择的结果,而且即使达到了均衡也可能再次偏离。因此,生物进化中生物形状和行为特征的动态变化过程中的“复制动态”,正是模拟有限理性博弈方学习博弈和调整策略过程最主要的动态机制之一,而生物进化理论中具有在动态调整过程中受到少量干扰后仍能“恢复”的稳定性均衡概念――“进化稳定策略”(ESS)。
基金投资者们的有限理性向完全理性转化过程的博弈的支付矩阵结构与蛙鸣博弈模型相似。其基本含义是假设在某一范围内有两只雄蛙,如果它们都不鸣叫,则吸引来的雌蛙数量为0,不能得到的机会;如果有一只雄蛙鸣叫,那么会吸引来一只雌蛙,而鸣叫的雄蛙获的机会为,,但鸣叫者有成本;如果它们都鸣叫,则各能吸引只雌蛙,,此时各有成本。这样两只雄蛙就可以构成的一个得益矩阵。此情况可类似于基金投资者们如果要追求完全理性即鸣叫,有限理性则为不鸣叫,很明显从有限理性到完全理性是要付出一定代价的,至于基金投资者处于有限理性的状态除了取决于各自本身的理性状况外,是否愿意付出代价或者说值不值得付出代价提高自身理性是其关键因素。假设博弈双方为两基金投资人,努力达到完全理性和不努力为两策略。其得益矩阵如图1。
图1
如果,即,因为,因此必然有仍然成立,这时博弈双方投资人都会选择不努力的,因为不努力是该博弈惟一的纳什均衡。在这种情况下不努力是核算的,不努力是双方的上策。
如果,即,但仍然成立,则 。此时上述博弈存在两个纯策略纳什均衡,分别是两方中的一方努力和另一方不努力。此时还存在一个混合策略的纳什均衡,两方都以一定的概率随机决定是否要努力。
如果在的情况下,,那么双方都努力是唯一的纯策略纳什均衡,因此此时都努力是对两方来说是都是上策。
通过上述分析结论表明,在这个蛙鸣博弈中,努力的成本代价大小也是决定投资者们是否要达到更理性的投资的关键,除此之外,很多客观原因也使其达不到完全理性的,如信息量的不对称、政府的监管等。
基金投资者的行为是基金投资证券市场的关键,如果投资者不理性就会造成证券市场的大幅度波动,了解影响基金投资者投资行为的因素是很有必要的,可以在一定程度上调整控制投资者的行为来达到稳定市场的效果。
三、有限理性基金投资的进化博弈模型
我们已经知道众多基金投资者理性程度是不同的,现在我们不防设有限理性基金管理人中采取有限理性策略投资的比例为,则采取完全理性策略投资的比例即为,他们之间随机配对博弈的得益矩阵如图2所示。
图2中表示有限理性基金投资者相对于有限理性基金投资者的净收益,表示有限理性投资者由于自身的不理性所损失的成本,表示有限理性投资者相对于完全理性投资者的净收益,由于有限理性投资者之间博弈时,他们程度大致相同,而有限理性投资者与完全理性投资者博弈时,可以模仿后者的投资组合,所以,但是对于采用有限理性投资得基金管理者也会由于信息和各方面条件的滞后性,使得收益有所降低,故需要考虑影响因子,表示采取完全理性策略的投资者的正常收益。
(1)当或是时,(完全理性,完全理性)是纳什均衡;
(2)当或是时,(完全理性,完全理性),(有限理性,有限理性)均是纳什均衡;
(3)当或是时,(有限理性, 有限理性)是纳什均衡;
设具有有限理性基金管理者投资时的期望收益为,完全理性的基金管理者投资时的期望收益为,基金管理者的期望收益为,则:
将上述各式代入
并整理, 得到复制动态方程为:
令
=0
可得,
当即时,退化为;
当即y时,退化为;
(1) 当, 即时,
,和均为复制动态的稳定解。
又,
所以:
从而只有是进化稳定策略, 如图3所示:
图3 复制动态相位图
通过上图可知, 在此假设条件下,有限理性投资者学习调整过程中,采取有限理性投资的比例会稳定在水平上,的取值又影响因子,有限理性管理者由于自身的不理性所损失的成本,采取完全理性策略的投资者的正常收益有关,(例如,当我们取具体数值时,,即这时市场稳定于有基金管理者处于有限理性。这里我们会发现一个重要的因素就是影响因子,当的稍加变化就会严重的影响到的取值,时,就会使得的值为0,此时基金投资者都是在进行理性投资,在这种情况下可以提高基金投资者的理,否则其自身的利益就会受损)。
综上所述,可以得知基金投资者之间也是存在很大竞争,但在很大程度和很多原因上基金投资者不能处于完全理性的状态,有限理性基金投资者的存在使我们意识到,在一定程度和范围内还是要加大投资者的理和认知,使其降低投资风险从而获得更大利益,同样也会起到稳定证券市场的作用。
四、结论
基金投资者的投资行为在很大程度上影响着证券市场的稳定发展。同样基金投资者的理性投资在很大程度上也是获取利益的关键所在,在一定的理性条件下是可以获得更多利益的。而基金投资者的各种行为也一直影响股市的波动,所以要在有限理性的范围内提高基金投资者们的理,这样既能够使其获得最大利益,又能够使得基金市场趋于稳定,故而还可以进一步的来稳定股票市场。
参考文献:
[1]Guangshu cai,Ned kock.An evolutionary game theoretic perspective on e-collaborationg:The collaboration effort and media relativeness[J].European Journal of operational Research ,194(2009)821-833.
[2]xinge zhao. Why are some mutual funds close to new investors[J] Journal of Banking & Finance, 28(2004) 1867-1887.
[3]Jeffrey A. Fletcher, Martin Zwick. The evolution of altruism: Game theory in multilevel selection and inclusive fitness[J].Journal of Theoretical Biology, 245 (2007) 26-36.
[4]谢识予:《经济博弈论》[M].复旦大学出版社, 2006年.
[5]张维迎:博弈论与信息经济学[M].上海:上海人民出版社,2004年
[6]肖欣荣:中国证券投资基金管理人行为研究[J].金融理论与实践,2004(3):23-25
关键词:演化经济学;博弈论;模型化;奥地利学派
与主流经济学相比,演化经济学更加注重于动态因素的研究。由于超越了主流经济学完全理性和个体偏好不变得到假设,使得演化经济学方法对于不管是微观还是宏观经济行为的分析更接近于现实。近年来,使用演化经济学范式研究经济问题的文献也逐渐增多,在理论界的影响力也越来越大。对西方演化经济学思想进行梳理,对在今后的的研究中能够更加精准的使用演化经济学这一工具分析问题有促进作用。
一、演化经济学思想的起源:达尔文时代的社会进化思想
生物和演化论隐喻在社会科学中的应用已经有相当长的历史,其中以德国和英国的发展程度最高。在德语世界中,有机生物类比采取了许多种形式,跟许多种命题联结在一起,包括对有机主义本体论的描述、对个人所受社会影响的认同、对整个社会经济体系中的系统相互依赖的认识以及明确参照有机生物体成长过程的历史“阶段”理论。在对社会经济系统进行分析时,可以认为它有自己的意志和想法,而这种意志凌驾于个人意愿之上。在英国,1870―1920年间,生物学的化约主义十分常见。大家普遍相信,社会进步最终取决于人类的基因遗传。斯宾塞将社会比作一个活着的有机生物体,他认为社会知识追求各自目标的、自我约束的个人之间的相互作用,加上连接这些个人的社会安排,他强调有机生物对环境的适应过程。
社会进化思想与当今演化经济学思想相比,显然具有更大的应用范围,同时也更加抽象和概括,但思想的内核都指向了一个问题:制度是否可以设计?如果承认制度是可以设计的便承认了人类理性的超能作用,这便和主流经济学构成了同样的理性假设。显然,达尔文时代的社会进化思想同时蕴涵了主流经济学的思想内核,比如黑格尔提出的世界历史是一个确定和序列。
二、早期演化经济学思想的流派:制度经济学和奥地利学派
这里的制度经济学是区别于以科斯为代表的新制度经济学,它的代表人物为凡勃仑。演化经济学这一术语最早源于凡勃仑的著名论文《经济学为什么不是一门进化的科学》,而美国演化经济学会也是在美国制度主义发展的过程中得以建立的。凡勃仑综合了达尔文的进化论、杜威的实用主义哲学、德国历史学派和马克思的观点和方法。他从本能出发分析社会冲突和社会结构变化,将本能划分为建设性本能和破坏性本能,前者包括劳作本能、闲散的好奇心和父母之爱;后者包络竞赛、好斗和掠夺。凡勃仑的工具―礼仪、金钱―工业的划分都是在这种本能演化基础上发展起来的。他将社会知识分为工具性和礼仪性知识,工具性知识是实用的知识。他通过这两种知识背后的拥有者工人和资本家之间的抗衡论述资本主义社会和经济结构的变化,而这种结构的变化也是制度变迁的方式。凡勃仑在这种思想的基础上提出了制度主义,其出发点是制度作为社会结构的一种特定类型,不仅是一种约束,还能够潜在的改变行为者的目标或偏好。制度对个人的行为具有重建力量。同时,制度是个体在群体交往中的产物,制度不能离开个人的存在。由此可见,此时凡勃仑的制度观中已经有了朴素的博弈均衡思想的存在。另外,凡勃仑给出了制度变迁的一个范式,即本能―习俗―习惯―制度的制度变迁演变阶段,其中,习惯和本能是核心范畴,这其中既蕴含了道格拉斯诺斯的非正式制度与正式制度的思想雏形,也具备了纳尔逊和温特提到的惯例在制度变迁中的作用的思想框架。
奥地利学派在演化经济学流派中独树一帜,原因在于它的观点与新古典经济学颇为类似,但方法论确实演化性质的。奥地利学派预设经济行为人是在真实的历史领域中活动的。这意味着未来的确具有不确定性,他们需要在个人的主观领域中进行经济分析。与制度主义相比,奥地利学派更倾向于强调历史对个人决策行为的影响,因而可以因之构建经济运用所需的恰当的主观抽象概念。相应产生的交互作用的复杂性被认为将会阻碍对历史过程进行宏观经济学上的正式描述。自发秩序被看做是突发的,并内生于惯例、规范、规章、法律和其他制度中的。因此在制度分析中,奥地利学派重视对新奇、能动性、异质性、过程性这类问题。
三、演化经济学的模型化:纳尔逊和温特的演化理论
纳尔逊和温特模型化了竞争市场中产生调整过程的机制,从模型化中所得出的结果,不管是与新观点理论的中间主张和终极主张都是相容的,而非冲突,但他们对于古典理论的异议却让人信服。以产业行为分析为例,他们是以单个企业遵循的决策规则即惯例的用语进行的,产业行为被作为产业中单个企业行为的总和来分析。惯例是指企业有固定的行事方式,生产、惯例、销售、投资与研发都有一定的惯例,整个企业的运转离不开这些惯例。企业的惯例与人类的技巧有相似之处。组织是由个人构成的,组织的行为可以归结为组织成员的个人行为。理解技巧在个人发挥功能中的作用,就可以理解惯例在组织发挥功能中的作用。熟练的个人往往不假思索的采取某种行为,而且许多知识是无法言传的。企业的惯例通常是持久不变,但有时需要适应业已改变的市场情况而作修改,这需要搜寻新的知识和惯例,这就是熊彼特所说的创新过程。企业的惯例犹如生物学中的基因,在经济变迁过程中起作用。
纳尔逊和温特先后使用模型分析了以利润最大化和长期均衡为条件静态选择均衡、企业和行为对已改变的市场情况的反映、演化经济增长和竞争过程中行业结构的变化。同时,经济变迁的演化还为政策分析提供了全新的思路,即经济变迁的演化不仅通过市场机制,还通过有意识的社会政策来进行。该政策观并不等同与主流经济学中的分析思路。主流经济学认为政策是对市场失灵的补救,政策的目的是实现利益最大化。演化经济学的政策观认为政策的实现受到信息、公平要求和官僚政治的限制,政策的选择很多时候并非最优政策,即经济效益最大化的政策,而是“较好”的政策,即各种限制条件下的政策。显然,这种政策观更符合实际情况。
四、演化经济学新进展:演化博弈论制度分析
演化博弈论这一分析工具的引入为制度演化分析提供了新的分析思路,也为演化经济学的发展提供了更加丰富的内容。20世纪80年代以来,经济学家将这一分析工具用语制度分析,并取得突破性进展。其中肖特在演化理论观点考察了制度源自理性设计还是演化生成,他通过博弈论模型再现了制度的演化过程,并验证了哈耶克的“自发秩序”理论。他认为福利经济学必须研究形成社会行动博弈的规则以及有助于决定其结果的那些规则、法律和制度的比较最优性。培顿・杨认为博弈者不是完全理性且信息不完全。人们根据有限地数据进行决策,使用简单的可预测的模型,有时候还做一些无法解释甚至愚蠢的事情。经过一段时间,这种简单的适应性学习过程就能趋同于颇为复杂的均衡行为模式,并把这种思路用于社会经济制度的研究。他认为制度是由许多个体的积累性经验经过长期发展而出现,一旦他们互相作用结合成一种固定的期望与行为模式时,一种制度便产生了。同时,这一理论对该过程会遵循的演化路径以及由此产生的制度形式的多样性做出定量的预测。
青木昌彦认为博弈规则是由参与人的策略互动内生,存在于参与人的意识中,并且是可自我实施的。显然,这里的制度已经不再是简单的外在约束条件,制度主体的经济行为也不仅仅是特定制度约束下追求利益最大化的过程,而是“共有信念的自我维系系统,其实质是对博弈均衡的信息浓缩”。这种关于制度的定义拓展了传统制度的分析范围和精确度。该制度观引入了博弈论(古典博弈论、演化博弈论和主观博弈论)做为基础分析工具,博弈的主体为一固定集合的参与人,每个参与人面临一个技术上可行的行动集合。行动集合决定了每个参与人的报酬分配,而决定报酬分配结果的规则称为博弈的外生性规则。
除肖特之外,多数博弈论制度分析者都声称自己是哈耶克主义者,并把自己的博弈论关于习俗、惯例、制度的经济分析的理论任务,界定为对哈耶克思想的程序化。
五、结论
综上所述,演化经济学思想的演化特点有以下几方面:一是来源于达尔文生物学和进化社会学,其思想的涵盖范围非常广泛。二是演化经济学的研究经历了从抽象的思想研究到具体的经济现象研究的转变。三是时至今日,跨学科研究依然是演化经济学研究的鲜明特点。
参考文献
[1] 杰弗里・M・霍奇逊著,任荣华等译:演化与制度:论演化经济学与经济学的演化[M].中国人民大学出版社,2007.
[2] 理查德・R・纳尔逊,悉尼・G・温特:经济变迁的演化理论[M].商务印书馆,1997.
[3] 杨虎涛:演化经济学讲义―方法论与思想史[M].科学出版社,2011.
[4] 库尔特・多鲁弗著,锁凌燕译:经济学的演化基础[M].北京大学出版社,2011.
[5] H ・培顿・扬:个人策略与社会结构―制度的演化理论[M].上海人民出版社,2004.
关键词:生态学;供应链协同;系统自组织
20世纪70年代以来,人们逐渐意识到自然生态系统解决复杂性问题的能力和价值。由于供应链系统具有非线性和不确定性,这些特征与生态学理论研究对象的特征是相一致的,所以生态学理论对供应链协同的研究具有适用性。本文试图从生态学理论的角度,探讨了供应链协同的动因与策略。
一、供应链企业的协同动因
1.系统自组织。生态学理论强调系统元素的自组织性,生物进化的本质是生物为适应生存环境的变化而对自身生存状态进行的自调节,进化的结果是生物本身结构复杂性的提高。生物进化总是导致新物种的出现和结构的复杂化——即有序性的增加。有学者认为,生物在进化过程中满足一定条件时生物可以自发地改变自己的生存状态以适应周围环境。这种适应既包括暂时性的适应反应,如条件反射;也包括永久性适应,即产生遗传性变异。把这个生物进化自发性条件称为自适应函数。生物界的生物自适应对社会领域问题的研究很有启发意义。
目前,供应链已从分散式管理转变到协同式管理,本文研究的是有自组织程度低到自组织程度高的演化过程。供应链系统从外界环境中吸取的任何东西,都可能产生序参量,都会引起涨落。正是由于有不断的序参量产生,有不断的“涨落”出现,供应链系统才得以不断创新。
2.自然选择。生物学中达尔文式的自然选择定义为生物体繁殖引起了资源的稀缺,从而形成了消灭不够适应变种的压力。进化论学家拉马克认为,生物进化的动力与机理来自生物具有一种不断地增加结构复杂性和完美性的天生趋势,生物具有对环境变化的反应能力。把经济系统的运行机制建立在生物进化和自然选择的基础上,其理论的核心是适应机制,强调经济体能否适应环境是企业生存的决定性因素。弗里德曼在《实证主义经济学方法论》中论证了市场竞争倾向于保证最有效率的企业生存下来,最有效率企业的行为都基本上做到了使其利润最大化。面对有限的资源,现代的竞争形式以转变成为供应链与供应链之间的竞争,同一行业里的各条供应链在接受着经济自然选择。那些能够很好地整合供应链上各个企业的相对竞争优势,实现无缝协同的供应链往往经受了自然的选择,得到了快速发展,不断成长壮大。所以供应链协同是环境赋予的供应链企业迫切需要的适应模式。
3.生物进化动力:协同基因。大量生物实验和研究表明,生物进化的基本动力有竞争和合作,生物界存在着广泛的互惠共生机制。生物的性状是由基因决定的,在此我们把控制物种分工与合作的性状的基因称为协同基因。协同进化的现象是普遍存在的。
供应链系统内部企业之间也存在着类似的关系,企业之间若为上下游关系或相关产业,则其收益相关性一般比较大。他们的成长与发展历程中充满了竞争,资源规模有限,其实协同合作是他们的需求和内在愿望即他们携带有协同基因。正因为如此,供应链理论一经实施,便得到了很好地响应。所以供应链系统也采用了协同进化的方式来建立相互之间的互惠共生关系,以提高对外部市场的适应性。
二、供应链企业的协同策略分析
(一)生态位与供应链协同进化
生态位指在自然生态系统中,一个种群在时间、空间上的位置及其与相关种群间的功能关系。生态位概念相对抽象,一些数量测度指标如生态位宽度、生态位重叠、生态体积及生态位维数等帮助理解生态位概念。从而,引出企业生态位概念,明确这一概念对于正确认识物种在自然选择进化过程的作用,以及在运用生态位理论指导供应链成员构成配置等方面具有重要的意义。
供应链是相互联系的多个企业集合体,与生物种群非常相似,呈现一种网络组织结构,称之为企业生态系统。系统中企业间的互动关系定义为企业的生态链,生态链上的企业之间存在共同进化关系。企业之间既有竞争关系也有合作和共生关系,这就存在一个供应链的“最适密度”问题。描述生物种群密度与存活率相互关系的“阿利规律”同样适用于供应链系统,即在一定条件下,当供应链上企业密度处于适度大小时,供应链增长最快;密度太低或太高,由相互竞争资源造成的供应链内耗太大,会对供应链生长起抑制作用。所以供应链系统的构建应该建立在企业生态位分离的基础之上。企业对资源的需求越相似, 产品和市场基础越相近,它们之间生态位的重叠程度就越大,竞争就越激烈。因此,在进行供应链的成员选择时,企业考虑入选企业生态位的分离。企业生态位的分离不仅减少了竞争,更重要的是为企业间功能耦合形成超循环提供了条件,使供应链由有序进化到更深层次的有序。
(二) r选择、k选择与供应链生态策略
生物学家们根据不同物种按照栖息、环境和进化选择将进化分为r选择和k选择。r选择是指环境气候变化大、资源相对短缺、灾害较多的系统对生物种群的选择;k选择是指环境气候稳定、资源丰富、灾害稀少的系统对生物种群的选择。根据对应的选择将进化策略分为r策略和k策略。从物种适应性出发,进一步将k选择的生物种群称为k策略者,r选择的生物种群称为r策略者。在生存竞争中,k策略者是以“质”取胜,r策略者则是以“量”取胜,k策略者将大部分能量用于提高存活,r策略者将大部分能量用于繁殖。
生态策略是生物在环境适应过程中形成的进化策略。与经济学家提出的最优化理论相对应,生物学家认为自然选择是一个最优化过程,一个现存物种表明了它是其对环境各种可能适应方式中的最佳选择之一。实际上供应链的进化过程亦是典型的环境选择的过程。有时处于减少风险考虑,会增加同类合作伙伴,但是供应链上的合作伙伴企业未必越多越好,它也遵循进化的生态策略。因为供应链所处的行业环境的承受能力有限,超出环境的承载力,会出现适得其反的效果。优化生态策略的途径有:供应链上的各企业要实现由r策略者向k策略者的转变;企业不能单纯追求规模的扩大和低成本战略,要向创新和难以复制的核心技术的战略上调整;要由以“量”取胜向以“质”取胜,自觉遵循“适者生存”的市场生态竞争法则。
(三) 演化博弈策略
供应链类似于生物有机界的食物链,是企业生态链的载体,也存在着能量和物质的流动、循环发生联系并由此相互作用。种群生态理论研究的方向就是探讨生物群落的适应与变迁的过程。演化博弈理论最早源于Fisher、Hamilton等遗传生态学家对动物和植物的冲突与合作行为的博弈分析,他们研究发现动植物演化结果在多数情况下都可以在不依赖任何理性假设的前提下用博弈论方法来解释。
在该理论中,核心的概念是“复制动态”和“演化稳定策略”(ESS)。复制动态实际上是描述某一特定策略在一个种群中被采用的频数或频度的动态微分方程。根据演化原理,一种策略的适应度或支付(Payoff)比种群的平均适应度高,这种策略就会在种群中发展,即适者生存体现在这种策略的增长率(1/xk)(dxt/dt)>0,可用微分方程给出:(1/xk)(dxt/dt)=[u(k,s)-u(s,s)],k=1,…,k 。其中,xk为一个种群中采用策略k的比例,u(k,s)表示采用策略k时的适应度,u(s,s)表示平均适应度,k代表不同的策略。如果u(k,s)>u(s,s),在一定时期内是演化稳定策略(ESS)。由此可见,一个物种的进化可能会改变作用于其他生物的选择压力,从而引起其他生物的适应性变化,而这种变化将会引起相关物种的进一步变化。所以,两个或多个组织的自身进化常常是相互影响的,这样就形成了一个互相作用的协同进化系统。这种复制动态的微分方程可以描述协同演化的过程,可以为供应链协同提供新的研究视角。
三、结束语
从生态学理论的角度,以自适应、自然选择、协同基因和生物进化动力为切入点研究供应链协同的内在动因,得出供应链协同是供应链系统的一种自组织;自然选择的结果是企业重新审视自身的价值链优势,使供应链协同成为必要;供应链上的节点企业具有协同基因等论点。相应于内在动因提出基于生态学理论的供应链协同策略有必要的生态位分离、k选择者的供应链生态策略和演化博弈策略。通过以上的研究为供应链协同内在动因问题的研究开辟新的研究视角和研究方法。
参考文献
[1] 韩福荣,徐艳梅.企业仿生学[M].北京:企业管理出版社,2001.
[2] 程国平.供应链管理中的协同问题研究[D].天津大学,2004.
[3] 毛凯军,田敏,许庆瑞.基于复杂系统理论的企业集群进化动力研究[J].科研管理,2004(7):110-115.