本站小编为你精心准备了证据权重方法与信用风险论文参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
1经典逻辑回归
给出企业的真实数据格式(整理后的财务报表数据),如表1所示,其中违约标志一栏为响应变量Y,0表示正常,1表示违约,xij,i=1,…,n,j=1,…,m表示第i个客户的第j个指标数值。首先要介绍经典的线性回归。假设响应变量为向量Yn×1,n为样本个数;设计矩阵为Xn×(m+1),m+1表示常数列以及m个变量(表1)。将常数列放在X的第一列,经典的线性回归具有如下表达:该式即为经典的逻辑回归模型。其中求解关键未知参数β的简单而直接的方法是根据极大似然估计(利用式(2)写出似然函数继而利用NewtonRaphson方法求解极大值点[4])。经典逻辑回归相关理论已经比较成熟并且已经用到实际风险评级模型中,相关的结果可参考文献[2]。
在实际的风险评级模型中,经典逻辑回归模型有着诸多缺陷。首先变量个数m过大,例如在下一节做的真实数据中m=147,于是需要在建立逻辑回归模型之前做变量选择的工作,而变量选择一直是统计学中的难题[1];其次,在逻辑回归模型中,假定中间变量θ与设计矩阵X呈线性关系即θ=Xβ,这一假设在实际中也并不是都满足的。再次,对于实际的风险评级模型,往往真实数据的采集质量比较差(设计阵不可逆、变量方差过小或者过大等)导致模型偏差较大,甚至无法建立模型,需要新的手段来解决这些问题。在风险评级模型中,我们实际上更关心的是违约样本分布与正常样本分布之间的距离,于是利用信息论中相对熵的思想,证据权重方法(weightofevidence)与经典逻辑回归结合,设计了证据权重逻辑回归模型,用以估计违约概率。
21信息价值与证据权重在这一小节中,介绍信息论中熵、相对熵与信息价值的概念,并且借此引出证据权重(weightofevidence)的定义。实际上,证据权重的概念是Good正式提出的[5],用来处理假设检验问题。而真正应用到风险评级模型中,则是近年来国际主流评级模型的发展方向[2]。对于连续随机变量X,密度函数为f(x),熵的定义为对于风险评级模型,基于相对熵判别能力的测量工具是信息价值(informationvalue),用以刻画违约样本分布和正常样本分布的差异[56]。对于某个特定的变量,将对应违约样本密度函数记为fD;该变量正常样本密度函数记为f珚D。信息价值定义为违约样本对应于正常样本的相对熵与正常样本对应于违约样本相对熵之和[2],即从式(5)可知,信息价值的取值范围为[0,∞)。按照定义,信息价值刻画的是正常样本与违约样本分布之间的差异,对于选定的变量,为了得到具有高的判别能力的风险评级模型,该变量的信息价值应当尽可能的大。信息价值越高,说明该变量对于样本违约与否的判别能力越强。而信息价值与响应变量(违约与否)的相关关系[5]如表2所示,此外根据信息价值可以变量选择,将信息价值足够大(如>03)的变量引入逻辑回归模型,而舍弃那些信息价值偏小(对于样本违约与否,几乎没有判别能力)的变量。即正常样本与违约样本对数似然函数的差。为使信息价值即式(5)达到最大,我们希望WOE值与该选定变量的原始数据呈单调关系,即该变量x数值越大,则对应WOE值单调变化(越大或者越小)。此外,这种单调关系,同时反映了该变量对于违约与否的判别能力。定义式(6)反映了正常样本与违约样本对数似然函数的差,于是该选定变量WOE值的增加意味着违约概率的降低。利用单调的WOE值作为新的设计阵代入经典逻辑回归,能够克服本节一开始讨论的第二个经典模型的困难,即中间变量θ与原始数据可能并非线性。
22算法在实际风险评级模型中,考虑第j个变量即设计矩阵X的第j列X•j=[x1j,x2j,…,xnj]T,响应变量yi=0或1,i=1,…,n表示第i个样本的实际违约情况。证据权重逻辑回归的算法可以归纳如下,(1)将原始连续数据离散化,寻找第j个变量的最优划分,并计算信息价值。具体来说,将X•j按照升序排序,记为X(•j)=[X(1,j),…,X(n,j)]T。假设希望将X(•j)分成k个区间(即寻找k-1个分点)且找到的分点必须使得WOE值为单调序列。若不存在这样的划分,则舍弃该变量;若存在多个这样的划分,则选取使得信息价值最大的划分方式(即最优化分)。设Gi、Bi分别表示该变量第i个区间的正常、违约样本个数,G、B表示全部的正常、违约样本个数,则由式(5)和(6)可得相应的样本估计形式为。在实际风险评级模型中,区间个数k依赖于经验,建议取8~10。(2)根据信息价值(IV)的大小选取变量。选取第一步中信息价值较大的变量(如IV>03);舍弃信息价值较小的变量。(3)将选取变量对应的WOE值作为新的设计阵,代入经典逻辑回归模型。利用经典模型中的方法解决选取变量间可能存在的多重共线性问题[7],计算违约概率并给出相关统计推断(系数的极大似然估计和置信区间等)。
3真实数据分析
这一节将结合某商业银行真实的近两年来的制造业数据,给出上述证据权重逻辑回归算法的应用。通过与经典逻辑回归模型作比较,来验证证据权重逻辑回归模型的功效。数据格式如表1所示,其中违约企业为60个,正常企业240家,涉及的财务指标为147个,即该训练模型设计阵Xn×(m+1),n=300,m=147。此外,我们选取另外150家企业,30条违约样本、120条正常样本作模型功效检测。在算法第一步中,取区间数为8,计算信息价值与WOE值,选取了10个变量(权益乘数、流动负债率、全部资产现金回收率、现金流量净值、固定资产成新率、盈利能力、现金比率、资本化资金充足率、(应收票据+应收款)/(应付票据+应付款)、保守速动比率)进入经典逻辑回归模型。继而利用经典模型相应结果(参数估计与假设检验等),计算违约概率(PD)、正常样本与违约样本违约概率的累计分布函数曲线、训练样本和检测样本的功效曲线(ROC曲线)[1]如图1~4所示。从违约概率分布来看,证据权重逻辑回归模型很好的将正常样本(实线)与违约样本(虚线)分开,且大多数的正常样本的违约概率估计值远小于违约样本的违约概率估计值。从ROC曲线功效来看,无论是训练模型还是检测模型,结合证据权重的逻辑回归方法的功效(实线)都要明显的高于经典逻辑回归方法的功效(虚线)。此外,若取02为分界点(即若样本违约概率>02,认为该样本违约,02是正常样本违约概率分布密度与违约样本违约概率分布密度交点,如图1~4。且从图中可以看出,选取02作为阈值可以对违约客户有较好的识别,若选另外两个曲线交点为阈值则对违约客户误判升高),该模型对于训练样本的辨识度如表3所示。特别地,对于违约客户的辨识高达88%。而对于检测样本,辨识度如表4所示,对于违约客户的辨识达83%。
4结束语
本文将信息论中的证据权重方法与经典的逻辑回归相结合,应用于国内商业银行的真实数据并且建立了信用风险评级模型,此外通过比较经典逻辑回归模型,验证了证据权重逻辑回归方法的功效与可行性。且该模型在国内多家商业银行已经成功上线,使得评级模型对违约概率有了精准的刻画。
作者:甘信军杨维强单位:山东大学数学学院山东大学金融研究院