美章网 资料文库 商业银行客户身份的识别范文

商业银行客户身份的识别范文

本站小编为你精心准备了商业银行客户身份的识别参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

商业银行客户身份的识别

《金融论坛杂志》2014年第八期

一、定义样本群与自变量选择

基于商业银行业务实践,考虑到经济中的R类个人客户群往往具有几种混合的特定常态化金融需求,所以我们将可以通过数据仓库直接查询获得的几种金融需求共同组合作为样本群Y=1的必要条件①;同时,考虑不是R类客户的这一类群体:业务场景上我们假定一段时间内不具有或不发生全部特定Y=1金融行为的客户划归为Y=0客户群体。样本群定义示意如图1所示。通过捕捉R类客户群的常态化金融特需求与行为指标寻找到Y=1和Y=0样本群后,考虑模型所需的观察期、表现期及各验证样本组的情况:一般将研究设定样本观察期在表现期之前1年,观察期主要用于基于两客户群甄别筛选自变量;样本表现期为6个月,该期间数据主要用于建模使用。对表现期内的样本客户各预留10%~20%,作为模型的同期验证样本;同时,限定被筛出的两样本群客户在商业银行的开户时间在样本观察期以前需有一定的积累②,以保证两部分样本群客户有足够可观察的金融行为表现,不影响随后对自变量的筛选。另外,也在不同地区选取了若干营业网点的客户数据,通过客户访谈等方式在已经明确某一客户是否属于R类的情况下,组成网点验证组进行应用效果检验。各样本组的基本属性如表1所示。自变量选择上,如前所述,最终纳入模型的变量不仅能够在商业银行应用与实践阶段保持较好的业务解释能力,也需要在统计层面有较为理想且相对稳定的判别与预测能力。所以本文按照业务与可获得性、双变量分析、多重共线性检验等筛选步骤对模型中拟加入的自变量进行挑选。

(一)业务与可获得性筛选考虑到本文关注对象R类客户群很可能在存贷业务、中间业务、银行卡业务等方面与非R群体存在差异,同时基于一般商业银行数据仓库中客户与产品数据的可获得性,研究中初步拟选了三大类指标,包括:客户产品情况指标;客户基本属性指标;其他辅助指标。在客户产品持有情况一揽子指标中,涵盖了与个人客户相关的存款类、贷款类、中间业务类、银行卡类这四类指标;客户基本属性指标中基本涵盖了客户年龄、性别、开立银行账户时长、开户机构数等指标;在其他辅助类指标中,主要包括了能够显现R群体常态化金融需求特定业务指标。

(二)双变量分析与多重共线性筛选双变量分析(见表2)是将每一个X变量与“是否为Y=1群体”变量之间进行考察。使用这种方法筛选变量基于两种考虑:一是可以通过调整某一变量适当的分段,将X变量转化为分组有序变量、多分类名义变量等,获得更为精细化的识别结果。举例来说,如客户年龄变量,可以通过适当的分段,将其转换为几个哑变量(dummyvariable),从而得到某些年龄段客户比另外一些年龄段客户更容易有R类上的特征;或者说,在其他条件不变的情况下,可以发现一些年龄段客户要比另外一些年龄段客户在是否为R类的评价上获得更高的可能性。二是有利于观察某一自变量在方程中所起到的作用、增强最终纳入模型的变量在实际业务中的解释能力。操作上,我们从统计意义和已有的商业实践考虑,认为如果某一分段中的总体个数占整体总量5%以上,同时每段中Y=1的样本数量与每段中总体数量比例随每段呈现递增或递减趋势,则认为分段后的X变量通过了双变量分析筛选。之后,观察余下变量的方差膨胀因子(VarianceInflationFactor,VIF),VIF越大意味着变量的共线性程度越严重。经验认为当某一变量的VIF>10则说明该变量与其余变量存在多重共线性。需要说明,当某些高VIF变量非常有助于模型最终的业务解释,可尝试构造某些因子(factor)来保留这部分变量信息,同时也消除了高VIF变量,限于篇幅,此处不做展开。

二、回归、检验与评价

构建R类个人客户特征身份识别模型时,主要考虑并解决两个问题:一是得到某一客户绝对的判别概率,获知辖内客户在多大程度上可以认为某一客户是R类或认为非R;二是基于判别概率对客户进行排序,并从模型的覆盖和命中角度综合衡量,拟定明确的R类群体(这里R群体可以理解为“业务使用群体”)。实质上,R群体的业务规模某种程度上是以建模为指导并结合业务需求最终确定的,具体而言,可根据业务实践的不同策略与目标,如客户细分、精准营销、产品规划等,结合定量化建模与模型评价再给出的群体。因此,由于不同策略或目标下的判别概率不同,最终的应用规模或允许误判率也不同。本部分介绍模型的检验及评价,并简要说明基于不同业务场景的模型应用。经过定义变量、数据清洗与筛选后,对余下变量采用逐步回归方法(StepwiseRegression)进行Logistic回归,最终留下的变量及回归结果如表3所示。为便于应用,我们将某一判别概率转化为0~1000的判别分数。基于客户特征身份识别模型在实践中的不同应用场景(如群体规模预测、数据库精准营销等),对模型检验与评价所关注的指标也各有不同。例如,在倾向于数据库营销(databasemarketing)中的筛选目标客户过程,某种意义上更关注于模型命中率与提升力(lift);如果倾向于R群体的规模预测(populationforecasting),则更为关注模型覆盖率。同时,对在预测群体中是否能显现足够的差异性上,则可以更多地关注于K-S值、ROC等指标;另外,通过同期与非同期验证的方法考察了模型的稳定性。综合来说,我们从模型的覆盖、命中、预测群体差异等角度,对模型进行检验与评价。

(一)覆盖与命中从某一判别分数或判别概率p下获得的混淆矩阵(Confu-sionMatrix)出发,重点考察模型的正例覆盖率(Sensitivity,Se)与负例覆盖率(Specificity,Sp)、正例命中率(PPV)与负例命中率(NPV)。定义某一判别概率p下的混淆矩阵结构如表4所示。我们定义Se、Sp及PPV、NPV分别为:Se=a(/a+b)即某一判别概率p下,实际为1且预测为1的数量与实际为1的比例;Sp=d(/c+d即某一判别概率p下,实际为0且预测为0的数量与实际为0的比例;PPV=a(/a+c)即某一判别概率p下,预测为1且实际为1的数量与预测为1的比例;NPV=d(/b+d)即某一判别概率p下,预测为0且实际为0的数量与预测为0的比例。由此可以通过Se与Sp来考察模型的覆盖情况,通过PPV与NPV衡量模型的命中情况。如前所述,客户潜在身份识别模型的不同之处在于,由于我们采取弱指导性方式通过综合与“还原”Y=1与Y=0两个建模样本群体,同时我们的最终目的是为了识别R类群体,即需要了解是R的可能性,也要考虑非R的可能性,因此不仅考察正确的误判率,同时也应同等考察错误的误判率,通过在不同判别分数下权衡这两种单边误判率获得一个相对最低的综合误判率①,所以需同时考察Se与Sp、PPV与NPV的情况。基于模型的拟合及识别情况,给出建模组、验证组1(同期验证)及验证组2(网点验证)不同判别分数的情况(见表5)。根据模型不同的使用场景,简单地说,实践中可能关注三个方面:一是预测使用规模准确性;二是预测个体准确性;三是通过规模获得个体准确性。如果更关注R群体的“使用规模”,则应更倾向于了解模型覆盖情况,由表5的PanelA~PanelC比较发现,对样本Y=1和Y=0两群体客户的总覆盖情况基本在200左右达到一个较好的效果,正负覆盖率(Se与Sp)分别在80%及70%以上,表明无论是建模组、同期验证组还是网点验证组,如果在200分附近应用该模型对R群体进行筛选,最终真实的R与真实的非R被准确覆盖的可能性较好。如果更关注识别R的精准性,可着重关注模型命中情况,如表5显示验证组1、验证组2的总命中在350分左右达到一个较好水平,正负命中率(PPV与NPV)均在70%以上。另外,也可在既定使用规模下,考察模型覆盖及命中的综合情况,这种应用场景一般出现在数据库营销中,例如,在成本限制下某地区对R客户群仅能营销S规模客户,可以通过判别分数得到S规模,得到这一分数下的覆盖与命中。

(二)ROC曲线接收者操作特征曲线(ReceiverOperatingCharacteristicCu-rve,ROC曲线),是分类模型常用的一种坐标分析评价工具。基于某一判别概率下的混淆矩阵,ROC曲线的横、纵坐标分别定义为1-负的覆盖率(1-Sp)与正的覆盖率(Se)。由ROC曲线性质可知,与45度对角线(随机猜测线,RandomGuessLine)相比,越是往ROC空间左上角倾斜,模型明识别或预测的效果越好(Fawcett,2006;Gonen,2007)。图2给出建模组、验证组1与验证组2的ROC曲线。对比发现在建模组较好的识别效果下,各验证组也有较为稳定的表现。

(三)Kolmogorov-Smir-nov检验(K-S检验)K-S检验用作样本分布与某一已知分布的差异性检验,检验统计量为KS=sup-∞<x<∞Fn(x)-F0(x),F0为已知分布函数。本文使用K-S检验统计量写为KS=max[F1(x)-F0(x)],即体现为y=1的累积分布与y=0的累积分布差的最大值,来考察模型区分两群体差异的大小,实践经验认为K-S值在0.3~0.5之间模型的区分较好。本文将建模组样本以判别分数为基础降序排列,并按等人数把样本组均分为10个子组(decile)。样本中Y=1与Y=0的累积比例及累计比的差值如表6所示,得到子组5累积比例的差在各组中最大,进而我们得到模型的K-S值为0.3758,也表明模型能够较好区分Y=1与Y=0两个样本群。

三、评述与展望

本文尝试在一种弱指导性质下通过客户行为的多重特征构建了一个可用于商业银行业务实践的Logistic-R类客户潜在特征身份识别模型。依据不同业务目标,通过权衡模型覆盖率与命中率,寻找相对最优的R客户群。该模型在目前实践应用中,平均识别率可达到80%,基本解决了以往无法通过数据仓库准确获取R类客户的问题,为基于R群体进行一揽子金融产品的分析与研发、目标客户的筛选与营销等打下基础。未来,还可尝试结合区域经济特征,将地缘因素纳入模型进行考虑,提升模型的总体精准性。同时,也可考虑利用诸如非参数识别、组合预测等方法进一步优化提升识别率。而在商业银行金融数据仓库建设方面,建议着力考虑将半结构化、非结构化等“碎片式”数据信息进行收集与整合,加强对客户行为、情绪、偏好等微观信息的捕捉与研究,为利率市场化、互联网金融和大数据多交融背景下的商业银行产品创新提供有力支撑。

作者:关志新刘寅王秋雯单位:中国工商银行产品研发中心数据挖掘团队负责人中国工商银行产品研发中心中国工商银行产品研发中心