美章网 资料文库 探究GBDT和LR算法的用户流失监控技术范文

探究GBDT和LR算法的用户流失监控技术范文

本站小编为你精心准备了探究GBDT和LR算法的用户流失监控技术参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

探究GBDT和LR算法的用户流失监控技术

摘要:由于电信领域的移动用户数量难以增长,企业把焦点放在如何维持现有用户上,因此移动用户流失与否关系到企业核心收益,如何预防用户流失成为电信领域的一个重大挑战。传统的潜在用户流失识别技术无法有效地识别精准的流失用户,而采用机器学习算法的用户流失预防技术则有更高的准确度。针对上述问题,提出了一种基于梯度提升决策树算法(gbdt)和逻辑回归(lr算法用户流失预防模型,对参数特征进行调整,对已有移动用户流失数据进行计算,能达到高于85.91%的用户流失预测准确度识别,与已有其他常用预测对比表明,该算法的识别速度和准确率均拥有更好的预测效果。

关键词:LR;GBDT;用户流失;监控技术

0引言

在一个稳定的电信领域中,用户流失监控是企业的研究焦点之一,主要是因为开发新用户的消耗比维持已有用户的消耗成本高出约5~6倍[1]。现有资料显示,移动用户每个月的平均流失率为2%~5%[2]。为了巩固用户人数,避免用户流失,电信运营商需要准确计算出易流失的用户群体。这就需要创建用户流失预警系统来预测,通过分析用户行为数据对用户的流失几率进行分类。目前有很多算法被运用在用户流失模型中,如GA_BP、逻辑回归、朴素贝叶斯、SVM和神经网络等。用户流失监控模型预测能计算出潜在离网用户,便于运营商及时制定出挽留用户的方案,有效预防用户的流失,为运营商节省资金,保证收益。针对用户流失的问题,本文利用LR算法容易并行化、运算速度快等优点,结合GBDT容易计算特征组合的特性,提出一种基于GBDT-LR混合算法的用户流失监控技术。

1GBDT和LR算法描述

1.1GBDT算法描述

1999年,Friedman提出一种基于AdaBoost类集成学习算法的改进算法———梯度提升决策树GBDT(GradientBoostingDecisionTree),也称MART(MultipleAdditiveRegressionTree),属于迭代决策树算法。GBDT算法以CART回归树作为基分类器,创建数百棵树,所有分学习器的预测结果的残差作为下一轮分类器的训练值,并以顺序串行沿着残差减少的角度开展梯度迭代,通过对所有基学习器的训练结果进行加权求和,获得最后的分类器。这种方式分类器设计简单,训练速度也大大加快。GBDT模型工作流程如下:(1)把训练集{(x1,y1),(x2,y2),…,(xn,yn)},损失函数L(x1,γ),yi={-1,1}和迭代次数M,进行基分类器初始化,公式为f0(x)=argminγni=1ΣL(yi,γ)(1)(2)对m=1,2,…,M,进行如下迭代步骤:步骤一:计算i=1,2,…,n的残差近似值,公式为rim=-坠L(yi,f(xi))坠f(xi)ΣΣf(x)=fm-1(2)步骤二:根据rim近似值拟合成一棵CART树,Rim,j=1,2,…,Jm是该树的叶节点域。步骤三:计算j=1,2,…,Jm的γjm值,公式为γjm=(argmiΣnγ)Σxi∈RjmL(yi,fm-1(xi)+γ)(3)步骤四:子分类器的更新,公式为fm(x)=fm-1(x)+Jmj=1ΣγjmI(x∈Rjm)(4)DOI:10.13314/j.cnki.jhbsi.2021.03.002(3)求f赞(x)的输出最终值,公式为f赞(x)=fM(x)=f0(x)+Mm=1ΣJj=1ΣγjmI(x∈Rjm)(5)GBDT二分类算法,还需要计算正样概率,公式为pi=11+e(-f赞(xl)(6)关于GBDT分类问题,可直接应用负二项对数似然函数计算损失函数,它的负梯度值就是残差的近似值。DBDT的负二项对数似然函数的公式为L(y,F(x))=log(1+exp(-2yF(x))),y∈{-1,1}(7)式(7)中F(x)=12logPr(y=1|x)Pr(y=-1|x)∈∈(8)把式(7)代进式(2)可求得负梯度即近似残差值为rim=2yi1+exp(2yiFm-1(xi)(9)

1.2LR算法描述逻辑回归算法

(LogisticsRegression,LR)是一种广义的线性回归模型,应用广泛。依据因变量类型分类,LR算法可以分成二分类LR和多分类LR算法。线性回归算法分析的是数值,而LR算法在线性回归计算结果的基础上,采用sigmoid函数将其转换成概率值,就是把自变量映射成[0,1]的范围之间,这样可以为后续训练提供输出类的概率。设x为一组连续的随机变量,遵循Logistic分布,x的积累分布函数和密度函数为:F(x)=P(X≤x)=11+e-(x-u)/γ(10)f(x)=e-(x-u)/γγ(1+e-(x-u)/γ)2(11)(sigmoid)Logistic函数表达式为:g(z)=11+e-z(12)设定训练集T={(x1,y1),(x2,y2),…,(xn,yn)},其中,xi∈Rn,yi∈{0,1},设P(Y=1|x)=π(x),对于模型参数w,取对数后的对数似然函数为:L(w)=ni=1Σ[yi(w•xi+b)-log(1+ew•xi+b)](13)接着使用梯度下降法求出w的估计值,最后得到预测概率:P(x)=p(y=1|x)=ewx+w01+ewx+w0(14)

2GBDT-LR混合模型逻辑回归模型

计算便捷,训练消耗小,对大数据处理能力好,但是其学习能力不足,训练特征的选取要求高,预测结果欠拟合。GBDT算法训练的特征值能有效解决LR的特征要求高问题,得到良好的分类效果。GBDT模型建立在Boost算法之上,通过迭代生成新的回归树,其特点适合作为新特征,便于挖掘其区分度,减少人工操作。GBDT-LR混合模型是特征交叉的运算过程,GBDT的运算结果能够被LR作为输入特征直接采用,减少了人工处理交叉特征[3],其模型结构如图1所示。由图1可知,Tree-1和Tree-2两棵树都是GBDT算法输出的回归树。样本数据集通过树的路径送达到子节点,所有子节点的输出结果集就是LR算法的输入特征,最后进行分类分析。GBDT-LR算法的训练流程[4]如图2所示,其具体的模型训练步骤如下:步骤一:把原始数据集一分为二,将数据集A采用GBDT模型进行训练,构造Tn决策树组,得到强分类器。步骤二:采用GBDT算法对数据集A进行训练预测,形成新的决策树Tn。步骤三:对每一棵决策树Tn进行特征编码或者One-hot编码,输出向量Wn,把Wn进行重构,形成新特征供LR模型使用。步骤四:把Wn和数据集B提供给LR算法训图1GBDT-LR算法构造特征示意图2练,输出结果进行二分类统计,预测该数据集的用户流失情况。

3实验

3.1数据集实验

采用的数据集来自于电信领域真实用户的脱敏数据信息,数据集包含客户的个人信息和客户流失特征属性数据,MaxComputeTable有customer_id、Device_Protection、churn、Online_Backup等21个字段,都是String类型,包括7043条记录。其中,churn(用户流失)字段是本实验的目标字段。

3.2构建实验

本实验在阿里云人工智能PAI-Studio实验室中进行,根据系统的预置模板构建流失用户监控系统,实验组件使用默认参数。GBDT-LR模型特征寻找和特征组合的功能强大,适合特征存在关联、特征呈非线性、特征指标多等应用范围,具有分类准确率高的特点。GBDT-LR分类器构建数据采集、数据特征提取、数据预处理、GBDT模型训练、构建新特征、LR模型训练、GBDT-LR模型二分类评估、模型保存等阶段。

3.3GBDT-LR算法运算结果

3.3.1GBDT二分类结果分析在进行GBDT-LR算法的用户流失预警监控实验中,进行第一阶段的GBDT算法实验时,在指标数据经过GBDT二分类运算后得到阶段评估报告。模型评估指标数据包括序号、customerid、citizen、tenure、monthlycharges、totalcharges、KV和churn等8个字段,其中特征编码后的KV字段是关键数据,KV表的格式结构是Key:Value(Key表示index,Value表示特征值)。KV表支持多种算法,为节省存储空间只保留非零数据,所以表示特征量大,可以达到上百亿。GBDT-LR算法第一阶段前10条实验结果如表1所示。在表1中,GBDT算法实验包括了KV字段,其中,KV字段的第一行数据是“4:1,9:1,13:1,18:1,23:1,26:1”,这表示第一行数据4、9、13、18、23、26索引的值都是1,其它索引的值都是0,所以省略不计。

3.3.2GBDT-LR与其他算法二分类评估结果比较本实验场景比较了GBDT-LR分类器与其他6种分类器对用户流失风险预警的预测结果,其中包括SVM、GBDT、LR、KNN、PS-SMART和GBDT-KNN,使用的分类性能指标为AUC、KS和F1-score(F1值)。实验结果如表2所示。由表2可知,使用SVM、GBDT、LR、KNN、PS-SMART、GBDT-LR、GBDT-KNN等7种算法进行用户流失风险预警预测,AUC面积数值均高于80%,其中,GBDT-LR模型的AUC面积数值最高,达到85.91%。特别地,单个LR算法预测AUC结果约为82.58%,而GBDT算法的预测AUC结果约为81.25%,都低于GBDT-LR模型的85.91%。复合PS-SMART、GBDT-KNN算法的预测AUC结果没有提高,反而弱于单个GBDT算法,主要影响因素是KNN算法是高度依赖距离的模型,数据维度的加大会导致两个目标点的距离增大,特别是稀疏矩阵中,会导致复合算法的预测面积数值下降。GBDT+LR算法的AUC面积数值排在榜首,主要原因是LR算法可以在矩阵数据高维度稀疏特征下进行预测,能弥补GBDT的拟合问题,从而提高整体预测效果。综上所述,GBDT-LR算法在用户流失监控预测系统中效果更优,符合用户流失监控预测系统的设计要求。

4结语

本文提出了将学习算法GBDT与LR算法相结合,设计并实现了一个可以监控用户流失的预测模型,该模型可以处理数据在高纬度稀疏特征下进行较高面积数值的预测。实验证明,相对于SVM、GBDT、LR、KNN、PS-SMART、GBDT-KNN等预测算法,本文模型具有较好的AUC面积数值,利用LR算法弥补了GBDT的拟合问题,提高了预测速度,具有85.91%的AUC值。此外,该模型在面对大数据的预测服务时,具备较快的预测速度和较大的AUC面积数值。对于不同版本号、不同服务器的请求下本模型的准确度未知,仍需要后续的深入研究。

参考文献:

[1]欧阳晔,杨爱东,孟凡语.一种博弈论辅助的机器学习算法检测用户流失行为[J].电信科学,2020,36(6):79-89.

[2]汪明达,周俏丽,蔡东风.采用混合模型的电信领域用户流失预测[J].计算机工程与应用,2019,55(24):214-221+270.

[3]王斌宇,柴骅迅,王永健,等.基于GBDT+LR分类器的工业过程区域控制性能评价[J].石油化工自动化,2020,56(3):21-26+30.

[4]王垚,李为,吴克河,等.GBDT与LR融合模型在加密流量识别中的应用[J].计算机与现代化,2020(3):93-98.

作者:梁家富 邱新泳 单位:广州科技职业技术大学