本站小编为你精心准备了监督GroupMCP的稳健性研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
《统计与信息论坛杂志》2014年第六期
(一)有监督GroupMCP方法有监督GroupMCP方法在使用时需要解释变量的群组结构被预先确定,并要求用于构建模型的训练资料充分包含自变量和因变量的信息,且因变量没有缺失值。有监督GroupMCP方法获得的学习模式可以被外推确定新样本的因变量取值。1.模型形式和目标函数。假定有n条独立同分布的观测记录Xi,{yi},i=1,2,…,n,其中P维的解释变量向量Xi∈Rp可以分成G组,第g组解释变量的大小为Kg;Y为被解释变量,Y可以是连续变量,也可以是0,1二分类变量。其中βq是相对于第q个解释变量的回归系数,Xi,g是第g组解释变量第i次观测的取值向量,βg为相应的系数向量,ei为残差项,ηβ()•是转换函数,在Logistic回归模型中表示为Logit函数。GroupMCP方法在目标函数的群组层面加上MCP罚式(3),其中λ为正则参数,用来调整惩罚力度;α为调整参数,用来控制惩罚范围;θ=β,当θ≤αλ时,MCP罚的惩罚力度会随着参数绝对值的增大而增大;当θ=β足够大、即θ>αλ时,惩罚力度将维持在0.5αλ2不变。MCP罚可以避免像Lasso罚那样一直增大惩罚力度,从而给参数估计值带来较大的偏倚。2.参数估计的算法实现。极小化损失函数式(4)与式(5)在求解待估参数时需要充分考虑解释变量之间的关系结构,于是传统的统计计算算法将不再适用,建议使用局部群组梯度下降算法。局部群组梯度下降算法是梯度下降算法向群组变量的扩展,即在每个群组内使用梯度下降算法,既保留了梯度下降法简便易行的优点,又考虑了解释变量的群组结构[10]。此算法的具体操作步骤为:第一步,预先设定参数向量的初始值槇β=β()0;第二步,求解损失函数Q(β)依据一阶泰勒展开的渐近函数槇Q(β);第三步,进行迭代计算,即在第t次迭代时以第t-1次迭代计算得到的参数向量估计值βt-()1为基准,对每一个待估参数βgk在给定其他参数不变的情况下,依据槇Q(β)在βgk上的偏导数等于0(即槇Q((β))/(βgk)=0)计算更新t次迭代后估计值为槇β(t)gk。重复进行迭代计算,直到相邻两次参数估计值的差值小于容忍度tol时停止,此时的参数估计值即为最终估计值。3.冗余参数的确定。有监督GroupMCP方法的讨厌参数有正则参数λ和调整参数α,这两个参数共同确定了GroupMCP惩罚函数的大小和范围。讨厌参数的不同取值将造成参数的不同估计结果,于是为了准确地选择解释变量,要先确定冗余参数的合理取值。笔者建议可以使用基于Grid估计的迭代计算方法,具体计算步骤为:首先给出λ和α在其支撑集上的一系列取值;然后计算给定λ和α取值下模型参数的估计值,从而得到AIC、BIC或GCV评价指标的得分;最后根据AIC、BIC或GCV最小值来确定讨厌参数的合理取值。4.模型估计结果的分析。MCP惩罚函数的引入会使较小的参数估计值收缩为0,也就是说对因变量解释效果越小的群组变量的回归系数越容易收缩为0,于是回归系数不为0的群组变量即为选出的变量。基于选出的变量组可以构建最终模型,根据此模型的预测效果即可以评价变量选择及所建模型的准确度。
(二)有监督GroupMCP方法稳健性研究的本质成组变量选择方法的稳健性研究与单个变量选择不同。单变量选择方法的稳健性研究通常考虑当数据包含异常值时,该方法是否仍可以准确地选出显著的解释变量;成组变量选择方法的稳健性则多讨论因理论知识不完备、或数据包含测量误差造成解释变量的群组结构与真实结构不同时,亦即当群组结构不可避免地存在一定错误率的情况下,该方法仍然能够准确地选择有显著解释作用的变量,而且还能够得到良好预测效果的性质。有监督GroupMCP方法的稳健性研究的本质,在于讨论此方法对解释变量的群组结构错误率的容忍程度。所谓结构错误率或变量错分率,是指实际分析中被错误分组的变量个数占变量总个数的比例,即“结构错误率=被错误分组的变量个数/变量总个数”。有监督GroupMCP方法对结构错误率的容忍度越大则稳健性越强。值得注意的是,对有监督GroupMCP方法的稳健性进行研究时需要充分考虑现实环境的复杂多变,具体体现在解释变量类型的多样性、结构错误率的非确定性以及被错分变量的随机性等。变量类型的多样性是指解释变量可以是连续的、离散的、名义的或多种类型的混合;结构错误率的非确定性是指实际研究中解释变量群组结构的错误率是预先未知的,且在不同研究中结构错误率也不同;被错分变量的随机性是指各种类型的变量都可能被错误分类。为了尽可能地贴近现实情况来研究有监督GroupMCP的稳健性,本文参考国外学者的研究和模拟方法,模拟生成多套具有不同结构错误率且被随机错分的解释变量,这些解释变量可以是连续的、离散的或名义的[11-12]。对模拟数据进行分析的重点是,讨论有监督GroupMCP方法在不同结构错误率下的变量选择和模拟预测效果。
二、模拟研究
(一)研究内容和步骤模拟研究包括模拟生成数据、分析数据和结果讨论三个主要环节:模拟生成数据环节将模拟产生具有不同结构错误率的、包含离散变量和连续变量等不同类型的随机数据作为解释变量,基于真实模型对模拟生成的解释变量进行计算得到每个样本的因变量取值;分析数据环节将使用有监督GroupMCP方法对模拟数据进行分析;结果讨论环节则分析讨论解释变量被选出的频率、模型的预测效果,即回归分析中以“预测偏倚=abs(预测值的期望-观测值的均值)”、“预测残差的方差=Var(预测值-真实值)”、“预测均方误差MSE=预测偏倚的平方+预测残差的方差”作为评价准则,分类判别中以灵敏度、特异度和AUC均值作为评价准则。在某一结构错误率下,有监督GroupMCP方法若能高概率地选出对因变量有显著解释效果的变量,低概率地选出没有显著解释效果的变量,且所得模型预测效果较好,即可说明有监督GroupMCP方法对此结构错误率有很强的容忍性。
(二)回归预测中有监督GroupMCP方法的稳健性假定组内解释变量之间具有高相关性,不同组解释变量之间存在弱相关或不相关。模拟设定前3组解释变量对因变量有显著解释效果,后三组则没有。从[-2,2]的均匀分布中随机抽取30个数值对应为这30个解释变量的系数b1~b30,基于前30个解释变量及其系数。
(三)分类判别中有监督GroupMCP方法的稳健性模拟产生6组,每组10个,共有60个解释变量,其中x1~x10、x11~x20、…、x51~x60分别为一组,这些解释变量可以是连续的或是离散的。假定组内解释变量之间具有高相关性,不同组解释变量之间存在弱相关或不相关。模拟设定前3组解释变量对因变量有显著解释效果,后三组则没有。从[-2,2]的均匀分布中随机抽取30个数值对应为这30个解表2中AUC是指ROC曲线下面积,AUC取值越高说明分类效果的准确度越高;灵敏度是指真实值为1且预测结果为1的概率;特异度是指真实值为0且预测结果为0的概率。
(四)小结1.解释变量之间的关系结构准确可知时,GroupMCP方法能够正确地选择变量组。从图1(a)与图2(a)可知,当解释变量之间的关系结构准确可知时,GroupMCP方法在回归预测或分类判别中都能够以近100%的概率精准地选出对因变量有显著解释效果的变量组。2.结构错误率在5%以下时,GroupMCP方法具有较好的稳健性。分析图1(b)与图2(b)可知,当结构错误率在5%时,对因变量有显著影响的解释变量可以被以高于98/100=98%的概率被选出,其他非显著解释变量会被以不高于60/100=60%的概率选出。比较分析图1和图2以及表1和表2发现,结构错误率越高选出无解释效果变量的可能性就越大,而选择具有显著解释效果变量的准确度就越低。由于选出的解释变量较多,模型预测效果没有受到明显的影响,于是可知当结构错误率在5%以下时,有监督GroupMCP方法具有良好的稳健性。3.忽略解释变量内部结构将不利于准确选择变量及变量组。比较分析图1(d)与图2(d)可知,忽略解释变量的群组结构会遗漏许多重要的解释变量,同时也会选出一些不重要的解释变量,不利于找出对因变量有显著解释效果的变量及变量组。
三、实例分析
(一)研究背景和目的证候是中医领域的一个重要概念,是指疾病过程中一定阶段的病位、病因、病性、病势及肌体抗病能力的强弱等与本质有机联系的反应状态,由多个证素单元组成,而每个证素具体表现为临床可被观察到的一系列症状。亚健康状态是介于健康与疾病之间的一个物理状态,主要表现有身体不太舒服、虚弱、无精力,具体表现为精力衰退、肢体功能和能动性衰弱,但是还达不到疾病诊断的严重程度。中医善于“治未病”,认为亚健康是阴、气、血、脏、腑出现不均衡所致,并认为与虚、火、瘀阻、湿四个证素有关[13](见表3)。由于患者的体质不同,即使都是亚健康人群,不同患者的主证不同,起关键作用的证素也不同。准确判断患者的证素有助于深度了解患者的体质和疾病状态,是后续治疗的基础。本研究将对影响肝郁脾虚证的亚健康人群的关键证素及相应症状进行探索分析。
(二)数据说明此研究采用分层抽样的方法,从6家临床中心随机选取了307个亚健康受试者,剔除缺失诊断结果的4人,共有303个受试者进入研究,其中57人为肝郁脾虚证的亚健康患者,占18.81%。纳入模型的解释变量及其结构见表3。从表3的描述统计结果可知,这些症状在肝郁脾虚证的亚健康人群中的分布概率大于非肝郁脾虚人群中的分布概率;瘀阻所包含的症状在两类分群中的分布差异更为明显;每个症状的发生频率都较低,因某个单一症状无法区分肝郁脾虚人群,故本文采用成组变量选择法进行分析。
(三)模型构建和参数估计基于表3所列解释变量的群组结构建立GroupMCPLogistic模型,分析得知对肝郁脾虚证的亚健康患者起重要影响的证素为瘀阻和湿证,这两个证素包含的症状及相应参数估计结果见表4。根据五折交叉验证方法,计算得AUC均值为0.7377,标准差为0.0857,平均灵敏度为0.8571,平均特异度为0.7604。如果不考虑症状之间的群组结构而构建一般的Logistic模型,选出的症状指标及其相应参数估计结果见表5。使用五折交叉验证方法计算得AUC均值为0.7531,标准差为0.0829,平均灵敏度为0.8247,平均特异度为0.7171。
(四)结果分析比较分析表4和表5的变量选择和参数估计结果可知:第一,两类模型研究目的不同,导致了变量选择结果的不同。基于有监督GroupMCP的Logistic模型的研究目的,在于合理处理变量之间的相关关系,选择有显著解释意义的变量组,此方法有效地指出了在本研究所调查的亚健康人群中,瘀阻和虚证(主要是肾阳虚)是影响肝郁脾虚证诊断的两大重要证素;传统Logistic模型在选择有显著解释意义单个变量时并不考虑变量之间的关系,于是在本实例分析中此方法可用于疾病预测,但不利于研究亚健康人群中对肝郁脾虚证影响显著的证素。第二,基于有监督GroupMCP的Logistic模型具有较好的解释性。比较表4和表5可知,基于GroupMCP的Logistic模型选出对亚健康人群中肝郁脾虚证的诊断起显著作用的是瘀阻和虚证,且瘀阻类症状的系数符号都为正,虚证所包含症状的系数有正有负,说明本研究调查的亚健康人群中肝郁脾虚证的症状以肝郁为主,气虚的症状越重表明更偏向于单证的虚证,而非兼证肝郁脾虚证与中医理论相符。基于MCP的Logistic模型同时选出便秘和大便稀溏,且系数都为正值,不易于解释。第三,解释变量具有内部结构时,基于GroupMCP的Logistic模型对数据有更好的拟合及预测效果。从AUC、特异度、灵敏度等评价指标上看,基于GroupMCP的Logistic模型的AUC均值为0.7671,平均灵敏度为0.8514,平均特异度为0.74,高于基于GroupMCP的Logistic模型,这是因为基于GroupMCP的Logistic模型考虑了解释变量内部结构,充分使用数据信息,对数据有更好的解释和预测效果。同时,前者AUC的标准差为0.0689,低于后者,说明GroupMCP方法有更好的稳健性。
四、讨论与展望
成组变量的选择问题在经济、生物基因、医学诊断等实际问题研究中极为常见。有监督GroupMCP是在给定解释变量的群组结构的基础上进行GroupMCP分析的一种数据挖掘方法。此方法考虑变量的内部结构,提高了变量选择结果的准确性,有效降低计算量和计算偏差,具有良好的Oracle性质。但此方法的稳健性问题尚未得到充分研究,而一个方法的稳健性即对异常情况的容忍程度,是决定此方法能否被广泛使用的关键因素。为此,本文重点研究和讨论有监督的GroupMCP方法的稳健性问题。本文根据有监督GroupMCP方法的相关理论,确定本次稳健性研究的目的、研究方法和评价标准,采用模拟研究讨论有监督GroupMCP方法在不同结构错误率下进行变量选择和模型预测的稳健性,通过实例分析说明本研究的应用价值。第一,基于GroupMCP的Logistic模型合理地处理了变量之间的相关关系,能够准确地选择对因变量有显著解释意义的变量组或潜变量。例如本文的实例分析部分,选出了对亚健康人群中肝郁脾虚证的辨证起关键作用的证素有瘀阻和虚,这也是此方法与单变量选择方法在研究目的上的本质区别。第二,解释变量存在群组结构时,有监督GroupMCP方法在分类判别和回归预测中都可以准确地选择有显著解释变量的变量组,所得模型具有良好的解释和预测效果。第三,解释变量结构的准确度越高,变量选择和模拟预测效果越精准。当解释变量的关系结构的先验信息出现略微错误时,若结构错误率不超过5%,有监督GroupMCP方法仍然可以准确选出显著的变量组,模型预测效果也有很好的稳健性。但是,有监督GroupMCP方法仍存在局限性。例如有监督GroupMCP方法会将显著的群组内的所有变量都选出,增加冗余变量个数,提高模型复杂度;此方法假定解释变量存在群组结构,但在实际问题中解释变量的内部结构可能是更加复杂的网络结构,此时GroupMCP方法的群组结构假设将不再适用,需要引入Liu等人提出的基于网络结构的协变量研究方法进行分析[14];GroupMCP方法的研究重点是显著变量的群组选择,而不是单个解释变量,当研究既关注解释变量的内部结构又关注单个变量时,此方法的使用效果不再完美,还有待于在未来的研究中进一步改进和完善。
作者:李淞淋李扬易丹辉单位:中国人民大学统计学院应用统计科学研究中心统计咨询研究中心