美章网 资料文库 生存分析的方法及运用范文

生存分析的方法及运用范文

本站小编为你精心准备了生存分析的方法及运用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

生存分析的方法及运用

《华南预防医学杂志》2016年第5期

关键词:

统计学;寿命表;统计学,非参数

引言

生存分析是一种既考虑事件结局,又考虑出现结局时间(即生存时间)的统计分析方法,被广泛运用于医学领域,如临床试验、疾病预后分析、疾病预测等,已成为医学统计学的重要分支之一[1]。

1生存分析的基本方法生存分析

所分析的数据通常称为生存数据,生存数据按照观测数据所提供的信息不同,可以分为完全数据和删失数据[2]。完全数据指观察对象在观察期内出现结局(终点事件),这时记录到的时间信息是完整的,这种生存时间的数据称为完全数据。删失数据指尚未观察到研究对象发生终点事件,即由于某种原因(如失访、退出等)停止了随访,记录到的时间信息是不完整的,常用符号“+”表示。生存分析通常关注2个信息点,第一是研究对象是否在观察期内出现结局事件,通常在观察期内出现结局事件编码为1,未出现则编码为0。第二是各随访对象的随访时间长度。主要包括以下3种分析方法。

1.1描述性分析

基本方法是根据样本观察值提供的信息,计算每一时间点或每一生存区间上的生存函数、生存率及生存时间等相关指标,并用生存曲线展示生存时间分布规律。若观察时段内没有删失,n年生存率=活满n年例数/期初观察例数。若观察时间段内有删失,则按照概率原理计算。具体可以用Kaplan-Meier法(乘积极限法)或寿命表法实现[3]。前者主要用于观察例数较少而未分组的生存资料,后者适用于观察例数较多且分组的资料。两者的计算方式相似,最大的不同在于Kaplan-Meier法使用的是所观察到的结局变量实际出现次数和删失数据的实际次数,而寿命表法将时间间隔视为等分,在寿命表法中不同的时间间隔划分方式会导致计算结果不同,因此Kaplan-Meier法更常用。在Kaplan-Meier法中,设S(t)表示t年的生存率,S(ti/ti-1)表示活过ti-1年又活过ti年的条件概率,例如S(1)、S(2)分别表示1年、2年的生存率,而S(2/1)表示活过1年者再活1年的条件概率,该概率的乘法定律有:S(2)=S(1)×S(2/1),即公式为:S(ti)=S(ti-1)×S(ti/ti-1)。生存曲线(survivalcurve)是以观察时间为横轴,生存率为纵轴,将各时间点对应的生存率连接在一起的曲线图,因此是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长的生存期,陡峭的生存曲线表示低生存率或较短的生存期。

1.2单变量分析

即比较2组或多组的生存时间及生存率。由于医学研究资料中生存时间大多为不规则分布或分布未知,因此常用非参数法比较2组或多组的生存时间及生存率。非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,零假设为各总体分布率曲线相同。最常用的是log-rank检验[4],log-rank检验的基本思想是对不同生存时间点取相同权重进行计算,通过比较实际死亡数与期望死亡数之间有无差别,比较2组或多组生存曲线或生存时间是否重合相同。用log-rank检验对样本的生存率进行比较时,要求各组生存率曲线不能交叉,若生存率曲线交叉则提示存在某种混杂因素,可用分层或多因素分析来控制混杂因素。在比较与预后或者治疗方法相关的生存曲线时,必须要保证各组研究对象的其他因素相似(例如年龄)。在随机试验中,可以通过随机分配研究对象来实现;在观察性研究中,可以在前期用Kap-lan-Meier法调整年龄、性别、癌症阶段等混杂因素。

1.3多变量分析

即分析生存过程中的影响因素,评价各因素对生存时间的影响。在生存分析中,生存时间的长短不仅与干预措施相关,还受一些协变量(如患者年龄、性别、心理、环境等)影响。若想更精确地研究干预措施的效果,除了干预措施不同,所有研究对象的其他因素必须相近,但在实际研究中难以做到。因此可以考虑分析包括干预措施在内的多因素对生存时间的影响,即多变量统计分析方法。但由于生存时间多为正偏态分布,不适合采用普通线性回归或logistic回归分析。Cox比例风险回归模型可以分析多因素对生存时间的影响,且允许“截尾”数据的存在,是生存分析中重要的多因素分析方法[5]。Cox模型不直接考察生存函数与协变量的关系,而是用风险率函数h(t)作为因变量。比例风险模型的构建需满足假设:危险因素的作用不随时间变化而变化,即在基础风险和其他协变量固定不变的前提下,某一协变量每增加1个单位,得到的风险函数的取值等于原来的风险函数取值乘以1个固定系数。基本表达式如下:h(t,x)=h0(t)exp(β1x1+β2x2+…+βpxp)其中h(t,x)表示t时间点风险函数、风险率或瞬时死亡率;h0(t)表示基准风险函数,即所有变量都取0时t时刻的风险函数;x1、x2……xp表示协变量或预后因素,均不随时间发生变化;β1、β2……βp表示回归系数。公式右侧可分为两部分:第1部分为非参数部分即h0(t),由于没有明确定义,其分布无明确假定,其参数也是无法估计的;其他部分为参数部分,可以通过样本的实际观察值来估计。因为Cox模型有非参数和参数两部分,因此称为半参数模型。例:在Framingham心脏研究中,共有5180名45岁以上的研究对象纳入研究[6],并对研究对象的随访持续到他们去世,如研究结束仍健在,则随访时间为10年。在研究开始时,研究对象从45岁到82岁不等,平均年龄为56.8岁,标准差为8岁,男性占46%,女性占54%。在随访对象中,有402人出现死亡结局,研究对象基本情况见表1。用Cox模型进行评估,将性别、年龄与死亡时间关联起来。Cox比例风险回归的结果见表2。分析结果显示,年龄、性别分别和死亡率存在正相关,可以解释为年龄越大的研究对象及男性研究对象的死亡率更高。在这里参数估计值所代表的含义为:将其他指示变量当作常量时,每1个单位的指示变量变化所引起的相对风险的log转换值变化。即把性别当作常量,研究对象的年龄每增加1岁,相对风险的log转换值增加0.11149个单位;把年龄当作常量,男性研究对象比女性研究对象的相对风险的log转换值高0.67958个单位。为了方便解释,可将参数估计值求幂生成风险比,年龄的风险比=exp(0.11149)=1.12,表示研究对象和比他小1岁的人相比,死亡的期望风险值为后者的1.12倍。

2生存分析的运用

2.1运用于临床试验数据

生存分析被运用于比较不同组别患者的情况已经有近百年历史。检验药物健康效应的随机试验设计的诞生,更促进了生存分析这一方法的发展。当结局变量为二分类变量、且可能在观察期的任意时间发生的情况下,可以借助Kaplan-Meier法来进行统计分析。可以使用生存分析的情况有:计算死亡或者出现结局的时间长短(如乳腺癌患者术后生存时间、白血病患者化疗后缓解持续的时间),比较使用新药和普通药物的2组人群的生存率等。随机试验中常遇到的生存数据包括:总生存率,将任一原因的死亡都作为结局变量;无病生存率;经治疗康复人群中的无复发生存率。

2.2运用于观察性研究

在观察性研究(如病例对照、队列研究)中,生存分析最常用于比较不同地区或时间点人群的生存情况,此外还可用于比较不同性别之间的生存率差异,以及某一危险因素(如是否患有高血压或糖尿病)对患者生存率的影响。但是生存分析在观察性研究中缺乏对因果关系的解读,也存在失访等问题[7],存在一定局限性。

3小结

由于生存分析能很好地处理删失数据,因此在生物医学领域运用广泛。随着统计软件的不断发展,生存分析的理论和运用将更加深入。

参考文献:

[1]方积乾.卫生统计学[M].7版.北京:人民卫生出版社,2012:410.

[4]罗胜兰.生存分析的方法及应用[J].浙江预防医学,2013,25(5):29-34.

[5]严若华,李卫.Cox回归模型比例风险假定的检验方法研究[J].中国卫生统计,2016,33(2):345-349.

作者:李杏 单位:广东省疾病预防控制中心