临床研究中,生存分析对于一项干预措施或者是危险因素的评估是一种关键方法。生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间。生存分析的概念是广泛的,可以是指通常意义下的生存时间,也可以是指所关心的某个现象(如疾病愈后,合格品使用后)。多见到的生存分析概念有总体生存分析(overrall survival analysis,OS),无病进展生存期(Progression-Free Survival,PFS)。
参考文章及书目
什么是无病进展生存期、总生存期和中位生存期?
Survival Analysis Basics
总体生存是指,从病人确认患有疾病开始至因任何原因引起死亡的时间。该指标常常被认为是肿瘤临床试验中 最佳的疗效终点 。确认病人因病或其他因素引起死亡的日期通常几乎没有困难,并且死亡的时间有其独立的因果关系。 如果在生存期上有小幅度的提高,可以认为是有意义的临床受益证据 。
所谓无病进展生存期(Progression-Free Survival,PFS)通常定义为病人 经过治疗 ,随机选择某个时间直到肿瘤 复发 或因 各种原因出现死亡 ,病人总的生存时间。
PFS的优点在于它能反映肿瘤的生长(这个现象可能反映了肿瘤相关疾病或死亡的因果联系),可以于生存获益证实前被评价,不会受到后续治疗的潜在的易混淆的指标或症状影响。而且PFS的结果比生存期结果出现得更早,治疗过程中,病人一旦出现了症状,肿瘤复发了,过了无病进展生存期就要采取其他积极治疗手段,从而进一步改善患者的症状,延长生存时间。
无复发生存时间( relapse-free survival time) 是指从治疗到疾病复发之间的时间。也称为无病生存时间(disease-free survival time) 和无事件生存时间 (event-free survival time) 。
使用生存概率和危险概率这两个概念来描述生存数据。
生存函数用S(t)表示, 是指观察对象生存时间T大于某时刻t的概率。
在具体问题中,该函数t时刻的取值可以用以下公式来估计
显然,S(t) 是一个随时间增加而下降的函数,表示观察对象随访到t时刻的累计生存率。
风险函数用h(t)表示,指的是是在时间t被观察的个体在该时间发生事件的概率。
风险函数随着时间的延长可呈现为递增、递减或者其他的波动形式。如果风险函数为常数时,表示死亡速率不随着时间而加速;如果风险函数随着时间上升,则表示死亡速率随时间而加速;风险函数随着时间下降,则表示死亡速率随时间减速。
Kaplan-Meier 生存分析,即就是乘积极限法,是一种非参数方法,用于根据观察到的生存时间估算生存概率(Kaplan和Meier,1958年)。
时刻的生存概率 计算如下:
= 在 存活的概率
= 之前还活着的病人数量
是指再 时刻事件的发生的书目
=0,
估计概率(S(t))是仅在每个事件发生时才改变值的阶跃函数。同样也可以计算生存概率的置信区间。
KM生存曲线是KM生存概率与时间的关系图,提供了可用于估计度量值(例如中位生存时间)的数据。
Cox模型是目前生存分析多因素预后评价中较好的统计学方法。Cox将模型以半参数方式出现,适用于许多分布未知的资料的多因素分析,可以再许多因素共存的情况下,排除混杂因子的影响,提高预后分析的质量,并能处理截尾数据。
上面提到Cox是半参数模型,什么是半参数模型
先写到这里,实践才能真正掌握,后面重点使用R进行生存分析,并可视化分析结果。
探究变量之间的关系是数据挖掘中的一个基本分析内容,对于常规的离散型或者连续型变量,有很多的方法可以用于挖掘其中的关系,比如线性回归,逻辑回归等等。然而有一类数据非常的特殊,用回归分析等常用手段出处理这类数据并不合适,这类数据就是生存数据。
常规数据在表示时,只需要一个值,比如患者的血压,性别等数据,不是连续型就是离散型;生存数据则有两个值,第一个是生存时间,可以看做是一个连续型的变量,第二个是生存事件,可以看做是离散型的变量。
比如分析治疗后的患者生存情况,在观测期间,可以看到不同患者的存活时间,这个值就是生存时间,而有些患者可能在观察期内出现死亡,复发等情况,死亡或者复发则称之为事件。
生存分析是既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。
生存资料分析
生存分析就是针对生存资料的分析。所谓生存资料就是描述寿命或者一个发生时间的数据。更详细的说一个人的生存时间的长短与许多因素有联系的,研究因素与生存时间的联系有无及程度大小,就是生存分析。
生存资料不同于其它分析资料,有一个特殊的地方就是缺失值的处理,对于常规数据,缺失值很多时可以直接丢掉,只有少量缺失值时可以用算法进行填补,而生存数据中的缺失值则不同。
在观测期间,患者可能出现了其他的事件导致后续得不到对应的生存数据,比如患者出现意外事故身亡了,后续的生存数据就会缺失,很显然生存数据是不能用算法填补的,一定要是实际观测的结果。
但是这个数据也不能直接丢掉,因为从观测开始到患者意外身亡的这段时间内的生存数据是有意义的,在进行生存分析时,这部分数据也可以利用起来。
应用场景
生存可以指人或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常工作(相对于失效或故障),甚至可是是客户的流失与否等。
在生存分析中,研究的主要对象是寿命超过某一时间的概率。还可以描述其他一些事情发生的概率,例如产品的失效、出狱犯人第一次犯罪、失业人员第一次找到工作等等。
在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等。
在医学研究中,常常用追踪的方式来研究事物发展的规律。如,了解某药物的疗效,了解手术的存活时间,了解某医疗仪器设备使用寿命等等。
生存分析主要内容
生存分析的主要内容包括:
l描述生存过程,即研究生存时间的分布规律
l比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较
l分析危险因素,即研究危险因素对生存过程的影响
l建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。
生存分析主要方法
生存分析方法可以分为描述法、参数法、半参数法和非参数法。
1.描述法
根据样本观测值提供的信息,直接用公式计算出每一个时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式显示生存时间的分布规律。
优点:方法简单且对数据分布无要求
缺点:不能比较两组或多组生存时间分布函数的区别,不能分析危险因素,不能建立生存时间与危险因素之间的关系模型。
2.非参数法
估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。
常用方法:乘积极限法、寿命表法
优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,对生存时间的分布没有要求。
缺点:不能建立生存时间与危险因素之间的关系模型。
3.参数法
根据样本观测值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。
生存时间经常服从的分布有:指数分布、Weibull分布、对数正态分布、对数Logistic分布、Gamma分布。
优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型。
缺点:需要事先知道生存时间的分布
4.半参数法
不需要对生存时间的分布做出假定,但是却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响,最著名的就是COX回归。
优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型,不需要事先知道生存时间的分布。
生存分析案例
研究性别对于肺病生存率有无区别,收集数据下列信息
time:生存时间(单位天)
status:0=存活,1=死亡
sex:1=男,2=女
▋ 操作步骤
1)按步骤将数据导入
2)选定寿命表分析方法
3)对各选项进行设置
其中注意状态设置:选取表示事件已发生的值
4)设置完所有选项后确认,得到结果
存活表:该表给出了男女对应时间内存活和死亡人数,并计算了存活率、风险比等统计量
中位数生存时间:即生存率为50%时,生存时间的平均水平;
由此可知:生存时间的平均水平女士高于男士
生存函数:男士较女士累计生存率下降快
生存分析(Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析。
起始事件 (initial event):反应生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始等。
失效事件 (failure event):在生存分析随访研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全的,这种事件称为失效事件,也称之为死亡事件、终点事件。
生存时间 :广义上指某个起点事件开始到某个终点事件发生所经历的时间,度量单位可以是年、月、日、小时等,常用符号 t 所示。
完全数据 (Completed Data):从观察起点到发生死亡事件所经历的时间。
不完全数据 (Incomplete Data):生存时间观察过程的截止不是由于死亡事件,而是由其他原因引起的。不完全数据分为: 删失数据 (censored Data)和 截尾数据 (truncated Data)。不完全主要原因:失访:指失去联系;退出:死于非研究因素或非处理因素而退出研究;终止:设计时规定的时间已到而终止观察,但研究对象仍然存活。
删失分类 :
1.左删失(left censored):研究对象在某一时刻开始接受观察,但是在该时间点之前,研究所感兴趣的事件已经发生,无法明确具体时间。
2.右删失(right censored):在进行随访观察中,研究对象观察的起始时间已知,但终点事件发生的时间未知,无法获取具体的生存时间,只知道生存时间大于观察时间。
3.区间删失(interval censored):在实际的研究中,如果不能够进行连续的观察随访,只能预先设定观察时间点,研究人员仅能知道每个研究对象在两次随访区间内是否发生终点事件,而不知道准确的发生时间。
参考
注意:删失数据不等于截尾数据。
截尾 是所有样本的综合特性,指的是观察的总体是有偏的,只有当事件的失效时间出现在观测区间内,我们才能知道这个事件及其观测数据的存在。
左截尾(left truncation):只能观测到一个时间点之后发生的失效事件。左截尾时间点之前发生的失效事件不知情/不关心(如样本来自退休中心,都是60岁的老人)。
右截尾(right truncation):只能观测到一个时间点之前发生的失效事件。右截尾时间点之后发生的失效事件不知情/不关心。
1.描述生存过程
生存曲线(survival curve) :以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。
Kaplan-Meier曲线,在画说统计中 中讲得很直观。
生存率 :又叫生存概率或者生存函数,表示一个病人的生存时间长于时间t的概率,用s(t)表示,s(t)=P(T≥t)。生存率的估计方法有参数法,非参数法,半参数法,实际中常用非参数法中的乘积极限法及半参数法中的Cox回归模型。
2.比较生存过程:一般用Log-rank检验。
Log-rank检验属于非参数检验,用于比较两组或多组生存曲线或生存时间是否相同,检验统计量为卡方 χ2 ,自由度df=组数-1。
1.总生存期(Overall Survival, OS):指从随机化(random assignment)开始至(因任何原因)死亡的时间(失访患者为最后一次随访时间,研究结束时仍然存活患者,为随访结束日)。
2.中位生存期:又称半数生存期,表示恰好有50%的个体尚存活的时间。由于删失数据的存在,计算不同于普通的中位数。利用生存曲线,令生存率为50%时,推算出生存时间。
3.无病生存期(Disease Free Survival, DFS):指从随机化开始至肿瘤复发/转移或(因任何原因)死亡的时间(失访患者为最后一次随访时间,研究结束时仍然存活患者,为随访结束日)。(通常作为根治术后的主要疗效指标)
4.无进展生存期(Progress Free Survival, PFS):指从随机化开始到肿瘤发生(任何方面)进展或(因任何原因)死亡的时间。(通常作为晚期肿瘤疗效评价的重要指标)
5.疾病进展时间(Time To Progress, TTP):指从随机化开始到第一次肿瘤客观进展的时间。
6.RECIST:实体瘤疗效评价标准,Response Evaluation Criteria in Solid Tumors
7.CR:完全缓解,Complete Response。所有靶病灶消失,无新病灶出现,且肿瘤标志物正常,至少维持 4 周。
8.PR:部分缓解,Partial Response。靶病灶最大径之和减少 ≥ 30%,至少维持 4 周。
9.SD: 疾病稳定,Stable Disease 。靶病灶最大径之和缩小未达 PR,或增大未达 PD。
10.PD: 疾病进展, Progressive Disease。靶病灶最大径之和至少增加 ≥ 20% 或出现新病灶。
11.ORR:总有效率,Overall Response Rate。经过治疗 CR+PR 患者总数占对于总的可评价病例数的比例。
一、生存分析(survival analysis)的定义 生存分析:对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科。
生存分析:既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。 生存分析不同于其它多因素分析的主要区别点:生存分析考虑了每个观测出现某一结局的时间长短。
应用场景
什么是生存?生存的意义很广泛,它可以指人或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常工作(相对于失效或故障),甚至可是是客户的流失与否等。 在生存分析中,研究的主要对象是寿命超过某一时间的概率。还可以描述其他一些事情发生的概率,例如产品的失效、出狱犯人第一次犯罪、失业人员第一次找到工作等等。 在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等。
在医学研究中,常常用追踪的方式来研究事物发展的规律。如,了解某药物的疗效,了解手术的存活时间,了解某医疗仪器设备使用寿命等等。对生存资料的分析称为生存分析。所谓生存资料就是描述寿命或者一个发生时间的数据。更详细的说一个人的生存时间的长短与许多因素有联系的,研究因素与生存时间的联系有无及程度大小,称为生存分析。
例如研究病人感染了病毒后,多长时间会死亡;工作的机器多长时间会发生崩溃等。 这里“个体的存活”可以推广抽象成某些关注的事件。 所以SA就成了研究某一事件与它的发生时间的联系的方法。这个方法广泛的用在医学、生物学等学科上,近年来也越来越多人用在互联网数据挖掘中,例如用survival analysis去预测信息在社交网络的传播程度,或者去预测用户流失的概率。
生存分析研究的内容 1.描述生存过程 研究生存时间的分布特点,估计生存率及平均存活时间,绘制生存曲线等,根据生存时间的长短,可以估算出各个时点的生存率,并根据生存率来估计中位生存时间,也可以根据生存曲线分析其生存特点,一般使用Kaplan-Meier法和寿命表法。 2.比较生存过程 可通过生存率及其标准误对各样本的生存率进行比较,以探讨各组间的生存过程是否存在差异,一般使用Log-rank检验和Breslow检验。 3.分析危险因素 是通过生存分析模型来探讨影响生存时间和终点事件的保护因素和不利因素,因素作用的大小及方向,相对危险度的大小,基本使用Cox回归模型。 4.建立数学模型 建立最终的数学模型,也是通过Cox回归模型完成。
生存分析对资料的基本要求 1.样本由随机抽样方法获得,要有一定的数量,死亡例数和比例不能太少 2.完整数据所占的比例不能太少,即截尾值不宜太多 3.截尾值出现的原因无偏性,为防止偏性常常对被截尾的研究对象的年龄、职业、地区、病情轻重等情况进行分析 4.生存时间尽可能精确 5.缺项要尽量补齐
生存资料的共同特点 1.蕴含有结局和时间两个方面的信息 2.结局为两分类往斥事件 3一般是通过随访收集得到,随访观察往往是从某统一时间点(如入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止。 4.常因失访等原因造成研究对象的生存时间数据不完整,分布类型复杂,不能简中地套用以前的方法
二、生存分析的基本概念
起始事件(initial event): 反应生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始等。 失效事件(failure event): 在生存分析随访研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全的,这种事件称为失效事件,也称之为死亡事件、终点事件。
终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,不能随意改变。
生存时间: 广义上指某个起点事件开始到某个终点事件发生所经历的时间,度量单位可以是年、月、日、小时等,常用符号t所示。这个时间也未必是通常意义上的时间,也可以是和时间相关的变量。比如距离等,具体要根据研究目的而定义。 1)分布类型不易确定。一般不服从正态分布,多数情况下不服从任何规则的分布类型。 2)影响因素多而复杂且不易控制。 3)根据研究对象的结局,生存时间数据可分为两种类型: 完全数据 (Completed Data):从观察起点到发生死亡事件所经历的时间。 不完全数据 (Incomplete Data):生存时间观察过程的截止不是由于死亡事件,而是由其他原因引起的 不完全数据分为 :删失数据(censored Data),截断数据(truncated Data) 不完全主要原因: 失访:指失去联系; 退出:死于非研究因素或非处理因素而退出研究; 终止:设计时规定的时间已到而终止观察,但研究对象仍然存活。
删失的表现形式 右删失(Right Censoring):只知道实际寿命大于某数; 左删失(Left Censoring):只知道实际寿命小于某数; 区间删失(Interval Censoring):只知道实际寿命在一个时间区间内。
条件死亡概率: 表示某时段开始存活的个体,在该时段内死亡的可能性,如年死亡概率q=某年内死亡人数/某年年初人口数,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/2
条件生存概率 (conditional probability of survival):某时段开始时存活的个体,到该时段结束时让然存活的可能性p=某年存活满一年的人数/某年年初人口数=1-q,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/2
生存函数
若含有删失数据,须分时段计算生存概率 。假定观察对象在各个时段的生存时间独立,应用概率乘法定理将分时段的概率相乘得到生存率。
生存率与条件生存概率不同。 条件生存概率是单个时段的结果,而生存率实质上是累积条件生存概率(cumulative probability of survival ),是多个时段的累积结果。例如,3 年生存率是第1 年存活,第2 年也存活,第3 年还存活的可能性。
生存率s(t)的估计方法有参数法和非参数法。 常用非参数法,非参数法主要有二个,即,乘积极限法与寿命表法,乘积极限法主要用于观察例数较少而未分组的生存资料,寿命表法适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同,当分组资料中每一个分组区间中最多只有1个观察值时,寿命表法的计算结果与乘积极限法完全相同。
生存曲线 (survival curve):以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。 生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。
中位生存期 (median survival time):又称半数生存期,表示恰好有50 %的个体尚存活的时间。中位生存期越长,表示疾病的预后越好;中位生存期越短,预后越差。估计中位生存期常用图解法或线性内插法。
概率密度函数f(t)
[图片上传失败...(image-f5d8a7-1630478089306)]
生存函数S(t)
危险函数h(t)
累计危险函数H(t)
三、生存分析目的
估计 :根据样本生存资料估计总体生存率及其它有关指标 ( 如中位生存期等 ) , 如根据脑瘤患者治疗后的生存时间资料 , 估计不同时间的生存率 、生存曲线以及中位生存期等 。 比较 :对不同处理组生存率进行比较,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。
影响因素分析 :目的是为了探索和了解影响生存时间长短的因素 , 或平衡某些因素影响后 , 研究某个或某些因素对生存率的影响 。 如为改善脑瘤病人的预后 , 应了解影响病人预后的主要因素 , 包括病人的年龄 、 性别 、 病程 、 肿瘤分期 、 治疗方案等 。 预测 :具有不同因素水平的个体生存预测 ,如根据脑瘤病人的年龄 、 性别 、 病程 、 肿瘤分期 、 治疗方案等预测该病人t 年 ( 月 )生存率 。
四、生存分析的具体方法 生存分析方法可以分为描述法、参数法、半参数法和非参数法 1.描述法 根据样本观测值提供的信息,直接用公式计算出每一个时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式显示生存时间的分布规律。 优点:方法简单且对数据分布无要求 缺点:不能比较两组或多组生存时间分布函数的区别,不能分析危险因素,不能建立生存时间与危险因素之间的关系模型。
2.非参数法 估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。 常用方法:乘积极限法、寿命表法 优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,对生存时间的分布没有要求。 缺点:不能建立生存时间与危险因素之间的关系模型。
3.参数法 根据样本观测值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。 生存时间经常服从的分布有:指数分布、Weibull分布、对数正态分布、对数Logistic分布、Gamma分布。 优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型。 缺点:需要事先知道生存时间的分布
4.半参数法 不需要对生存时间的分布做出假定,但是却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响,最著名的就是COX回归。 优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型,不需要事先知道生存时间的分布。
Cox 比例风险回归模型(Cox’s proportional hazards regression model) , 简称Cox 回归模型
如果Cox PH Model中的变量会随时间变化,那么就成了extended Cox model,此时HR不再是一个常量。很简单的例子,如果病人的居住地也是一个变量,病人有可能会搬家,例如在北京吸霾了5年,再跑去厦门生活,那么他旧病复发的概率肯定会降低。所以住所这个变量是和时间相关的。一种简单的做法是,按照变量改变的时刻,把时间切割成区间,使得每个区间内的变量没有变化。然后再套用Cox PH模型。
生存分析,是一种将生存时间和生存结果综合起来对数据进行分析的一种统计分析方法。主要用于对涉及一定时间发生和持续长度的时间数据的分析。 下面我们主要从下面四个方面来解说:
[if !supportLineBreakNewLine]
[endif]
实际应用
理论思想
建立模型
[if !supportLineBreakNewLine]
[endif]
分析结果
[if !supportLineBreakNewLine]
[endif]
一、实际应用
生存分析最早可追溯至19世纪的死亡寿命表,但现代的生存分析则开始于20世纪30年代工业科学中的相关应用。第二次世界大战极大地提高了人们对武器装备可靠性的研究兴趣,这一研究兴趣延续到战后对武器装备及商品的可靠性研究。此时生存分析的大多数研究工作都集中在参数模型,直至20世纪60~70年代,随着医学研究中大量临床试验的出现,对于生存分析的研究开始转向非参数统计方法。现在,生存分析方法在各个领域得到了广泛的应用,而这一方法本身也得到了飞速发展。生存分析广泛应用于生物医学、工业、社会科学、商业等领域,如肿瘤患者经过治疗后生存的时间、电子设备的寿命、罪犯假释的时间、婚姻的持续时间、保险人的索赔等。这类问题的 数据特点是在研究期结束时,所要研究的事件还没有发生,或过早终止,使得要收集的数据发生缺失,这样的数据即称为生存数据。 生存分析就是要处理、分析生存数据。
[if !supportLineBreakNewLine]
[endif]
二、理论思想
我们前面所学习的方法,只关注研究结果与影响因素,并没有关注结局发生的时间,而时间是一个绕不开的因素,当我们将 研究结局与结局发生的时间同时进行考虑时 ,就采用生存分析方法。
生存分析的一些基本概念:
[if !supportLineBreakNewLine]
[endif]
生存时间: 指从某个起始事件开始,到出现我们想要得到的终点事件发生所经历的时间,也称为失效时间。生存时间具有的特点:分布类型不确定,一般表现为正偏态分布;数据中常含有删失数据。SPSS中通常把完全数据的示性函数取值为0。 完全数据: 指从事件开始到事件结束,观察对象一直都处在观察范围内,我们得到了事件从开始到结束的准确时间。 删失数据: 指在研究分析过程中由于某些原因,未能得到所研究个体的准确时间,这个数据就是删失数据,又称为不完全数据。产生删失数据的原因有很多:在随访研究中大多是由于失访所造成的;在动物实验研究中大多由于观察时间已到,不能继续下去所造成的。SPSS中通常把删失数据的示性函数取值为1。 截尾数据: 截尾数据和删失数据一样,提供的也是不完整信息,但与删失数据稍有不同的是它提供的是与时间有关的条件信息。SPSS软件只考虑对完全数据和删失数据的分析,对截尾数据不提供专门的分析方法。 生存概率: 表示某单位时段开始时,存活的个体到该时段结束时仍存活的可能性。计算公式为:生存概率=活满某时段的人数/该时段期初观察人数=1-死亡概率。 生存函数: 指生存函数指个体生存时间T大于等于t的概率,又称为累积生存概率,或生存曲线。S(t)=P(Tt)=生存时间大于等于t的病人数/随访开始的病人总数。S(t)为单调不增函数,S(0)为1,S(∞)为0。 半数生存时间: 指50%的个体存活且有50%的个体死亡的时间,又称为中位生存时间。因为生存时间的分布常为偏态分布,故应用半数生存时间较平均生存时间更加严谨。 风险函数: 指在生存过程中,t时刻存活的个体在t时刻的瞬时死亡率,又称为危险率函数、瞬时死亡率、死亡率等。一般用h(t)表示。h(t)=死于区间(t,t+∆t)的病人数/在t时刻尚存的病人数×∆t。
[if !supportLineBreakNewLine]
[endif]
按照使用参数与否,生存分析的方法可以分为以下3种。
参数方法, 数据必须满足相应的分布。常用的参数模型有:指数分布模型、Weibull分布模型、对数正态分布模型、对数Logistic分布模型、Gamma分布模型。
半参数方法, 是目前比较流行的生存分析方法,相比而言,半参数方法比参数方法灵活,比非参数方法更易于解释分析结果。常用的半参数模型主要为Cox模型。
非参数方法, 当被研究事件没有很好的参数模型可以拟合时,通常可以采用非参数方法进行生存分析。常用的非参数模型包括生命表分析和Kalpan-Meier方法。
目前生存分析最常用的方法即寿命表法、Kaplan-Meier法和COX回归法。
[if !supportLineBreakNewLine]
[endif]
三、建立模型
[if !supportLineBreakNewLine]
[endif]
寿命表分析的思路:
生命表反映的是一代人在整个生命历程中的死亡过程,即在某个特定的年龄段内有多少人死亡,通过计算可以得知人群在该时点的死亡概率为多少、预期寿命为多少等。
生命表的基本思想是将整个观测时间划分为很多小的时间段,对于每个时间段,计算所有活到某时间段起点的病例在该时间段内死亡(出现结局)的概率。
因此,当资料是按照固定的时间间隔收集(如一个月随访一次)时,随访结果只有该年或该月期间的若干观察人数、发生失效事件人数(出现预期观察结果的人数)和截尾人数(删失人数),每位患者的确切生存时间无法知道,就需要构造生命表进行分析。
生命表用于大样本,并且对生存时间的分布不限,是目前广泛应用的一种非参数分析方法。。
[if !supportLineBreakNewLine]
[endif]
寿命表分析案例:
[if !supportLineBreakNewLine]
[endif]
题目:下表数据文件记录了某保险公司各部门员工的在职情况,统计的部门有承保部、理赔部、人事部和理财部4个部门,其中“部门”变量中用数字1~4分别表示承保部、理赔部、人事部和理财部,“是否在职”变量中用1表示在职,0表示不在职,接下来本书将利用寿命表过程得出各个部门员工的“生存”(在职)情况。
一、数据输入
二、操作步骤 1、进入SPSS,打开相关数据文件,选择“分析”|“生存分析”|“寿命表”命令2、从源变量列表框中选择“工作时间”变量,“时间”列表框中,然后设置时间区间的“0到(H)”值为60,“按(Y)”为3。
3、从源变量列表框中选择“是否在职”变量,选入“状态”列表框中,然后单击“定义事件”按钮,弹出“寿命表:为状态变量定义事件”对话框。由于数据文件中用1表示事件发生,所以选中“单值”单选按钮,并在其后面的文本框中输入1,将取值为0的观测作为截断观测,单击“继续”按钮。
4、从源变量列表框中选择“部门”变量,选入“因子”列表框中,然后单击“定义范围”按钮,弹出“寿命表:定义因子范围”对话框,在“最小值”文本框中输入1,在“最大值”文本框中输入4,单击“继续”按钮。
5、单击“选项”按钮,弹出“寿命表:选项”对话框,选中“寿命表”和“生存分析”复选框,“比较第一个因子的级别”选项组采用默认设置。
6、其余设置采用系统默认值即可。单击“确定”按钮,等待输出结果。
[if !supportLineBreakNewLine]
[endif]
四、结果分析
1、寿命表给出了员工在职年限寿命表输出结果(部分截选图)。该寿命表给出了4个部门对应时间内的在职和不在职员工数,并计算出员工在职比率等统计量。
2、生存分析时间中位数下表给出了4个部门员工的生存时间中位数,即生存率等于50%时,生存时间的平均水平。很明显,由图可知,该保险公司4个部门的员工有50%的员工在职时间超过60个月。
3
、累计生存函数给出了4个部门员工是否在职累计生存函数图,它是对生命表的图形展示。由图可以清楚地看到,承保部和理财部两个部门员工累计生存率下降最快,理赔部员工累计生存率下降速度低于人事部员工。
参考案例数据:
【1】spss统计分析从入门到精通 杨维忠,陈盛可,刘荣 清华大学出版社
(获取更多知识,前往gz号程式解说)
原文来自
DNF个人房间的那个冒险者游戏进去后需要花费点券或很多游戏...
cf萌兔兔活动怎么邀请好友1、cf萌兔兔活动邀请好友方法...
暗区突围电视台怎么打电视台游荡者穿着4级及以上的防具,携...
在QQ里哪个小游戏是跟王者荣耀差不多的1、乱斗荣耀游戏是...
qq游戏中心怎么订阅王者荣耀第打开手机QQ,点击动态,点...