连享会直播课堂:滑一下就找到我们了
效率分析专题(TFP·DEA·SFA)
生存分析专题
本文选自知乎文章,作者:WANG
一、Logistic回归模型概述Logistic回归为概率型非线性回归模型,是研究二分类观察结果
与一些影响因素之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是否患有某种病。
LR分类器在分类情形下,经过学习后的LR分类器(LogisticRegressionClassifier)是一组权值
,当测试样本的数据输入时,这组权值与测试数据按照线性加权得到,见公式1。其中
是每个样本的
个特征。
接着,按照sigmoid函数的形式计算,见公式2。由于sigmoid函数的定义域为
,值域为
,如图1所示。因此,最基本的LR分类器适合对两类目标进行分类。因此,Logistic回归最关键的问题就是研究如何求得
。
Logistic回归考虑具有
个独立变量的向量
,设条件概率
为根据观测量相对于某事件
发生的概率。那么Logistic回归模型可以表示为:
同理,在
条件下
不发生的概率为:
因此,事件发生与不发生的概率比为:
这个比值称为事件的发生比odds,对odds取对数得到:
模型训练针对上述问题的参数求解采用极大似然估计。假设有
个观测样本
,观测值分别为
,设
为给定条件下得到
的概率。同样的,
的概率为
。因此,得到一个观测值的概率为:
假设各个观测样本之间满足独立同分布,因此其联合分布为各边缘分布的乘积,得到似然函数为:
因此,参数估计的目标为求出使
值最大的参数
。对函数
求对数得到:
继续对这
个
分别求偏导,得到
个方程,例如对参数
求偏导可以得到:
令上述偏导等于0即是求解
的极大似然估计值
。一般来说,上述导数无法解析求解,因此常常借助其他方法求解,例如:梯度下降、随机梯度下降、改进的梯度下降等,此处从略。
二、生存分析概述基本概念事件(Event)指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。
生存时间(Survivaltime)指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。
删失(Sensoring)指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。
生存函数(Survivalfunction)又叫累积生存率,该函数的意义是生存时间大于时刻
的概率,
时
。见公式11,其中
为生存时间。
严格来说,生存函数应该被称为生存时间分布函数,如公式12:
生存率
的估计包括参数法和非参数法。常用的非参数法包括:
乘积极限法(Kaplan-Meier法):主要用于观察例数较少而未分组的小样本资料;
寿命表法:适用于观察例数较多且分组的大样本资料;
例如:Kaplan-Meier法又称乘积极限法(product-limit,PL法):利用条件概率及概率的乘法原理计算生存率及其标准误差
将生存时间由小到大依次排列,在每个死亡点上,计算其期初人数、死亡人数、死亡概率、生存概率和生存率。
中位生存时间(mediansurvivaltime)生存时间中位数,表示50%的个体可存活的时间,即生存率为50%时对应的生存时间。
风险函数(HazardFunction)是生存到时间
的病人在时间
的瞬时死亡率或条件死亡速率,用
表示:
即
Cox比例风险模型介绍将生存函数/风险函数表示为某些相关的自变量的一个函数,见公式15:
其中,
为基础风险函数(baselinesurvivalfunction),它是全部协变量都为0或标准状态下的风险函数,一般是未知的。
表示当各协变量值固定时的风险函数,它和
成比例。各偏回归系数根据样本数据,采用极大似然估计取得,这一点与Logistic回归模型一致,即:
风险比(HazardRatio,HR),理论上约等于相对危险度(RiskRatio,RR)
三、风险评估CVD患病风险(LifeTimeRisk)定义时刻
,
的CVD患病风险
等于时刻
的CVD患病风险
加上时刻
存活的病人在时刻
瞬间患病的概率,即:
为时刻
的生存率,10年患病风险即
的患病风险,代入公式15可得:
定义30岁为基础风险函数起始时刻
生存时间间隔
在时刻
时相对于30岁的CVD患病基础风险函数为:
其中,
在时刻
时相对于30岁的非CVD死亡基础风险函数为:
其中,
在时刻
时的累计生存率为总体去掉CVD患病概率和非CVD死亡概率后的概率,即:
时刻
的CVD患病风险为:
例如:10年CVD患病风险为:
初次患病中位年龄
参考中位生存时间,当生存率
时对应的时刻
初次患病年龄
心脏年龄(HeartAge)
计算方法见公式26:
其中[公式]的值参考如下(参数来源于JBS3论文):
连享会直播课堂:滑一下就找到我们了
??扫码加入连享会
热点文章
最近更新
推荐文章