基于线性回归的动脉粥样硬化生存分析模型

文章来源:脑动脉硬化   发布时间:2020-8-31 13:47:06   点击数:
  白癜风诊疗体系 http://pf.39.net/bdfyy/qsnbdf/200813/8116388.html

连享会直播课堂:滑一下就找到我们了

效率分析专题(TFP·DEA·SFA)

生存分析专题

本文选自知乎文章,作者:WANG

一、Logistic回归模型概述

Logistic回归为概率型非线性回归模型,是研究二分类观察结果

与一些影响因素之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是否患有某种病。

LR分类器

在分类情形下,经过学习后的LR分类器(LogisticRegressionClassifier)是一组权值

,当测试样本的数据输入时,这组权值与测试数据按照线性加权得到,见公式1。其中

是每个样本的

个特征。

接着,按照sigmoid函数的形式计算,见公式2。由于sigmoid函数的定义域为

,值域为

,如图1所示。因此,最基本的LR分类器适合对两类目标进行分类。因此,Logistic回归最关键的问题就是研究如何求得

Logistic回归

考虑具有

个独立变量的向量

,设条件概率

为根据观测量相对于某事件

发生的概率。那么Logistic回归模型可以表示为:

同理,在

条件下

不发生的概率为:

因此,事件发生与不发生的概率比为:

这个比值称为事件的发生比odds,对odds取对数得到:

模型训练

针对上述问题的参数求解采用极大似然估计。假设有

个观测样本

,观测值分别为

,设

为给定条件下得到

的概率。同样的,

的概率为

。因此,得到一个观测值的概率为:

假设各个观测样本之间满足独立同分布,因此其联合分布为各边缘分布的乘积,得到似然函数为:

因此,参数估计的目标为求出使

值最大的参数

。对函数

求对数得到:

继续对这

分别求偏导,得到

个方程,例如对参数

求偏导可以得到:

令上述偏导等于0即是求解

的极大似然估计值

。一般来说,上述导数无法解析求解,因此常常借助其他方法求解,例如:梯度下降、随机梯度下降、改进的梯度下降等,此处从略。

二、生存分析概述基本概念

事件(Event)指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。

生存时间(Survivaltime)指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。

删失(Sensoring)指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。

生存函数(Survivalfunction)又叫累积生存率,该函数的意义是生存时间大于时刻

的概率,

。见公式11,其中

为生存时间。

严格来说,生存函数应该被称为生存时间分布函数,如公式12:

生存率

的估计包括参数法和非参数法。常用的非参数法包括:

乘积极限法(Kaplan-Meier法):主要用于观察例数较少而未分组的小样本资料;

寿命表法:适用于观察例数较多且分组的大样本资料;

例如:Kaplan-Meier法又称乘积极限法(product-limit,PL法):利用条件概率及概率的乘法原理计算生存率及其标准误差

将生存时间由小到大依次排列,在每个死亡点上,计算其期初人数、死亡人数、死亡概率、生存概率和生存率。

中位生存时间(mediansurvivaltime)生存时间中位数,表示50%的个体可存活的时间,即生存率为50%时对应的生存时间。

风险函数(HazardFunction)是生存到时间

的病人在时间

的瞬时死亡率或条件死亡速率,用

表示:

Cox比例风险模型介绍

将生存函数/风险函数表示为某些相关的自变量的一个函数,见公式15:

其中,

为基础风险函数(baselinesurvivalfunction),它是全部协变量都为0或标准状态下的风险函数,一般是未知的。

表示当各协变量值固定时的风险函数,它和

成比例。各偏回归系数根据样本数据,采用极大似然估计取得,这一点与Logistic回归模型一致,即:

风险比(HazardRatio,HR),理论上约等于相对危险度(RiskRatio,RR)

三、风险评估CVD患病风险(LifeTimeRisk)

定义时刻

的CVD患病风险

等于时刻

的CVD患病风险

加上时刻

存活的病人在时刻

瞬间患病的概率,即:

为时刻

的生存率,10年患病风险即

的患病风险,代入公式15可得:

定义30岁为基础风险函数起始时刻

生存时间间隔

在时刻

时相对于30岁的CVD患病基础风险函数为:

其中,

在时刻

时相对于30岁的非CVD死亡基础风险函数为:

其中,

在时刻

时的累计生存率为总体去掉CVD患病概率和非CVD死亡概率后的概率,即:

时刻

的CVD患病风险为:

例如:10年CVD患病风险为:

初次患病中位年龄

参考中位生存时间,当生存率

时对应的时刻

初次患病年龄

心脏年龄(HeartAge)

计算方法见公式26:

其中[公式]的值参考如下(参数来源于JBS3论文):

连享会直播课堂:滑一下就找到我们了

??扫码加入连享会

转载请注明:http://www.gwbvm.com/jbzz/10892.html