093月

R学习笔记07 — 净重新分类指数(NRI)的计算原理与方法_解说国自然的专栏文章_微信文章

题记:目前的本文笔者议论毛重行分类指数(Net ReclassificationIndex, NRI的计算规律与办法,迎将专家批判雅正。。

1. 背景幕布知

毛重行分类指数(NRI)同样定额与序所述DCA剖析有同工异曲之处(R学问笔记 05 — Decision 海湾方针决策海湾绘制,同样定额概要的用于评价评价实验中新的评价定额较旧评价定额把商量物体停止好的分类在编号上的不同。由于笔者可以评价评价受考验预测的准确。,它也可以用来判别预测用模子做的准确。,从颁发的临床商量著作中,NRI被更广为流传地地用于有点两种预测用模子做的准确。。两种预测用模子做的准确度和辨别度都是DESC。,普通计算C统计量(R学问笔记) 02 — Logistic回归达到目的C统计量计算办法,或许ROC海湾下的面积是AUC。,C统计量或AUC有必然的起限制作用的规则。:

1. C统计量/AUC不敷敏捷。,当笔者想在原始用模子做中引入新的定额时,,用模子做的预测生产率买到借款吗?,此刻,新增定额偶然难以胜过C-STA。,增量时常不完全地。; 

2. C-MISTA/AUC的专业含意吃力地拘押。,很难将其转变为漂亮的的临床解说。。NRI克复了这两个不正确的。。

2. 计算规律

笔者率先以两个分类评价定额为例停止阐明。,那时的将其敷用药于P的预测生产率的定量有点。,前者通常是手工计算的。,后者需求统计软件。。复杂来讲,旧评价定额会把商量物体分类为有耐性的和非有耐性的,新的评价基准将有耐性的重行分类为有耐性的和非P。这是有点新的。、商量大群人陈腐评价定额的分类不同,你会找到某个商量物体。,这在旧评价定额中是不正确的的。,但它在新评价定额中被好的分类。;也有某个商量课题。,在前的好的分类在旧评价定额中。,但在新的评价定额中,它被不正确的分类。,去,商量物体的分类是新的。、旧评价定额会有不同。,笔者运用这种重行分类。,来计算毛重行分类指数NRI[1,2]。课文读了挑选。,翻阅下面的计算程序来帮忙化食。。

率先,范围评价C将受试者分为两组。,那时的,别离在这两组,范围新的、旧评价定额的预测与分类水果,一套成两对成双的的四次表式。,如表1所示。表2。下面。。

表1。 病笃的重行分类

发病群体N1

新定额

旧线索

男子气概的

负的

男子气概的

a1

b1

负的

c1

d1

表2。 健康大群人分类

b2

健康组N2

新定额

旧线索

男子气概的

负的

男子气概的

a2

负的

c2

d2

笔者首要关怀对商量物体的重行分类。,从书桌上可以看出。,在发病群体总额为N1),新评价定额分类好的而旧线索分类不正确的的有c1个别的,新定额分类不正确的而旧线索分类好的的有b1个别的,去,新用模子做优于旧用模子做。,好的分类改良的求出比值为(C1-B1) N1。同样地,非有耐性的组(总人数为N2),新评价定额分类好的而旧线索分类不正确的的有b2个别的,新定额分类不正确的而旧线索分类好的的有c2个别的,这么新评价定额相大约旧线索好的分类借款的求出比值为(b2-c2)/ N2。决定性的,团结组和非有耐性的组的水果,将新用模子做与旧用模子做停止了有点。,毛重行分类指数NRI= (c1-b1)/ N1+(b2-c2) / N2,普通称为相对NRI。

假定NRI>0,这是确实的的改良。,阐明新定额比旧线索的预测生产率有所胜过;假定NRI<0,则为负胜过,新定额预测生产率下降;假定NRI=0,则以为新用模子做缺席胜过。笔者可以经过计算Z统计量,来判别NRI与0相比设想具有统计学显著性,统计量Z近似服从正态分布,腔调如下图1.,范围Z值可计算P值。

图的Z统计量的计算腔调

由于是两个类别的评价定额的每一范例。,不管到什么程度,预测用模子做类时常更复杂。,但基本基础是两者都的。。范围两个分类定额最接近的,偶然也过于SIM。,商量人员能够更关怀将来时的某种具体疾病的风险。,预测用模子做可以预约某种具体疾病或起点事情的概率。。拿 … 来说,商量物体范围预测分为低。、中、高危三组,有针对性的打断可以更有针对性。。大约这种水果,风险概率是三个分类或更多的分类。,ROC剖析是不恰当的。,由于ROC剖析的水果通常是两个分类变量。,将ROC剖析的敷用药环境归纳到三分类,ROC海湾可以出现包围外形。,恋爱特有的烦恼。,如果绘制也不克不及最接近的有点两种预测用模子做的AUC。,更难以解说其意思。,NRI可以澄清地处理这些成绩。。NRI是方式处理这些成绩的?

颁发于统计 这是MED胶卷盒的文件分类,它关涉NRI的分类。,商量人员运用著名的弗雷明汉。 专心学问是根底。,在经典的用模子做中就任HDL HDL-C指数。,将来时的10年冠状动脉心脏病预测生产率的借款。商量人员率先有点了新的。、旧用模子做的ROC海湾,水果传达:、旧制作模型的AUC是,就任HDL-C后,新的预测用模子做AUC增强。,多样化无统计学意思(P)。,传达新用模子做缺席完全地胜过。,如图2所示。。随后,商量者更远的根究了冠状动脉心脏病的冒险的事概率。,本着 <6%, 6-20%, >20% 分为低、中、较高的三组,原始倒转术达到目的表如图3所示。,并计算了NRI,Z=,P<,具有统计学显著性,提示在就任了新的生物表示物后,新用模子做的预测生产率有所胜过,好的分类的求出比值借款了。

图2。 新、旧用模子做ROC海湾的有点

/script>

图3。 重行分类的花样在原提供免费入场券被截取。

由于基础均已做完。,下面是方式经过R软件计算NRI。。笔者需求在这边区别对待局面。,1. 假定只孤独地计算每一新二分类评价定额较旧线索评价生产率借款稍微,请参阅下面的腔调。,在互联网网络上也有神灵编制的R边境居民的特殊风习计算;2. 因为Logistic回归的两种预测用模子做的NRI计算;3. 因为Cox回归的两种预测用模子做的NRI计算〔3〕。就R中NRI的计算办法每个人可参阅下表3。,笔者专注于计算NRI[4-6]因为NICRIES包。,提议该程序包用于NRI计算。。

表3。 NRI的封装可以用R计算。

3. 文件分类演示

(1) 两种分类水果

示例记载因为暗示包达到目的Mayo诊所记载。,记载了418位有耐性的的临床定额与首要的擦破性硬变(PBC)的相干。前312位有耐性的因为RCT商量。,停止有耐性的因为队列商量。。笔者用前312例有耐性的的记载来预测2000地利间点上设想产生亡故。这边需求解说的是原始记载是每一暗示记载。,笔者重行使明确两个分类的水果。,亡故或 生存,轻视工夫要素。先训练记载。,如图4所示。。此表达到目的终极变量是状况。,0 = 阻止(截尾),1 = 赞成肝免职,2 = 亡故。亡故与否的商量目的是两个范围变量。,因而笔者需求做变量交替工作。。再看一下工夫栏。,有些是不敷的2000天。,这些战利品在不到2000天内就亡故了。,或许它被砍掉了。。笔者需求砍掉2000天内砍掉的记载。。记载中变量的停止决定的含意可以排序。:? 人民银行视角。

图4。 记载创作

R边境居民的特殊风习行为准则和水果的解说

##here consider pbc dataset in survival package as an example

library(nricens)

dat= 中国人民银行〔1:312〕,]

dat$sex= ifelse(dat$sex==”f”, 1, 0)

砍掉少于2000天的阻止记载。

dat= dat[ dat$time > 2000 | (dat$time < 2000 & dat$status == 2), ]

##“[ 指令过滤环境,| 表达或,为了调和。因而环境句执意dat达到目的time一列大于2000的保存,或以内2000,但同时也保存亡故状况。。决定性的每一“,”别忘了,其在环境句的后面表现对列停止选择,以后,选择行。,这行是在这边配制品的。。

##predciting the event of 亡故 before 2000 days

event= ifelse(dat$time < 2000 & dat$status == 2, 1, 0)

使明确工夫水果事情<2000,且status为2(亡故)时,记为1,否则为0。

##standard prediction model: age, bilirubin, and albumin

= 矩阵(使分裂(DAT), select = C(年纪), bili, 清蛋白)

DAT记载集的使分裂是用变量建筑的的。:age,bili, albumin,并将其设为矩阵创作。

##new prediction model: age, bilirubin, albumin, and protime

= 矩阵(使分裂(DAT), select = C(年纪), bili, albumin, 介词工夫)

DAT记载集的使分裂是用变量建筑的的。:age,bili, albumin, protime,并将其设为矩阵创作。

##glm fit (逻辑学) 用模子做)

mstd= GLM(事情) ~ ., 二项的(logit), (事情), ), x=TRUE)

mnew= GLM(事情) ~ ., 二项的(logit), (事情), ), x=TRUE)

两种逻辑学回归用模子做的安装,mstd 和mnew,后者比前者更具变量。。X=Trand是将来时的NICSES信息分类计算局需求的。,指令输入记载设想包括所运用的记载表。。

##predicted risk

= mstd$fitted.values

p.new= mnew$fitted.values

别离计算了两种用模子做的预测风险。

做完了是你这么说的嘛!Logistic回归用模子做。。

##Calculation of risk category NRI using (””, ””).

nribin(= mstd, mdl.new = mnew, cut = c(0.2, 0.4),

       niter = 1000, updown = 类别

##Calculation of risk difference NRI using (事情), ””, ””).

nribin(事情)= event, = , = , cut = c(0.2, 0.4),

       niter = 1000, updown = 类别

##Calculation of risk difference NRI using (事情), ””, ””).

nribin(事情)= event, = , p.new = p.new, cut = c(0.2, 0.4),

       niter = 1000, updown = 类别

##Calculation of risk difference NRI using (””, ””).

/script>

nribin(= mstd, mdl.new = mnew, cut = , niter = 0,

       updown = 多样化

##Calculation of risk difference NRI using (事情), ””, ””).

nribin(事情)= event, = , = , cut = ,

       niter = 1000, updown = 多样化

##Calculation of risk difference NRI using (事情), ””, ””).

nribin(事情)= event, = , p.new = p.new, cut = ,

       niter = 1000, updown = 多样化

新旧两种用模子做的准确度有点。缺口是判别风险程度的关键指定。,现时笔者曾经写了2页。,也执意说,0~20%是低风险。,方法风险20%~40%,40%~100%是高风险。范围实际情况决定风险区别对待的国界线值。,相当于将延续风险概率区别对待为秩序的风险。。UpDead是一种使明确范本风险的办法。,范围是分类牺牲。,即低、中、高风险;寂静其他的多样化。,为延续值。选择多样化时,割集1个值。,譬如,即以为当预测的风险在新旧用模子做中争吵2%时,这被以为是一种重行分类。。NITER是迭代次数。,也执意说,重采样的次数。,计算NRI的基准误差需求经过重采样来计算。,假定设置为0,则要紧缺席计算NRI的基准误差。,迭代次数设置为1000次。,假定它太大,它需求高级的的计算职业。,计算能够需求很长工夫。,自然,设置越大,准确度越高。。反省比例alpha普通设置为。

首要水果如图5所示。图6。下面。:

图5。 在个人财产出路中中、男子气概的出路、负面水果的重行分类表(文件分类应该是穿插的),把持识透出路并缺席产生。

图6。 Re山姆后的NRI点估计、基准误差和可靠区间。新格局重行分类的求出比值高于旧模仿。,换句话说,每一新的预测VAR用模子做的预测准确度。,新制作模型比旧制作模型差。。

(2) 暗示材料

文件分类记载与是你这么说的嘛!记载同样的。。暗示记载与分类水果暗中的NRI多样化是,去,笔者率先发展每一新的和旧的Cox回归用模子做。,计算NRI。在这两个用模子做中。

R边境居民的特殊风习行为准则和水果的解说

##here consider pbc dataset in survival package as an example

/script>

library(nricens)

dat= 中国人民银行〔1:312〕,]

dat$sex= ifelse(dat$sex==”f”, 1, 0)

##predciting the event of 亡故

time= dat$time

event= ifelse(dat$status==2, 1, 0)

##standard prediction model: age, bilirubin, and albumin

= 矩阵(使分裂(DAT), select = C(年纪), bili, 清蛋白)

##new prediction model: age, bilirubin, albumin, and protime

= 矩阵(使分裂(DAT), select = C(年纪), bili, albumin, 介词工夫)

##coxph Cox暗示职务用模子做的安装建筑的

mstd= (工夫),事情) ~ ., (工夫),event,), x=TRUE)

mnew= (工夫),事情) ~ ., (工夫),event,), x=TRUE)

##predicted risk at t0=2000,亡故风险的2000地利间点

= get.risk.coxph(mstd, t0=2000)

p.new= get.risk.coxph(mnew, t0=2000)

新上文、Cox回归用模子做做完。,并计算了新的2000天。、陈腐用模子做计算的亡故风险

##Calculation of risk category NRI

##by the KM estimator using (””, ””).

nricens(= mstd, mdl.new = mnew, t0 = 2000, cut = c(0.2, 0.4),

        niter = 1000, updown = 类别

##by the KM estimator using (工夫), 事情, ””, ””).

nricens(工夫)= time, event = event, = , = ,

        t0 = 2000, cut = c(0.2, 0.4), niter = 1000,updown = 类别

##by the KM estimator using (工夫),事情,””,””).

nricens(工夫)= time, event = event, = , p.new = p.new,

/script>

        t0 = 2000, cut = c(0.2, 0.4), niter = 1000,updown = 类别

##Calculation of risk difference NRI by the KM estimator

nricens(= mstd, mdl.new = mnew, t0 = 2000, updown = 迪夫,

        cut = , niter = 1000, updown =类别

##Calculation of risk difference NRI by the IPW estimator

nricens(= mstd, mdl.new = mnew, t0 = 2000, updown = 迪夫,

        cut = , point.method = IPW, niter= 1000, updown = 类别

限制因素解说与分类水果。

首要水果如图7所示。图8。下面。:

图7。 在个人财产出路中中、男子气概的出路、负面水果的重行分类表(文件分类应该是穿插的),把持识透出路并缺席产生。

图8。 NRI点估计和可靠区间的计算水果。新格局重行分类的求出比值高于旧模仿。,换句话说,增强预测变量的新用模子做更精密的。。

本章对NRI的计算停止了阐明。。鄙人一章中,笔者将引见另每一线索IDI(集成)。 Discrimination Improvement,专业综合考试判别改良指数的计算办法。

4. 翻阅著作

[1] Alba A C, Agoritsas T, Walsh M, et al.Discrimination and Calibration of Clinical Prediction Models: 用户的 Guides 向 Medical Literature [J]. Jama, 2017, 318(14): 1377-84.

[2] Pencina M J, D”Agostino R B, Sr., D”AgostinoR B, Jr., et al. Evaluating the added predictive ability of a new marker: fromarea under the ROC curve to reclassification and beyond [J]. Statistics inmedicine, 2008, 27(2): 157-72; discussion 207-12.

/script>

[3] 

[4] Pencina MJ, D”Agostino RB, Steyerberg EW. Extensions of net reclassificationimprovement calculations to measure usefulness of new 生物表示物 Statistics inMedicine 2011.

[5] Uno H, Tian L, Cai T, Kohane IS, Wei LJ。 A unified inferenceprocedure for a class of measures to assess improvement in risk predictionsystems with survival data, Statistics in Medicine 2012.

[6] Hsu CH, Taylor JMG。 A robust weighted Kaplan-Meier approach fordata with dependent censoring using linear combinations of prognosticcovariates, Statistics in Medicine 2010.

发表评论

电子邮件地址不会被公开。 必填项已用*标注