隨機缺失下閾值和靈敏性的聯(lián)合估計

2023-05-23 08:52:02程偉麗吳瑩左衛(wèi)兵

河南師范大學(xué)學(xué)報（自然科學(xué)版） 2023年3期

程偉麗,吳瑩,左衛(wèi)兵

(1.華北水利水電大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,鄭州 450046;2.云南大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,昆明 650500)

在診斷醫(yī)學(xué)中,受試者測試特征曲線(簡稱為ROC曲線)是常用的衡量連續(xù)型診斷檢驗診斷能力的一個統(tǒng)計工具.隨著閾值的變化,正確診斷有病體的概率—靈敏性(Se)和正確診斷無病體的概率—特異性(Sp)會向相反方向變化,以1-Sp為橫坐標(biāo),以Se為縱坐標(biāo),將這些點連起來就構(gòu)成了ROC曲線.有關(guān)ROC曲線可以參看文獻(xiàn)[1].

通過一個連續(xù)性診斷檢驗值來診斷受試者是有病或者是無病,需要選擇一個閾值,最優(yōu)閾值τ的選擇非常重要.設(shè)有病體生物指標(biāo)X和無病體生物指標(biāo)Y的分布函數(shù)分別是F(·)和G(·),不失一般性,假設(shè)生物指標(biāo)值越大越易患病.給定閾值τ,則靈敏性和特異性可表示為θ(τ)=Pr(X>τ)=1-F(r)和η(τ)=Pr(Y≤τ)=G(τ).通常選擇在高特異性下的閾值,一方面這會使得閾值隨著特異性的變化而變化,另一方面高特異性下的靈敏性不一定很高.為選擇一個最優(yōu)的閾值,現(xiàn)有文獻(xiàn)提出了以下幾種方法.文獻(xiàn)[2]提出基于最大化正確分類兩總體概率之和的約當(dāng)指標(biāo)的基礎(chǔ)上選擇最優(yōu)閾值,即τ=arg maxτ|{θ(τ)+η(τ)-1}|.文獻(xiàn)[3]提出用ROC曲線中最接近最好點(0,1)的方法選擇最優(yōu)閾值,即

文獻(xiàn)[4]提出最大化靈敏性和特異性乘積的方法來確定閾值τ=arg maxτ[θ(τ)η(τ)].文獻(xiàn)[5]提出基于兩個總體被正確分類概率的基礎(chǔ)上選擇閾值,即τ=argτ{θ(τ)=η(τ)}.上面所有方法選擇的閾值有可能是相同的,但是在一般情況下不同的方法選擇的閾值是不同的.由于對稱點準(zhǔn)則容易推廣到廣義對稱點準(zhǔn)則,即τ=argτ{θ(τ)=η(τ)},ρ是靈敏性和特異性的相對重視度,若ρ=1,廣義對稱點就是標(biāo)準(zhǔn)對稱點,鑒于不需要優(yōu)化和實際分析中需要同等重視兩總體被正確診斷的概率,本文選擇基于對稱點準(zhǔn)則來確定閾值.

現(xiàn)有文獻(xiàn)中,閾值與相應(yīng)的靈敏性和特異性的估計有參數(shù)、半?yún)?shù)和非參數(shù)的方法.非參數(shù)估計由于受假定錯誤的影響少而備受關(guān)注.文獻(xiàn)[6]用經(jīng)驗似然結(jié)合光滑化估計方程的方法在給定特異性的條件下估計靈敏性.文獻(xiàn)[7]采用刀切經(jīng)驗似然結(jié)合非光滑估計方程的方法去估計給定特異性下的靈敏性.文獻(xiàn)[8]用經(jīng)驗似然結(jié)合非光滑估計方程的方法在閾值、靈敏性和特異性三者中給定任意一個參數(shù)去估計剩余的兩個參數(shù).文獻(xiàn)[9]在對稱點準(zhǔn)則下使用經(jīng)驗似然結(jié)合非光滑估計方程的方法去選擇最優(yōu)閾值和相對應(yīng)的靈敏性.因此,本文也選擇用兩樣本經(jīng)驗似然結(jié)合非光滑估計方程的非參方法.

在實際應(yīng)用中,受試者有可能會由于各種各樣的原因?qū)е律镏笜?biāo)值的缺失,比如:研究中的退出,各種不可控因素引起的信息缺失,參看文獻(xiàn)[10].因此近年來,在診斷檢驗值缺失的情形下,ROC曲線的統(tǒng)計分析受到了不少的關(guān)注.文獻(xiàn)[11-12]研究了在完全隨機缺失數(shù)據(jù)下通過隨機熱平臺插補方法得到ROC曲線的估計和區(qū)間估計.文獻(xiàn)[13]研究了隨機缺失下經(jīng)驗似然結(jié)合光滑化估計方程的方法得到高特異性下靈敏性的估計和區(qū)間估計.但光滑估計方程中窗寬的選擇是一個不易解決的問題.因此,本文研究生物指標(biāo)值隨機缺失情形基于對稱點原則下兩樣本經(jīng)驗似然結(jié)合非光滑估計方程的方法給出閾值和靈敏性的聯(lián)合估計和置信域.

1 缺失數(shù)據(jù)下閾值和靈敏性的經(jīng)驗似然估計

1.1 符號

1.2 兩樣本經(jīng)驗似然估計

在不存在缺失生物指標(biāo)的條件下,閾值、靈敏性和特異性的兩樣本經(jīng)驗似然估計如下:基于兩樣本估計方程g1i(θ,η,τ,Xi)和g2j(θ,η,τ,Yj),定義參數(shù)(θ,η,τ)的兩樣本經(jīng)驗似然比函數(shù)

其中g(shù)1i(θ,η,τ,Xi)=I(Xi≤τ)-(1-θ),i=1,2,…,m,g2j(θ,η,τ,Yj)=I(Yj≤τ)-η,j=1,2,…,n.在對稱點θ=η的要求下,上面的兩樣本經(jīng)驗似然比函數(shù)只是關(guān)于參數(shù)((θ,τ),矩函數(shù)g1i(θ,η,τ,Xi)和g2j(θ,η,τ,Yj)分別調(diào)整為g1i(θ,τ,Xi)=I(Xi≤τ)-(1-θ),i=1,2,…,m和g2j(θ,τ,Yj)=I(Yj≤τ)-θ,j=1,2,…,n.再如上定義兩樣本經(jīng)驗似然比函數(shù)是

上面的對數(shù)經(jīng)驗似然比在真值點的漸近分布是自由度為2的標(biāo)準(zhǔn)卡方分布.這里令真值點θ0,τ0分別表示θ,τ的真值,且滿足E{[g1i(θ0,τ0,Xi),g2j(θ,τ,Yj)]T}=0的唯一解.

1.3 帶有缺失數(shù)據(jù)的兩樣本經(jīng)驗似然估計

在實際應(yīng)用中,π1(Zxi)和π2(Zyj)通常是不知道的.為此,考慮傾向得分函數(shù)π1(Zxi)和π2(Zyj)是下面的logistic回歸模型:

(1)

(2)

因此,參數(shù)(θ,τ)的對數(shù)經(jīng)驗似然比函數(shù)是

(3)

2 漸近理論

為證明結(jié)論,需要如下條件.

(C1)當(dāng)min(m,n)→∞,有m/N→γ1,n/N→γ2,其中0<γ1,γ2<1.

(C3)傾向得分函數(shù)π1(Zx)和π2(Zy)滿足miniπ1(Zxi)≥c1,對某個正數(shù)c1>0,minjπ2(Zyj)≥c2對某個正數(shù)c2>0.密度函數(shù)pzx(Zx)在Zx的支撐集上有界,關(guān)于Zx至少二階連續(xù)可導(dǎo);pzy(Zy)在Zy的支撐集上有界,關(guān)于Zy至少二階連續(xù)可導(dǎo).

(C4)存在參數(shù)β0=(θ0,τ0)∈B是矩函數(shù)φ(β)=0的唯一解.參數(shù)空B是R2緊子集,且E[supβ∈B|g(β)|]<∞和E[supβ∈B|g(β)gT(β)|]每個分量都有界.

(C7)對于所有的β∈B和所有的小正數(shù)=o(1),存在一個正數(shù)C和s∈(0,1],使得2s和2s成立.

(C8)當(dāng)κ→∞時,矩函數(shù)的插補部分的條件期望mg1(β,Zx)滿足條件:(i)函數(shù)族{mg1(β,Zx),(β)∈B}是Glivenko-Cantelli;(ii)對所有的Zx∈Z存在某個1>0滿足在小鄰域N關(guān)于參數(shù)β有連續(xù)的偏導(dǎo)數(shù)?βmg1(β,Zx)=?mg1(β,Zx)/?β;E{supβ∈N1|?βmg1(β,Zx)}的每個分量都有界;(iii)存在s1∈(0,1]和某個滿足E[b(Zx)]<∞的可測函數(shù)b(Zx),對滿足1的光滑函數(shù)有當(dāng)κ→∞時,另一個矩函數(shù)的插補部分的條件期望mg2(β,Zy)有類似上面的要求條件.

條件(C1)是兩樣本的樣本量平衡的條件,條件(C2)和(C3)是缺失數(shù)據(jù)中常要求滿足的條件,條件(C4)～(C7)是非光滑矩函數(shù)需要滿足的條件,條件(C8)是非光滑矩函數(shù)的插補部分需要滿足的條件.

定理1假設(shè)上面的條件(C1)～(C8)成立,當(dāng)min(m,n)→∞和κ→∞,則有

(4)

定理2假設(shè)上面的條件(C1)～(C8)成立,當(dāng)min(m,n)→∞和κ→∞,則有

(5)

3 數(shù)值模擬

在這一節(jié),實施兩個模擬研究來調(diào)查提出方法的有限樣本表現(xiàn).為了便于比較,考慮以下幾個估計:(1)GS估計,基于完整的數(shù)據(jù)集而不考慮缺失值計算的估計;(2)CC估計,只用完全觀測數(shù)據(jù)的估計;(3)IPW估計,基于logistic傾向得分函數(shù)的逆概率加權(quán)方法的估計;(4)AIPW估計,基于logistic傾向得分函數(shù)的逆概率加權(quán)和多重插補方法得到的估計.

(a)logit{π1(Zxi)}=1,logit{π2(Zyj)}=1;

(b)logit{π1(Zxi)}=1+0.4Zxi,logit{π2(Zyj)}=1+0.4Zyj,其中l(wèi)ogit(x)=ln{x/(1-x)};

(c)π1(Zxi)=Φ(0.6+0.4Zxi),π2(Zyj)=Φ(0.6+0.4Zyj),其中Φ(·)是標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù).

這里(a)是本文1.3小節(jié)定義缺失數(shù)據(jù)機制(1)的特殊情況,即α1,1=0和α2,1=0,這對應(yīng)于完全隨機缺失情況;(b)滿足缺失數(shù)據(jù)機制(1)給定的隨機缺失數(shù)據(jù)機制下的參數(shù)模型假設(shè);(c)是隨機缺失機制,但是不滿足缺失數(shù)據(jù)機制(1)的參數(shù)模型假設(shè),這主要是對錯誤設(shè)定傾向得分模型的穩(wěn)健分析.按上面情形產(chǎn)生的平均缺失率大約在30%左右.

表1 樣本量m=n=300 3種缺失設(shè)置下靈敏性和閾值的估計

表2 樣本量m=240,n=360 3種缺失設(shè)置下靈敏性和閾值的估計

從表1可以看出,誤差項若是正態(tài)分布,在所設(shè)置的3種缺失環(huán)境下,即便是在傾向得分函數(shù)的模型假定錯誤的情形下,增廣逆概率加權(quán)估計的所有結(jié)果都接近于沒有缺失數(shù)據(jù)下基準(zhǔn)的GS的結(jié)果;在完全隨機缺失(a)下,只用觀測到數(shù)據(jù)的CC估計在標(biāo)準(zhǔn)差上比GS估計的標(biāo)準(zhǔn)差大,不過在偏差和覆蓋率上也接近于GS的結(jié)果,但是非隨機缺失(b)和(c)下,不但標(biāo)準(zhǔn)差增大,偏差也變大,覆蓋率要遠(yuǎn)小于名義水平95%;與GS估計相比,逆概率加權(quán)估計的標(biāo)準(zhǔn)差雖然增大,但是偏差變化不大,覆蓋率卻遠(yuǎn)大于名義水平95%,這很可能是由于權(quán)重估計的不穩(wěn)定造成的.若誤差項是非正態(tài)分布,表2有相似的模擬結(jié)果表現(xiàn).將誤差項是正態(tài)分布和非正態(tài)分布情形3種缺失機制下閾值和靈敏性95%的非參置信域顯示(圖1),其中上面3個圖是正態(tài)分布誤差項下3種缺失機制(從左到右依次是a,b和c)的聯(lián)合置信域,下面3個圖是非正態(tài)分布誤差項下3種缺失機制(從左到右依次是a,b和c)的聯(lián)合置信域,點圖是CC,實線是本文提出的方法.從圖1中可以看出這兩種估計是有差別的.