董小剛,趙立妍,劉新蕊,王純杰
(長(zhǎng)春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,吉林 長(zhǎng)春 130012)
在醫(yī)學(xué)、生物學(xué)、可靠性工程學(xué)、公共衛(wèi)生學(xué)、保險(xiǎn)精算學(xué)以及人口統(tǒng)計(jì)學(xué)等學(xué)科的研究中,常常無(wú)法觀測(cè)到研究個(gè)體的準(zhǔn)確失效時(shí)間,只知道它發(fā)生在觀測(cè)時(shí)間之前還是之后,即為區(qū)間Ⅰ型刪失數(shù)據(jù)[1].在生存問(wèn)題中,若對(duì)眾多協(xié)變量直接進(jìn)行處理,可能會(huì)導(dǎo)致“維數(shù)災(zāi)難”問(wèn)題,因此對(duì)變量進(jìn)行降維是十分必要的.近年來(lái),Lasso[2-3]和SCAD[4]等變量選擇方法應(yīng)用廣泛.然而這些方法需要在特定模型下進(jìn)行考慮,具有一定的局限性.1991年,K.C.Li[5]提出了切片逆回歸(Sliced Inverse Regression,SIR)這一非參數(shù)降維方法,該方法不需要對(duì)模型進(jìn)行假設(shè),且具有容易實(shí)施的特點(diǎn);在此基礎(chǔ)上,R.D.Cook[6]、B.Li和S.Wang[7]提出了SIR的改進(jìn)方法;T.Hsing和R.J.Carroll[8]、L.Zhu和K.Ng[9]研究了SIR方法在不同切片范圍下其估計(jì)量的性質(zhì);1999年K.C.Li[10]提出了雙切片逆回歸的方法,并首次將SIR方法推廣至刪失數(shù)據(jù)的分析中;此后,W.Lu和L.Li[11]對(duì)右刪失數(shù)據(jù)進(jìn)行線(xiàn)性無(wú)偏變換,然后運(yùn)用SIR方法進(jìn)行降維;M.Shevlyakova[12]通過(guò)對(duì)刪失數(shù)據(jù)賦予相同的權(quán)重,將SIR方法運(yùn)用于右刪失數(shù)據(jù)中;J.K.Yoo[13]采取了兩種右刪失數(shù)據(jù)變換方法對(duì)SIR方法進(jìn)行了改進(jìn).在現(xiàn)有研究中,很多都是右刪失數(shù)據(jù)下的SIR方法,然而關(guān)于區(qū)間Ⅰ型刪失數(shù)據(jù)下SIR方法的研究較少,因此將SIR方法推廣到區(qū)間Ⅰ型刪失數(shù)據(jù)中十分必要.
本文根據(jù)區(qū)間Ⅰ型刪失數(shù)據(jù)的特點(diǎn),采用了3種不同的切片方式:構(gòu)造權(quán)重矩陣、改進(jìn)SIR方法以及對(duì)協(xié)變量進(jìn)行充分降維,在模擬研究中驗(yàn)證該方法的有效性,并將其運(yùn)用于實(shí)例分析中.
區(qū)間Ⅰ型刪失的觀測(cè)值可以表示為
Di={Ci,δi,Xi},i=1,2,…,n.
其中:Ci為觀測(cè)時(shí)間;δi=I(Ti≤Ci);Ti為生存時(shí)間;Xi為與生存時(shí)間有關(guān)的p維協(xié)變量.
SIR是一種經(jīng)典的充分降維方法,也可以對(duì)變量進(jìn)行選擇.降維模型為
當(dāng)滿(mǎn)足這個(gè)條件時(shí),逆回歸曲線(xiàn)落在由有效降維方向決定的降維子空間內(nèi)[4].
根據(jù)區(qū)間Ⅰ型刪失數(shù)據(jù)特點(diǎn),考慮了3種切片方式:方式1對(duì)δi=1(i=1,2,…,n),即左刪失的個(gè)體進(jìn)行切片,將其觀測(cè)時(shí)間范圍切成S個(gè)不重疊的區(qū)間;方式2將δi=0(i=1,2,…,n),即右刪失個(gè)體的觀測(cè)時(shí)間切為S個(gè)不重疊的區(qū)間;方式3將所有的觀測(cè)時(shí)間Ci(i=1,2,…,n)切成S個(gè)不重疊的區(qū)間.
當(dāng)?shù)趇個(gè)個(gè)體落入第s(s=1,2,…,S)個(gè)切片內(nèi)時(shí),若δi=1,即個(gè)體左刪失,則認(rèn)為個(gè)體感興趣事件在時(shí)刻Ci之前是等可能發(fā)生的;若δi=0,即個(gè)體右刪失,則認(rèn)為個(gè)體感興趣事件在時(shí)刻Ci之后是等可能發(fā)生的,由此給出權(quán)重矩陣.例如,考慮7個(gè)觀測(cè)數(shù)據(jù)(見(jiàn)表1).
表1 觀測(cè)數(shù)據(jù)
選擇切片個(gè)數(shù)S=4,方法1的切片區(qū)間為(0,7],(7,10],(10,15],(15,∞);方法2為(0,8],(8,12],(12,14],(14,∞);方法3為(0,7],(7,10],(10,14],(14,∞).3種方法對(duì)應(yīng)的權(quán)重矩陣如表2—4所示.
表2 方法1權(quán)重矩陣
表3 方法2權(quán)重矩陣
表4 方法3權(quán)重矩陣
分別運(yùn)用以上3種不同的方法進(jìn)行切片,但計(jì)算權(quán)重矩陣的思想是相同的.以方法1權(quán)重矩陣為例.當(dāng)個(gè)體左刪失時(shí),如觀測(cè)時(shí)間點(diǎn)10落在第二個(gè)切片內(nèi),其感興趣事件等可能發(fā)生在前兩個(gè)切片內(nèi);當(dāng)個(gè)體右刪失時(shí),如觀測(cè)時(shí)間點(diǎn)12落在第三個(gè)切片2/5處,該切片后面3/5和第四切片內(nèi)感興趣事件均可能發(fā)生,則第三個(gè)切片的權(quán)重為3/8,第四切片的權(quán)重為5/8.其他的同理.
根據(jù)上述權(quán)重矩陣來(lái)改進(jìn)切片逆回歸,算法步驟為:
(1)將X=(X1,X2,…,Xn)T標(biāo)準(zhǔn)化為Z,即
(3)計(jì)算每個(gè)切片內(nèi)Z的樣本均值
其中W為權(quán)重矩陣;
(4)構(gòu)建加權(quán)協(xié)方差矩陣
(6)將其轉(zhuǎn)化回原來(lái)的尺度
在充分降維的過(guò)程中,確定中心降維子空間的維數(shù)K十分重要,直接影響了降維結(jié)果.為此,1991年,K.C.Li[4]提出了一個(gè)χ2檢驗(yàn)來(lái)確定維數(shù)K.
根據(jù)p值可以確認(rèn)SIR中心降維子空間的維數(shù).當(dāng)K=k時(shí),根據(jù)上述公式計(jì)算對(duì)應(yīng)的p值,若得到的p值小于顯著水平α,則拒絕原假設(shè),即維數(shù)大于k,應(yīng)繼續(xù)進(jìn)行檢驗(yàn),直到所計(jì)算的p值大于α,即接受原假設(shè).此時(shí)對(duì)應(yīng)的k值即為降維維數(shù).
為了驗(yàn)證所提方法的有效性,考慮使用SIR來(lái)對(duì)區(qū)間Ⅰ型刪失數(shù)據(jù)下的加速失效模型(AFT)進(jìn)行模擬研究.令
Y=ln(T)=βTX+ε.
依據(jù)中心降維空間的估計(jì)值與真實(shí)值之間多元相關(guān)系數(shù)的平方(R2)來(lái)判斷降維模型的好壞:
表5 方法1的SIR估計(jì)和標(biāo)準(zhǔn)差
表6 方法2的SIR估計(jì)和標(biāo)準(zhǔn)差
續(xù)表6
表7 方法3的SIR估計(jì)和標(biāo)準(zhǔn)差
表8 多元相關(guān)系數(shù)的平方(R2)
表5—7分別展示了在3種切片方式下,SIR估計(jì)結(jié)果和對(duì)應(yīng)的標(biāo)準(zhǔn)差.從上述結(jié)果中可以看出,3種切片方法在不同的刪失比下估計(jì)值與真實(shí)值均較為接近.在不同的誤差分布下,估計(jì)結(jié)果之間的差異不大.隨著樣本量增大,估計(jì)的準(zhǔn)確性提高,標(biāo)準(zhǔn)差逐漸減小.
如表8所示,3種切片方法在不同刪失比下,R2較大,降維效果較好.在不同的誤差設(shè)置時(shí),R2數(shù)值相差不大.隨著樣本量的增加,R2也逐漸增大.即樣本量越大,估計(jì)的中心降維子空間的估計(jì)值與真實(shí)值更接近.
本節(jié)將SIR方法應(yīng)用于大鼠膽管增生數(shù)據(jù)中.數(shù)據(jù)來(lái)源于1977—1980年美國(guó)衛(wèi)生與公眾服務(wù)部依據(jù)國(guó)家毒理學(xué)計(jì)劃(NTP)對(duì)多溴苯混合物(PBB)進(jìn)行的毒理學(xué)和致癌生物測(cè)定實(shí)驗(yàn)[14].實(shí)驗(yàn)中,對(duì)出生7或8周的344只雌雄大鼠分6種劑量注射PBB.其中有314只大鼠的膽管增生患病率數(shù)據(jù)是可用的.該數(shù)據(jù)的變量含義如表9所示.
表9 變量說(shuō)明
使用χ2檢驗(yàn)選取1維的中心降維子空間,3種切片對(duì)應(yīng)SIR估計(jì)結(jié)果如表10所示.
表10 SIR變量選擇結(jié)果
根據(jù)表10可知,3種切片方法下協(xié)變量系數(shù)相差不大.由系數(shù)大小可知,PDD的劑量、大鼠的性別與大鼠的初始體重對(duì)膽管增生患病率影響較大,籠子層數(shù)的影響較小.在方法2和方法3中,X4的系數(shù)接近于0,可以剔除該變量.但在方法1中,該變量系數(shù)不能認(rèn)為接近于0,即不能直接剔除.
本文通過(guò)賦予等權(quán)重方法構(gòu)造權(quán)重矩陣,把切片逆回歸方法推廣到區(qū)間Ⅰ型刪失數(shù)據(jù)中,將重要變量選取出來(lái).研究表明,此方法估計(jì)結(jié)果與真實(shí)值非常接近,標(biāo)準(zhǔn)差較小.在不同切片方法與不同刪失比下,其結(jié)果相差并不明顯.實(shí)證分析顯示,推廣后的切片逆回歸方法可以將影響膽管增生患病率的重要變量選取出來(lái).
由于僅討論區(qū)間Ⅰ型刪失數(shù)據(jù)下切片逆回歸方法,其他數(shù)據(jù)類(lèi)型的切片逆回歸方法仍需進(jìn)一步考慮.本文僅考慮協(xié)變量個(gè)數(shù)小于樣本個(gè)數(shù)的情況,對(duì)于超高維數(shù)據(jù),可以進(jìn)一步討論.