• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高維生存分析數(shù)據(jù)在帶有測(cè)量誤差情形下的變量選擇方法*

      2023-01-11 13:07:42張家睿吳耀華
      關(guān)鍵詞:高維測(cè)量誤差乘法

      張家睿,吳耀華

      (1 中國(guó)科學(xué)技術(shù)大學(xué)管理學(xué)院, 合肥 230026; 2 香港大學(xué)浙江科學(xué)技術(shù)研究院, 杭州 310000)

      在過(guò)去10年里分子生物學(xué)試驗(yàn)技術(shù)的進(jìn)展給我們帶來(lái)了豐富的生物醫(yī)學(xué)數(shù)據(jù),舉例來(lái)說(shuō),DNA顯微序列可以用來(lái)測(cè)量一個(gè)細(xì)胞中成千上萬(wàn)的基因。這種類型的數(shù)據(jù)中樣本維度p比樣本量n要大得多,對(duì)于傳統(tǒng)的統(tǒng)計(jì)推斷方法來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn),有很多經(jīng)典的推斷方法在這種情況下變得不適用。這種情形下有效的變量選擇方法就變得尤為重要。比較著名的高維數(shù)據(jù)變量選擇方法有Lasso[1],SCAD[2]和MCP[3]等。

      當(dāng)研究關(guān)于患者生存狀態(tài)的醫(yī)療數(shù)據(jù)時(shí),將高維的生物醫(yī)療數(shù)據(jù)和患者的生存狀態(tài)數(shù)據(jù)結(jié)合起來(lái)分析是一個(gè)很有效的方法。因此近些年來(lái)也有很多關(guān)于高維生存分析模型的變量選擇方法,比如Bradic等[4]關(guān)于高維Cox模型的正則化方法,Gorst-Rasmussen和Scheike[5]關(guān)于高維單指數(shù)模型的篩選方法,Lin和Lyu[6]關(guān)于高維可加模型的正則化方法等等。高維生存分析模型還廣泛地應(yīng)用到信用風(fēng)險(xiǎn)分析,比如Fan等[7]。

      由于在實(shí)際生活中,我們經(jīng)常會(huì)遇到帶有測(cè)量誤差的數(shù)據(jù),所以對(duì)于帶有測(cè)量誤差數(shù)據(jù)的分析方法也是一個(gè)重要的研究方向,對(duì)于高維線性模型有Loh和Wainwright[8]以及Datta和Zou[9]的相關(guān)工作;對(duì)于變系數(shù)模型,有劉智凡等[10]的工作。對(duì)于帶有測(cè)量誤差的生存分析數(shù)據(jù)的變量選擇方法,代表文章有Song和Wang[11]關(guān)于工具變量的工作,Chen和Yi[12]關(guān)于Cox模型左截?cái)嘤覄h失數(shù)據(jù)的工作。高維生存分析模型由于其計(jì)算復(fù)雜度較高以及理論性質(zhì)較為復(fù)雜,所以對(duì)于帶有測(cè)量誤差的高維生存分析數(shù)據(jù)的工作隨著近些年大數(shù)據(jù)的迅速發(fā)展才逐步出現(xiàn)在視野之中。具有代表性的文章有Chen和Yi[13]關(guān)于高維生存分析圖模型的工作以及Chen等[14]關(guān)于高維Cox模型利用糾正似然函數(shù)的工作。本文選擇同樣具有重要應(yīng)用的可加風(fēng)險(xiǎn)模型作為基礎(chǔ),結(jié)合處理高維線性模型的正則化方法對(duì)帶有測(cè)量誤差的生存分析數(shù)據(jù)進(jìn)行分析。

      1 研究背景

      本文所采用的模型為高維可加風(fēng)險(xiǎn)模型,結(jié)合高維線性模型測(cè)量誤差處理辦法對(duì)帶有測(cè)量誤差的生存分析數(shù)據(jù)進(jìn)行分析。下面對(duì)高維可加風(fēng)險(xiǎn)模型和高維線性模型測(cè)量誤差處理方法分別進(jìn)行介紹。

      1.1 高維可加風(fēng)險(xiǎn)模型

      對(duì)于生存分析數(shù)據(jù)的變量選擇技術(shù)的發(fā)展已經(jīng)不拘泥于Cox模型,可加風(fēng)險(xiǎn)模型便是除Cox模型以外的一種重要替代方式??杉语L(fēng)險(xiǎn)模型假設(shè)失效時(shí)間為T(mén)的風(fēng)險(xiǎn)函數(shù)和p維的協(xié)變量X(·)有如下形式的關(guān)系

      (1)

      其中:λ0(·)是一個(gè)不確定的基線風(fēng)險(xiǎn)函數(shù),β0是一個(gè)p維的回歸系數(shù)。令C為刪失時(shí)間,則定義刪失失效時(shí)間為CFT=C∧T,令CFT=t1,…,tn,失效指數(shù)定義為δ=I(T≤C),其中I(·)為指示函數(shù),令X(t)=(X1(t),…,Xp(t))并且假設(shè)給定X觀察到的數(shù)據(jù)為(CFT,δ,X(·)),風(fēng)險(xiǎn)函數(shù)由式(1)給出。

      采用常用的計(jì)數(shù)手段,定義觀察到的失效計(jì)數(shù)序列為Ni(t)=I(ti≤t,δi=1),風(fēng)險(xiǎn)中指數(shù)為Yi(t)=I(ti≥t),計(jì)數(shù)過(guò)程鞅為

      (2)

      后文也將用N(t),Y(t)和M(t)來(lái)代表這些計(jì)數(shù)過(guò)程的廣義形式。

      Lin和Ying[15]采用一種有如下形式的偽得分方程來(lái)對(duì)可加風(fēng)險(xiǎn)模型進(jìn)行分析:

      {dNi(t)-Yi(t)βTXi(t)dt},

      (3)

      其中β∈p,并且

      (4)

      τ是最大的跟蹤時(shí)間(生存時(shí)間和刪失時(shí)間的最大值)。這個(gè)估計(jì)函數(shù)關(guān)于回歸系數(shù)是線性的,令

      (5)

      (6)

      其中v?2=vvT,通過(guò)一些代數(shù)變換,可以寫(xiě)出如下等式

      U0(β)=b0-V0β.

      (7)

      在沒(méi)有測(cè)量誤差的情況下,V0是半正定的,式(7)兩邊關(guān)于β積分就可以得到損失函數(shù)

      (8)

      Leng和Ma[16]以及Martinussen和Scheike[17]都建議用上述損失函數(shù)配合正則化方法對(duì)可加風(fēng)險(xiǎn)模型(1)進(jìn)行變量選擇。本文的相關(guān)工作也是在此基礎(chǔ)上進(jìn)行。

      1.2 高維線性模型測(cè)量誤差數(shù)據(jù)的處理方法

      為了進(jìn)一步構(gòu)建更深層次的討論,假設(shè)觀察到的是被污染的協(xié)變量矩陣

      Z(·)=(zij(·))1≤i≤n,1≤j≤p,

      (9)

      而不是真實(shí)的協(xié)變量矩陣X(·)。有很多種造成測(cè)量誤差的途徑,在加法測(cè)量誤差設(shè)定中,zi,j(·)=xi,j(·)+ai,j,其中A(·)=(ai,j)是加法測(cè)量誤差。在乘法測(cè)量誤差設(shè)定中,zi,j(·)=xi,j(·)mi,j,其中mi,j就是乘法測(cè)量誤差。缺失數(shù)據(jù)可以看作乘法測(cè)量誤差的一個(gè)特殊形式,mi,j=I(xi,j(·)沒(méi)缺失)。

      不失一般性,用Lasso算法來(lái)舉例說(shuō)明測(cè)量誤差的影響,對(duì)于線性模型y=Xβ+來(lái)說(shuō),Lasso算法是最小化

      (10)

      這等價(jià)于最小化

      (11)

      (12)

      然后解決下面的優(yōu)化問(wèn)題來(lái)得到β的估計(jì):

      (13)

      (14)

      其中R是一個(gè)跟稀疏度有關(guān)的常數(shù)。Datta和Zou[9]提出一種最近鄰正定投影矩陣的算法來(lái)解決上述問(wèn)題,對(duì)于任意方陣K:

      (15)

      (16)

      (17)

      2 帶有測(cè)量誤差的高維可加風(fēng)險(xiǎn)模型的變量選擇方法

      2.1 簡(jiǎn)化偽得分方程

      在第1節(jié)中已經(jīng)介紹了Lin和Ying[15]的偽得分方程的具體形式,下面將在協(xié)變量X期望值為0的前提下簡(jiǎn)化該偽得分方程,提出一種全新的更加容易計(jì)算且符合實(shí)際情況的損失函數(shù)。首先定義

      (18)

      以及

      (19)

      則有

      (20)

      接著定義

      (21)

      由于X的期望為0,所以容易得到E(U(β))=0,在如上定義的基礎(chǔ)上,類似于式(7),有

      U(β)=b-Vβ,

      (22)

      式(22)對(duì)β積分即可得到期望為0時(shí)的損失函數(shù)

      (23)

      綜上所述即為簡(jiǎn)化版本的損失函數(shù),我們將基于這個(gè)損失函數(shù)進(jìn)行變量選擇。

      2.2 兩種測(cè)量誤差數(shù)據(jù)的變量選擇方法

      2.2.1 加法測(cè)量誤差

      假設(shè)觀測(cè)到的設(shè)計(jì)矩陣Z(·)被加法測(cè)量誤差污染,即zi,j(·)=xi,j(·)+ai,j,其中A(·)=(ai,j)。同時(shí)假設(shè)A的行是獨(dú)立同分布的,均值是0,協(xié)方差矩陣是ΣA,次高斯參數(shù)是τ2。假設(shè)ΣA是已知的,則V和b的無(wú)偏估計(jì)分別為

      (24)

      (25)

      (26)

      2.2.2 乘法測(cè)量誤差

      (27)

      以及

      (28)

      其中∥代表向量或者矩陣對(duì)應(yīng)元素相除。和加法測(cè)量誤差模型類似,乘法測(cè)量誤差下無(wú)偏估計(jì)矩陣也有可能不是正定的,所以基于Datta和Zou[9]的方法,可以得到相應(yīng)的凸損失函數(shù):

      (29)

      3 理論性質(zhì)

      在這一節(jié)中給出并推導(dǎo)估計(jì)量的l1和l2誤差界。記我們的估計(jì)量為CoCo估計(jì)量。首先定義近鄰條件:

      (30)

      (31)

      對(duì)所有1≤i,j≤p成立。其中集合S={1,2,…,s}是回歸系數(shù)β的支撐集。

      同樣也需要和線性模型下一樣的特征值限制條件:

      條件3.2協(xié)方差陣特征值限制條件

      (32)

      條件3.2是一個(gè)在高維線性模型變量選擇中比較常見(jiàn)的假設(shè)。下面給出CoCo估計(jì)量的統(tǒng)計(jì)誤差界:

      定理3.1在式(30)、式(31)和式(32)成立的前提下,對(duì)于λ≤min(ε0,12ε0‖βS‖∞)和ε≤min(ε0,Ω/64s),下式至少以概率

      (33)

      其中

      (34)

      引理3.1說(shuō)明加法測(cè)量誤差的計(jì)算方法滿足近鄰條件。下面將對(duì)乘法測(cè)量誤差進(jìn)行說(shuō)明。為了保證乘法測(cè)量誤差的計(jì)算方法也滿足近鄰條件,需要添加額外的正則化條件如下:

      (35)

      則接下來(lái)有

      引理3.2說(shuō)明了乘法測(cè)量誤差的計(jì)算方法滿足近鄰條件。將引理3.1,引理3.2和定理3.1結(jié)合有

      推論3.1給出了加法測(cè)量誤差估計(jì)方法和乘法測(cè)量誤差估計(jì)方法的理論保證,確定了估計(jì)量l1和l2的誤差界,下面將通過(guò)隨機(jī)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)分析來(lái)驗(yàn)證我們的理論結(jié)果。

      4 實(shí)驗(yàn)及結(jié)果分析

      本文的方法簡(jiǎn)記為CoCo,Loh和Wainwright[8]的方法記為NCL,在隨機(jī)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)分析中將對(duì)兩種方法進(jìn)行比較。

      4.1 隨機(jī)模擬

      4.1.1 加法測(cè)量誤差模型

      從可加風(fēng)險(xiǎn)模型中產(chǎn)生數(shù)據(jù),設(shè)定λ0=5,回歸系數(shù)為

      β=(3,1.5,0,0,2,…,0).

      (36)

      樣本量n=100,樣本維度p=200,X的行獨(dú)立同分布,均值為0,協(xié)方差矩陣為ΣX,考慮兩種情形下的ΣX:自回歸(ΣX,ij=0.5|i-j|)和復(fù)合對(duì)稱(ΣX,ij=0.5+I(i=j)*0.5),刪失時(shí)間服從U(0,2)的均勻分布使得刪失率維持在20%左右。首先生成3n×p的X,然后從中選出n個(gè)滿足λ0+βTX>0的樣本作為實(shí)驗(yàn)數(shù)據(jù)。加法測(cè)量誤差為矩陣A,觀測(cè)數(shù)據(jù)由Z=X+A生成,A的行是服從N(0,τ2I)的獨(dú)立同分布變量,其中τ=0.25、0.5和0.75。

      表1展示了CoCo和NCL兩種方法分別在自回歸和復(fù)合對(duì)稱條件下的100次重復(fù)實(shí)驗(yàn)的結(jié)果,可以看出在兩種情形下本文方法的選對(duì)數(shù)量和估計(jì)的均方誤差方面都比NCL方法要好。

      表1 加法測(cè)量誤差兩種方法的結(jié)果Table 1 The results of two methods under additive error-in-variable data

      4.1.2 乘法測(cè)量誤差模型

      與加法測(cè)量誤差模擬類似,依舊從可加風(fēng)險(xiǎn)模型中產(chǎn)生數(shù)據(jù),λ0=5,回歸系數(shù),樣本量和樣本維度都保持不變,X的行獨(dú)立同分布,均值為0,協(xié)方差矩陣為ΣX,依舊考慮ΣX在自回歸和復(fù)合對(duì)稱兩種條件下的情形,并且與加法測(cè)量誤差中的設(shè)定保持一致。刪失時(shí)間服從U(0,2)的均勻分布使得刪失率維持在20%左右,首先生成3n×p的X,然后從中選出n個(gè)滿足λ0+βTX的作為實(shí)驗(yàn)數(shù)據(jù)。乘法測(cè)量誤差矩陣為M=((mi,j)),觀測(cè)數(shù)據(jù)由Z(·)=X(·)⊙M生成,log(mi,j)是服從N(0,τ2I)的獨(dú)立同分布變量,其中τ=0.25、0.5和0.75。與上一個(gè)隨機(jī)模擬實(shí)驗(yàn)一樣,依舊采用5折的交叉驗(yàn)證方法來(lái)估計(jì)CoCo估計(jì)量和NCL的參數(shù)R。同樣記錄C和IC分別代表選對(duì)的系數(shù)數(shù)量和錯(cuò)誤的數(shù)量,還記錄均方誤差(MSE)以及其標(biāo)準(zhǔn)差(se)。總共進(jìn)行100次實(shí)驗(yàn)取平均數(shù)作為最后的結(jié)果,在表2中展示。

      表2展示了乘法測(cè)量誤差中,CoCo和NCL兩種方法分別在自回歸和復(fù)合對(duì)稱條件下的100次重復(fù)實(shí)驗(yàn)結(jié)果,可以看出在兩種情形下本文方法的選對(duì)數(shù)量和估計(jì)的均方誤差都比NCL方法要好。但是隨著測(cè)量誤差變大,CoCo和NCL方法的估計(jì)精確度都會(huì)有明顯下降。

      表2 乘法測(cè)量誤差兩種方法的結(jié)果Table 2 The results of two methods under multiplicative error-in-variable data

      4.2 實(shí)際數(shù)據(jù)分析

      為了檢驗(yàn)我們方法的有效性,將295個(gè)樣本隨機(jī)分成包含235個(gè)樣本的訓(xùn)練集和60個(gè)樣本的驗(yàn)證集并重復(fù)100次,在每一次實(shí)驗(yàn)中,都采用隨機(jī)模擬實(shí)驗(yàn)中的兩種方法,即CoCo和NCL,用訓(xùn)練集訓(xùn)練模型參數(shù)并用驗(yàn)證集來(lái)篩選表現(xiàn)最好的估計(jì)量。計(jì)算

      (37)

      作為檢驗(yàn)兩種方法效果的指標(biāo)。具體的結(jié)果展示在表3中。從表3中可以看出我們的方法依舊有比較高的預(yù)測(cè)精確度,這也和隨機(jī)模擬實(shí)驗(yàn)的結(jié)果相符。我們方法的指標(biāo)相比NCL方法要好一些,并且變量選擇的數(shù)量上也比較相近。

      表3 加法測(cè)量誤差情形下兩種方法應(yīng)用在乳腺癌數(shù)據(jù)中的結(jié)果Table 3 The results of two methods in breast cancer data under additive measurement error

      5 結(jié)論

      本文提出一種針對(duì)高維可加風(fēng)險(xiǎn)模型中帶有測(cè)量誤差情況下的變量選擇方法。在已知的生存分析數(shù)據(jù)相關(guān)文獻(xiàn)中,尚未有針對(duì)測(cè)量誤差數(shù)據(jù)的變量選擇方法。本文基于高維線性模型測(cè)量誤差數(shù)據(jù)的估計(jì)方法,重構(gòu)了高維可加風(fēng)險(xiǎn)模型,并給出了加法和乘法兩種測(cè)量誤差模型的變量選擇算法。簡(jiǎn)化偽得分方程的形式更加簡(jiǎn)潔且實(shí)用性強(qiáng)。隨機(jī)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)分析的相關(guān)結(jié)果證實(shí)了本文方法的有效性和精確性。

      在未來(lái)的工作中,我們將致力于將簡(jiǎn)化偽得分方程應(yīng)用于高維可加風(fēng)險(xiǎn)模型的變量選擇中。同時(shí)也會(huì)對(duì)Cox模型,加速失效模型等其他生存分析模型中的測(cè)量誤差數(shù)據(jù)利用最近鄰半正定投影的方法進(jìn)行變量選擇方面的探索。

      猜你喜歡
      高維測(cè)量誤差乘法
      算乘法
      密度測(cè)量誤差分析
      我們一起來(lái)學(xué)習(xí)“乘法的初步認(rèn)識(shí)”
      《整式的乘法與因式分解》鞏固練習(xí)
      縱向數(shù)據(jù)下變系數(shù)測(cè)量誤差模型的漸近估計(jì)
      把加法變成乘法
      一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
      基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
      一般非齊次非線性擴(kuò)散方程的等價(jià)變換和高維不變子空間
      牽引變壓器功率測(cè)量誤差分析
      五寨县| 永昌县| 井陉县| 峨眉山市| 资阳市| 东乌珠穆沁旗| 进贤县| 广平县| 特克斯县| 大渡口区| 九龙坡区| 陇西县| 淮安市| 页游| 亳州市| 屏东县| 南部县| 六安市| 西乡县| 宁阳县| 西城区| 绥阳县| 泗洪县| 聊城市| 宜城市| 社旗县| 改则县| 环江| 邯郸市| 古蔺县| 布拖县| 荥经县| 南岸区| 宣汉县| 安陆市| 阳东县| 南通市| 内丘县| 夏邑县| 青海省| 万盛区|