季文奇,馮 予
(南京理工大學(xué) 理學(xué)院, 南京 210094)
右刪失數(shù)據(jù)下廣義線性模型的統(tǒng)計(jì)診斷
季文奇,馮 予
(南京理工大學(xué) 理學(xué)院, 南京 210094)
研究了帶有右刪失數(shù)據(jù)的廣義線性模型的統(tǒng)計(jì)診斷問(wèn)題。首先構(gòu)造了右刪失數(shù)據(jù)下的似然函數(shù),推導(dǎo)出了參數(shù)的極大似然估計(jì)?;跀?shù)據(jù)刪除模型,推導(dǎo)出了數(shù)據(jù)刪除前后參數(shù)估計(jì)的一階近似公式,推廣了廣義Cook距離和似然距離等用來(lái)判定異常點(diǎn)或強(qiáng)影響點(diǎn)的診斷統(tǒng)計(jì)量,并證明了兩者的等價(jià)性。最后通過(guò)實(shí)際數(shù)據(jù)分析,驗(yàn)證了該理論的正確性和實(shí)用性。
廣義線性模型;右刪失數(shù)據(jù);極大似然估計(jì);廣義Cook距離;似然距離
統(tǒng)計(jì)診斷是數(shù)理統(tǒng)計(jì)學(xué)中的一個(gè)重要分支,主要研究數(shù)據(jù)對(duì)模型的影響,最基本的方法是數(shù)據(jù)刪除法[1]。廣義線性模型[2]可以分析不同類型的數(shù)據(jù),包括缺失數(shù)據(jù)[3-4]、刪失數(shù)據(jù),近幾年在缺失數(shù)據(jù)下應(yīng)用研究很多,但在刪失數(shù)據(jù)下的研究較少。右刪失數(shù)據(jù)是當(dāng)前生存分析中研究的最重要的數(shù)據(jù)類型。本文在最廣泛的廣義線性模型框架下,研究了右刪失數(shù)據(jù)的統(tǒng)計(jì)診斷問(wèn)題,具有重要的理論意義和應(yīng)用價(jià)值。
1.1 右刪失數(shù)據(jù)下的廣義線性模型
設(shè)(x1,y1),(x2,y2),…,(xn,yn)表示n個(gè)可以觀察的數(shù)據(jù)點(diǎn),其中yi∈R是獨(dú)立的隨機(jī)變量,xi∈Rp是給定的自變量,yi服從自然形式的指數(shù)族分布,則廣義線性模型(GLM)定義為
(1)
其中:β為未知參數(shù);g(·)為嚴(yán)增可微函數(shù),稱為聯(lián)系函數(shù)(link function);yi的密度函數(shù)可表示為
式中θi稱為自然參數(shù),并記μ=(μ1,…,μn)T,θ=(θ1,…,θn)T。根據(jù)指數(shù)族分布的性質(zhì),有
由于yi右刪失,觀測(cè)值yi為:① -∞ 1.2 右刪失數(shù)據(jù)下的似然函數(shù) 設(shè)Y1,Y2,…,Yn是來(lái)自分布F的獨(dú)立同分布隨機(jī)變量,通常稱為生存時(shí)間,一般為非負(fù),其概率密度函數(shù)為f(x,θ),θ為未知參數(shù)。如果存在右刪失時(shí)間Ci(i=1,2,…,n),其分布為G。假設(shè)Yi和Ci相互獨(dú)立,記Zi=min(Yi,Ci),δi=I(Ci≤Yi),實(shí)際觀察樣本為(Zi,δi),則刪失數(shù)據(jù)下的似然函數(shù)[5]為 1.3 模型的極大似然估計(jì) 對(duì)于模型(1) ,設(shè)yi服從自然形式的指數(shù)族分布,其分布函數(shù)為F,從而似然函數(shù)為 取對(duì)數(shù)得 其中h(yi)不依賴于β,對(duì)估計(jì)β無(wú)影響,故可略去,從而對(duì)數(shù)似然函數(shù)為 對(duì)于右刪失數(shù)據(jù),考慮如下的情形[6]:① -∞ (2) e(β)=Y-μ(β),ei(β)=yi-μi(xi,β); 其中:i=1,2,…,n;a,b=1,2,…,p;D(β)、Dθ(β)和J(β)為n×p階矩陣;W(β)、Wθ(β)和K(β)為n×p×p階立體陣;M是前r個(gè)分量為1的n×1列向量;N是n階方陣;I是n-r階方陣。 證明 計(jì)算l(β)關(guān)于β的導(dǎo)數(shù)時(shí),始終把θi視為中間變量,由式(2)對(duì)β求導(dǎo)得到 (3) 所以 該式代入式(3)即可得到第2式。式(3)繼續(xù)求導(dǎo)可得 βi+1=βi+[-MTK(βi)+DT(βi)NV-1(βi)D(βi)]-1·[JT(βi)M+DT(βi)V-1(βi)Ne(βi)] 2.1 數(shù)據(jù)刪除模型 要評(píng)價(jià)第i個(gè)數(shù)據(jù)點(diǎn)(xi,yi)在回歸分析中的作用與影響,可比較第i個(gè)點(diǎn)(xi,yi)刪除前后統(tǒng)計(jì)推斷結(jié)果的變化,用以觀測(cè)該點(diǎn)是否為異常點(diǎn)或強(qiáng)影響點(diǎn),刪除第i(r+1≤i≤n)個(gè)點(diǎn)以后的模型稱為數(shù)據(jù)刪除模型?;跀?shù)據(jù)刪除模型,對(duì)于模型(1),本研究只刪除觀測(cè)到的數(shù)據(jù)部分,對(duì)右刪失的數(shù)據(jù)點(diǎn)不討論異常點(diǎn)問(wèn)題??紤]模型(1)中刪除第i個(gè)數(shù)據(jù)點(diǎn)(xi,yi)以后的模型,以及刪除后參數(shù)的估計(jì),這個(gè)刪除模型可以表示為 其中觀測(cè)值yj為如下的情形: 1) -∞ 2)yj為確切已知值,r+1≤j≤n。 (4) 其中:D(i)(β)為D(β)刪除第i行以后的(n-1)×p階矩陣;V(i)(β)為V(β)刪除第i行、第i列以后的(n-1)×(n-1)階對(duì)角陣;e(i)(β)為e(β)刪除第i點(diǎn)以后的n-1維向量。 (5) 證明 記: I(β)=ST(β)U(β) 將該式代入式(4)可得 利用和式求逆公式得 故 即 (6) 由于r+1≤i≤n,所以nii=1,故 故由式(6)即可得到式(5)。證明完畢。 2.2 模型的診斷統(tǒng)計(jì)量 2.2.1 廣義Cook距離 其中:M為正定的權(quán)矩陣;c>0為尺度因子。本文取 M=I(β)=-MTK+DTNV-1D,c=1 其中P=-MTK+DTV-1ND。 2.2.2 似然距離 除了正態(tài)線性模型等少數(shù)模型之外,似然距離一般沒(méi)有顯式解,因此實(shí)用上主要依靠數(shù)值解和近似解。本研究采用似然距離的1階近似公式 由此可知,廣義Cook距離和似然距離的2階近似相等。 通過(guò)實(shí)例進(jìn)行分析,驗(yàn)證帶有右刪失數(shù)據(jù)的廣義線性模型的統(tǒng)計(jì)診斷的有效性。先進(jìn)行參數(shù)估計(jì),再觀察標(biāo)準(zhǔn)殘差值和廣義Cook距離,判定模型的異常點(diǎn)或強(qiáng)影響點(diǎn)。 表1數(shù)據(jù)[9]為50位急性淋巴細(xì)胞白血病病人生存數(shù)據(jù)。在入院治療時(shí)取得了外轅血中的細(xì)胞數(shù)(x1,千個(gè)/mm3),淋巴結(jié)浸潤(rùn)等級(jí)(x2,分為0,1,2,3級(jí))以及出院后有無(wú)鞏固治療(x3,“1”表示有鞏固治療,“0”表示無(wú)鞏固治療),通過(guò)隨訪取得病人的生存時(shí)間,并以變量y=0表示生存時(shí)間在1a以內(nèi),y=1表示生存時(shí)間在1a或1a以上。關(guān)于x1,x2,x3和y的觀測(cè)數(shù)據(jù),用Logistic回歸模型分析病人生存時(shí)間的概率與x1,x2,x3的關(guān)系: 考慮到y(tǒng)的前5個(gè)數(shù)據(jù)右刪失,假設(shè)yi>a≡0(1≤i≤5)。數(shù)據(jù)如表1所示。 表1 生存數(shù)據(jù) 3.1 參數(shù)估計(jì) 針對(duì)這個(gè)數(shù)據(jù),可以求出參數(shù)β的估計(jì)值: 3.2 影響分析 在參數(shù)估計(jì)的基礎(chǔ)上,對(duì)其進(jìn)行殘差分析,并計(jì)算廣義Cook距離。圖1、圖2分別是標(biāo)準(zhǔn)化殘差和廣義Cook距離的散點(diǎn)圖。 從圖1、圖2可以看出:第7、11、13、16個(gè)觀測(cè)點(diǎn)的數(shù)值較大。從圖2中可直接看出:第11、13、16號(hào)點(diǎn)異于其他的點(diǎn),而且這些異常點(diǎn)不涉及刪失部分。綜合以上分析可知,第11、13、16號(hào)點(diǎn)為異常點(diǎn)。 圖1 殘差圖 本文在最廣泛的廣義線性模型框架下,主要研究了右刪失數(shù)據(jù)下廣義線性模型的統(tǒng)計(jì)診斷問(wèn)題,首先得到了參數(shù)的極大似然估計(jì),基于數(shù)據(jù)刪除模型,推導(dǎo)出了數(shù)據(jù)刪除前后估計(jì)量之間的關(guān)系式;根據(jù)這個(gè)關(guān)系式,提出了廣義Cook距離、似然距離等診斷統(tǒng)計(jì)量;最后通過(guò)實(shí)際數(shù)據(jù)分析,驗(yàn)證了統(tǒng)計(jì)診斷方法的有效性和正確性。 [1] 翟爽.基于數(shù)據(jù)刪除的廣義線性模型診斷方法[D].哈爾濱:東北林業(yè)大學(xué)理學(xué)院,2012. [2] 光琳,宗序平.Logistic模型的統(tǒng)計(jì)診斷[J].江南大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,11(1):113-117. [3] 閆莉,陳夏.缺失數(shù)據(jù)下廣義線性模型的經(jīng)驗(yàn)似然推斷[J].統(tǒng)計(jì)與信息論壇,2013,28(2):14-17. [4] 閆莉,陳夏.響應(yīng)變量隨機(jī)缺失下廣義線性模型的經(jīng)驗(yàn)似然[J].陜西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,43(3):1-5. [5] 周勇.廣義估計(jì)方程估計(jì)方法[M].北京:科學(xué)出版社,2013. [6] 胡宏昌,崔恒建,秦永松,等.近代線性回歸分析方法[M].北京:科學(xué)出版社,2013. [7] COOK R D.Detection of influential observations in linear regression[J].Technometrics,1977,19:15-18. [8] 韋博成,林金官,解鋒昌.統(tǒng)計(jì)診斷[M].北京:高等教育出版社,2009. [9] 薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007. (責(zé)任編輯 林 芳) Statistical Diagnostics for Generalized Linear Models with Right-Censored Data JI Wenqi, FENG Yu (School of Science, Nanjing University of Science and Technology, Nanjing 210094, China) This paper investigates statistical diagnosis problem of the generalized linear models with right-censored data. First, we derive the likelihood function under right-censored data to obtain maximum likelihood estimates for the parameters. Based on the case-deletion models and using the first order Taylor approximation of parameter estimates, we then propose the diagnostic tools such as the generalized cook distance and the likelihood distance to determine outfielders and/or influential cases in the data. We also prove the equivalence of two distances. Finally, we use a real data example to verify the efficiency and feasibility of the proposed diagnostic methods. generalized linear model; right-censored data; maximum likelihood estimation; generalized cook distance; likelihood distance 2017-03-22 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(11271189) 季文奇(1992—),女 ,山東濟(jì)寧人,碩士研究生,主要從事概率論與數(shù)理統(tǒng)計(jì)研究,E-mail:875063250@qq.com。 季文奇,馮予.右刪失數(shù)據(jù)下廣義線性模型的統(tǒng)計(jì)診斷[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2017(8):174-181. format:JI Wenqi, FENG Yu.Statistical Diagnostics for Generalized Linear Models with Right-Censored Data[J].Journal of Chongqing University of Technology(Natural Science),2017(8):174-181. 10.3969/j.issn.1674-8425(z).2017.08.029 O212 A 1674-8425(2017)08-0174-082 模型診斷
3 實(shí)例分析
4 結(jié)束語(yǔ)
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2017年8期
——基于改進(jìn)的DEA交叉模型與聚類分析