劉永睿,王朋炎
1.安陽工學(xué)院,河南安陽,455000;2.安陽學(xué)院,河南安陽,455000
復(fù)合次序模型是研究因變量為分類數(shù)據(jù)時的統(tǒng)計模型,是廣義線性模型的推廣,在生物學(xué)、醫(yī)學(xué)、金融學(xué)、社會學(xué)等領(lǐng)域中都有著廣泛的應(yīng)用,是一種重要的處理因變量為離散型隨機(jī)變量的統(tǒng)計模型。因變量是分類數(shù)據(jù)的問題在諸多學(xué)科中都是非常常見的,而傳統(tǒng)模型多應(yīng)用于因變量是連續(xù)型的,因此復(fù)合次序模型的理論挖掘越來越受到學(xué)者們的重視,該模型的應(yīng)用也存在著廣泛的空間,備受學(xué)者們的關(guān)注。另外,隨著科技的發(fā)展,數(shù)據(jù)的收集和存儲變得越來越容易,人們開始不僅關(guān)心數(shù)據(jù)間的因果關(guān)系,更關(guān)心數(shù)據(jù)間的數(shù)學(xué)關(guān)系,從而使得數(shù)據(jù)分析中的數(shù)據(jù)維度不斷增加。而在協(xié)變量維數(shù)pn→∞時,模型的性質(zhì)往往存在著未知的變化,因此研究模型估計的大樣本漸近性質(zhì)成為了統(tǒng)計學(xué)領(lǐng)域的一個熱點,也是大數(shù)據(jù)時代的發(fā)展需要。傳統(tǒng)的廣義線性模型只能處理因變量相互獨立的數(shù)據(jù),而對于處理縱向數(shù)據(jù)則容易產(chǎn)生較大的誤差,因為縱向數(shù)據(jù)間往往具有一定的相關(guān)性,從而造成模型的估計不再滿足無偏性,因此傳統(tǒng)的廣義線性模型不再適用。1986年,Liang和Zeger首先提出了可用于分析縱向數(shù)據(jù)的廣義估計方程(GEE)[1],該統(tǒng)計模型在傳統(tǒng)廣義線性模型的基礎(chǔ)上克服了縱向數(shù)據(jù)間的時間相依性,經(jīng)過長時間的應(yīng)用和實踐,廣義估計方程已經(jīng)能夠處理多種類型的縱向數(shù)據(jù),是目前應(yīng)用較為廣泛的分析縱向數(shù)據(jù)的工具之一。理論上廣義估計方程可應(yīng)用于各類廣義線性模型下的縱向資料的分析領(lǐng)域。因變量的數(shù)據(jù)類型已涉及連續(xù)型和離散型,離散型的數(shù)據(jù)有二項分布、多項分布、Poisson分布等,但相關(guān)理論尚不完善。Wang在其文章中研究了因變量為二分類縱向數(shù)據(jù)的GEE估計的存在性、相合性以及正態(tài)性[2-3],二分類數(shù)據(jù)的GEE是在Logistic模型上的拓展,而對于多分類(大于2)數(shù)據(jù)的GEE,其模型和估計還有待研究。
本文研究的因變量Y是屬于多項分布離散型隨機(jī)變量,觀測數(shù)據(jù)為縱向數(shù)據(jù),在Logit模型的基礎(chǔ)上建立了復(fù)合次序模型,并建立了該模型的廣義估計方程,本文重點討論模型估計的存在性和有效性,在大樣本的情況下,給出該模型廣義估計方程估計的存在性、相合性以及漸近正態(tài)性定理,其研究結(jié)果將為多分類縱向數(shù)據(jù)的統(tǒng)計分析提供一種新的思路。
復(fù)合次序模型是一般線性模型的推廣,屬于廣義線性模型,主要用來分析因變量Y為分類變量,比如Y取k個“狀態(tài)”,其中的個別狀態(tài)又可細(xì)分為更具體的狀態(tài),各個狀態(tài)之間又具有明顯的次序特征。如某種藥物的療效可分為:治愈、好轉(zhuǎn)、顯效和無效。而第二類好轉(zhuǎn)又分為明顯好轉(zhuǎn)和微小好轉(zhuǎn),第三類顯效又分為明顯顯效、輕微顯效。復(fù)合次序模型首先對大類進(jìn)行建模,然后再對每個小類進(jìn)行建模,構(gòu)成復(fù)合型的次序模型[4]。
其中,
方差記為:
即,
這是經(jīng)典的Logit模型。
為方便證明,本文給出以下模型假設(shè)。
(3)存在兩個正的常數(shù)c1、c2,滿足:
由微分中值定理可得:
漸近正態(tài)性是參數(shù)估計的重要性質(zhì),漸近正態(tài)估計又稱“相合漸近正態(tài)估計”[5-6],是保障估計有效性的重要參考,同時也反映了估計量的優(yōu)良性質(zhì),在此基礎(chǔ)上可以進(jìn)一步對參數(shù)進(jìn)行區(qū)間估計。文獻(xiàn)[2]研究了協(xié)變量維數(shù)趨于無窮的Logistic模型的漸近正態(tài)性,并給出了相應(yīng)證明,其證明方法對于本文的研究具有參考意義。以下將首先提出復(fù)合次序模型的廣義估計方程的估計的漸近正態(tài)性定理,然后結(jié)合相關(guān)知識證明其正確性。
因此,要證明漸近正態(tài)性定理成立,只需證明下列兩式成立即可:
首先證明(9)式:
下面證明(10)式:
其中:
所以由假設(shè)條件可得:
同理,由假設(shè)可得:
定理證畢。
通過本文的研究,證明了在協(xié)變量維數(shù)趨于無窮的縱向數(shù)據(jù)下,復(fù)合次序模型的廣義估計方程的估計的存在性、相合性以及漸近正態(tài)性,證明了本文所研究的模型具有較為有效的估計,并且隨著協(xié)變量維數(shù)的增大具有良好的大樣本性質(zhì),在一定程度上克服了由大數(shù)據(jù)時代所帶來的數(shù)據(jù)災(zāi)難問題,因此該模型具有一定的推廣價值和意義。模型將因變量為二分類的廣義估計方程推廣至多分類的情形,拓展了廣義估計方程中因變量的研究范圍,為縱向離散型隨機(jī)變量的建模提供了新的選擇。但是廣義估計方程的推廣仍然存在很多難題,本文的因變量為五分類,若因變量分類再增多,模型中的聯(lián)系函數(shù)和因變量的數(shù)學(xué)期望將會更加復(fù)雜,廣義估計方程的參數(shù)估計的存在性以及有效性將難以得到有效保障??梢?,雖然統(tǒng)計學(xué)界對于縱向數(shù)據(jù)的研究由來已久,能夠處理的數(shù)據(jù)類型也越來越多,建模的方法也層出不窮,但是隨著數(shù)據(jù)形式和數(shù)量的日益繁雜,對縱向數(shù)據(jù)的研究仍然面臨著諸多的問題和挑戰(zhàn),廣義估計方程的理論還有待進(jìn)一步完善。