黃婷婷, 王惠文, SAPORTA Gilbert
(1. 北京航空航天大學(xué) 經(jīng)濟(jì)與管理學(xué)院, 北京 100083; 2. 城市運(yùn)行應(yīng)急保障模擬技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100083;3. 北京航空航天大學(xué) 大數(shù)據(jù)科學(xué)與腦機(jī)智能高精尖創(chuàng)新中心, 北京 100083;4. 法國國立工藝學(xué)院 計(jì)算機(jī)和通信研究中心, 巴黎 75003)
數(shù)據(jù)搜集技術(shù)的快速發(fā)展不僅帶來了海量的數(shù)據(jù),也帶來了類型越來越復(fù)雜的數(shù)據(jù),如函數(shù)數(shù)據(jù)[1-3]、成分?jǐn)?shù)據(jù)[4]和符號數(shù)據(jù)[5-6]等。在這些類型復(fù)雜的數(shù)據(jù)中,成分?jǐn)?shù)據(jù)由于關(guān)注部分在總體中的占比信息,受到愈來愈廣泛的關(guān)注。如Fry等[7]利用住戶開支統(tǒng)計(jì)調(diào)查結(jié)果研究預(yù)算分配模型,Pawlowsky-Glahn和Egozcue[8]利用成分?jǐn)?shù)據(jù)比較東歐和西歐國家在食物消費(fèi)結(jié)構(gòu)上的習(xí)慣差異,Pawlowsky-Glahn[9]等利用成分?jǐn)?shù)據(jù)回歸模型分析了巴西宗教信仰構(gòu)成的變化。
成分?jǐn)?shù)據(jù)分析主要研究活動對象結(jié)構(gòu)變化產(chǎn)生的規(guī)律及其對其他對象產(chǎn)生的影響。關(guān)于成分?jǐn)?shù)據(jù)的理論研究,標(biāo)志性的成果是1986年Aichison撰寫的《成分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析》[10],該書詳細(xì)闡述了成分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析方法建立的數(shù)學(xué)基礎(chǔ)。在成分?jǐn)?shù)據(jù)分析中,線性回歸模型是一種常用的分析技術(shù)?,F(xiàn)有的成分?jǐn)?shù)據(jù)線性回歸模型可以分為兩大類:第1類因變量是普通數(shù)據(jù)[11-12],第2類因變量是成分?jǐn)?shù)據(jù)[13-15]。Hron等[12]利用第1類成分?jǐn)?shù)據(jù)線性回歸模型研究了GDP組成與預(yù)期壽命的關(guān)系;而Wang等[14]利用第2類模型研究了地區(qū)總產(chǎn)值與就業(yè)和投資的關(guān)系。本文在因變量是普通數(shù)據(jù)的成分?jǐn)?shù)據(jù)回歸模型基礎(chǔ)上進(jìn)行研究。在成分?jǐn)?shù)據(jù)回歸模型中,通常以樣本之間獨(dú)立同分布作為前提。而在實(shí)際應(yīng)用中,獨(dú)立同分布的假設(shè)往往是不成立的。如何對現(xiàn)有的成分?jǐn)?shù)據(jù)線性回歸模型進(jìn)行改進(jìn),使之適應(yīng)實(shí)際應(yīng)用的需求,是一個(gè)值得深入研究的問題。
在空間計(jì)量經(jīng)濟(jì)學(xué)[16]中,空間自回歸模型通過引入空間依賴項(xiàng),打破了因變量相互獨(dú)立的假設(shè),使得許多與空間地理位置或社交網(wǎng)絡(luò)有關(guān)的現(xiàn)象得到解釋。利用空間自回歸模型,可以對區(qū)域經(jīng)濟(jì)發(fā)展的問題[17-18]、溢出性問題[19-20]等進(jìn)行分析?,F(xiàn)有的空間自回歸模型在普通數(shù)據(jù)的基礎(chǔ)上已經(jīng)發(fā)展得相對完善,已有的對空間自回歸模型進(jìn)行估計(jì)的方法包括Ord[21]和Lee[22]提出的極大似然估計(jì)法、Kelejian、Prucha[23]和Lee[24]提出的廣義矩估計(jì)法、Lesage和Pace[25]從貝葉斯的角度提出的馬爾可夫鏈蒙特卡羅方法(Markov chain Monte Carlo method)。
因此,針對經(jīng)典成分?jǐn)?shù)據(jù)線性回歸模型假設(shè)樣本間相互獨(dú)立的嚴(yán)格要求,研究因變量之間具有空間依賴的成分?jǐn)?shù)據(jù)回歸模型,通過在普通數(shù)據(jù)的空間自回歸模型中,引入成分?jǐn)?shù)據(jù)的協(xié)變量,提出了同時(shí)含有成分?jǐn)?shù)據(jù)和普通數(shù)據(jù)的空間自回歸模型。并依據(jù)成分?jǐn)?shù)據(jù)的特點(diǎn),給出了混合2種數(shù)據(jù)的空間自回歸模型的估計(jì)方法。提出的新模型比已有的成分?jǐn)?shù)據(jù)線性回歸模型具有更強(qiáng)的靈活性,可以處理更加復(fù)雜的空間依賴問題。
本節(jié)主要介紹成分?jǐn)?shù)據(jù)的代數(shù)空間——單形空間(simplex)中的基本運(yùn)算,以及與成分?jǐn)?shù)據(jù)聯(lián)系緊密的幾種變換,利用這些變換可以將具有約束的成分?jǐn)?shù)據(jù)轉(zhuǎn)化成易于處理的普通數(shù)據(jù)。
對于含有d個(gè)成分的成分?jǐn)?shù)據(jù),對應(yīng)的單形空間Sd(上標(biāo)d表示成分?jǐn)?shù)據(jù)有d個(gè)成分,因此實(shí)際是d-1維的)定義為
Sd={x=(x1,x2,…,xd)T,
(1)
現(xiàn)有單形空間Sd中的任意2個(gè)成分?jǐn)?shù)據(jù)x、y以及實(shí)數(shù)α,記x=(x1,x2,…,xd)T∈Sd,y=(y1,y2,…,yd)T∈Sd,α∈R,則x和y的加法⊕及α和x數(shù)乘運(yùn)算⊙可分別定義為
x⊕y=C(x1y1,x2y2,…,xdyd)
(2)
(3)
式中:C(·)表示閉合運(yùn)算,定義為
(4)
不難看出,閉合運(yùn)算保證了運(yùn)算結(jié)果仍在Sd中?;谶\(yùn)算⊕和⊙,可以導(dǎo)出x和y的減法運(yùn)算,
(5)
x和y的內(nèi)積運(yùn)算〈x,y〉a定義為
(6)
(7)
(8)
可以證明,含有內(nèi)積運(yùn)算的單形空間是一個(gè)希爾伯特空間。
ilr(x)=(〈x,e1〉a,〈x,e2〉a,…,〈x,ed-1〉a)T
(9)
Egozcue等[26]證明,ilr變換是保內(nèi)積的變換,即對于含有d個(gè)成分的成分?jǐn)?shù)據(jù)x和y,有
〈x,y〉a=〈ilr(x),ilr(y)〉
(10)
下面給出具體的ilr變換過程。
ξi=ilr(Ci)=clr(Ci)ΨT=ln(Ci)ΨT
(11)
式中:
clr(Ci)=
Ψ為(d-1)×d維的矩陣,具體表達(dá)式為
Y=ατn+ρWY+〈C,B〉a+XΓ+E
(12)
式中:ατn為截距項(xiàng),τn為所有元素均為的1的維度為n的向量;ρ為未知的空間自相關(guān)參數(shù),取值在區(qū)間(-1,1)內(nèi);W={wij}n×n為外生的空間矩陣,wij為對象i與j之間的權(quán)重;B為待估的成分?jǐn)?shù)據(jù)系數(shù),具有p個(gè)成分;Γ為普通數(shù)據(jù)的待估系數(shù);E為獨(dú)立于X的誤差項(xiàng),服從均值為0,方差為σ2In多元正態(tài)分布,In為n×n的單位矩陣。
需強(qiáng)調(diào)的是,式(12)中C和回歸系數(shù)B都為成分?jǐn)?shù)據(jù),〈C,B〉a為一個(gè)實(shí)數(shù)。在Aitchison內(nèi)積空間中,〈C,B〉a代表X對Y解釋性最強(qiáng)的投影方向。
當(dāng)ρ=0時(shí),式(12)退化為普通的成分?jǐn)?shù)據(jù)線性模型。在這個(gè)意義上,式(12)比經(jīng)典的成分?jǐn)?shù)據(jù)線性模型具有更強(qiáng)的靈活性,可以處理更加復(fù)雜的數(shù)據(jù)關(guān)系。
為估計(jì)模型式(12)中的參數(shù)α,ρ,B,Γ,首先需將相互不獨(dú)立的成分?jǐn)?shù)據(jù)轉(zhuǎn)化為相互獨(dú)立的普通數(shù)據(jù),1.2節(jié)中已作詳細(xì)介紹;其次,要解決因變量yi之間不相互獨(dú)立的問題,此處采用極大似然估計(jì)法ilr變換后的模型進(jìn)行估計(jì)。
同樣利用1.2節(jié)中的ilr變換,可得到成分?jǐn)?shù)據(jù)系數(shù)B的變換坐標(biāo)b=ilr(B)。
由于B是需估計(jì)的參數(shù),因此變換后的坐標(biāo)b是未知的。記ξ=(ξ1,ξ2,…,ξn)T,則模型式(12)可寫為
Y=ατn+ρWY+ξb+XΓ+E
(13)
為描述簡便,記:δ=(b,Γ)T,Z=(ξ,X),則式(13)可表示為
Y=ατn+ρWY+Zδ+E
(14)
由于模型式(12)中誤差項(xiàng)服從多元正態(tài)分布,因變量Y的似然函數(shù)為
(15)
(16)
(Y-ατn-ρWY-Zδ)
(17)
(18)
(19)
至此,所有參數(shù)都可以估計(jì)出來。
為評估所提出估計(jì)方法的統(tǒng)計(jì)性質(zhì),下面設(shè)計(jì)了幾組數(shù)值模擬實(shí)驗(yàn)檢驗(yàn)估計(jì)量的表現(xiàn)。所有的計(jì)算過程都是在R軟件中實(shí)現(xiàn),用到的包有“spdep”和“compositions”。
關(guān)于空間自回歸模型的空間網(wǎng)絡(luò)結(jié)構(gòu),采取最常見的“車”相鄰(rook matrix)。假設(shè)n個(gè)樣本點(diǎn)隨機(jī)地散落在一個(gè)R行T列的格子棋盤上,每個(gè)樣本點(diǎn)占據(jù)棋盤上的一個(gè)方格,那么在棋盤上共享一條邊的2個(gè)樣本點(diǎn)就是相鄰的。在這樣的情況下,處在棋盤中間的任意樣本點(diǎn)都有4個(gè)鄰居,處在棋盤邊上的樣本點(diǎn)有3個(gè)鄰居,而處在棋盤角上的樣本點(diǎn)只有1個(gè)鄰居。分別設(shè)置R=10,20,30,T=30,25,30,相應(yīng)地樣本量n=R×T=300,500,900。為了查看空間依賴的強(qiáng)弱是否對估計(jì)量有影響,同樣設(shè)計(jì)了3組不同的ρ值,ρ=0,0.5,0.8。
(20)
樣本的總方差的計(jì)算公式為
(21)
估計(jì)結(jié)果如圖1~圖3所示??梢缘玫饺缦陆Y(jié)論:
圖和的樣本偏差Fig.1 Sample deviation of
圖的標(biāo)準(zhǔn)差及的總方差Fig.2 Standard deviation of and
圖3 n和ρ取不同值時(shí),偏差箱線圖Fig.3 Boxplots of deviation of when n and ρ change
針對普通成分?jǐn)?shù)據(jù)線性回歸模型要求樣本間相互獨(dú)立的局限性,在空間自回歸模型的基礎(chǔ)上,提出了混合成分?jǐn)?shù)據(jù)與普通數(shù)據(jù)的空間自回歸模型,所提出的模型及估計(jì)方法具有如下優(yōu)點(diǎn):
1) 新提出的模型不僅能夠同時(shí)處理成分?jǐn)?shù)據(jù)和普通數(shù)據(jù),還能表達(dá)數(shù)據(jù)中因變量之間相互依賴的問題。特別地,新模型可以處理地理空間中的依賴性。
2) 新模型所提出的估計(jì)量具有相合性。隨著樣本量的增大,可以發(fā)現(xiàn)估計(jì)值的標(biāo)準(zhǔn)差在逐漸減小。除此之外,新提出的估計(jì)方法操作簡單,可以在R軟件上直接實(shí)現(xiàn)。
在實(shí)際應(yīng)用中,新模型可處理社交網(wǎng)絡(luò)、地理空間等含有網(wǎng)絡(luò)結(jié)構(gòu)的依賴問題。而針對其他情況造成成分?jǐn)?shù)據(jù)線性模型樣本之間不相互獨(dú)立的問題,則需要分情況進(jìn)行深入分析。