• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      成分?jǐn)?shù)據(jù)的空間自回歸模型

      2019-01-30 03:24:38黃婷婷王惠文SAPORTAGilbert
      關(guān)鍵詞:因變量線性運(yùn)算

      黃婷婷, 王惠文, SAPORTA Gilbert

      (1. 北京航空航天大學(xué) 經(jīng)濟(jì)與管理學(xué)院, 北京 100083; 2. 城市運(yùn)行應(yīng)急保障模擬技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100083;3. 北京航空航天大學(xué) 大數(shù)據(jù)科學(xué)與腦機(jī)智能高精尖創(chuàng)新中心, 北京 100083;4. 法國國立工藝學(xué)院 計(jì)算機(jī)和通信研究中心, 巴黎 75003)

      數(shù)據(jù)搜集技術(shù)的快速發(fā)展不僅帶來了海量的數(shù)據(jù),也帶來了類型越來越復(fù)雜的數(shù)據(jù),如函數(shù)數(shù)據(jù)[1-3]、成分?jǐn)?shù)據(jù)[4]和符號數(shù)據(jù)[5-6]等。在這些類型復(fù)雜的數(shù)據(jù)中,成分?jǐn)?shù)據(jù)由于關(guān)注部分在總體中的占比信息,受到愈來愈廣泛的關(guān)注。如Fry等[7]利用住戶開支統(tǒng)計(jì)調(diào)查結(jié)果研究預(yù)算分配模型,Pawlowsky-Glahn和Egozcue[8]利用成分?jǐn)?shù)據(jù)比較東歐和西歐國家在食物消費(fèi)結(jié)構(gòu)上的習(xí)慣差異,Pawlowsky-Glahn[9]等利用成分?jǐn)?shù)據(jù)回歸模型分析了巴西宗教信仰構(gòu)成的變化。

      成分?jǐn)?shù)據(jù)分析主要研究活動對象結(jié)構(gòu)變化產(chǎn)生的規(guī)律及其對其他對象產(chǎn)生的影響。關(guān)于成分?jǐn)?shù)據(jù)的理論研究,標(biāo)志性的成果是1986年Aichison撰寫的《成分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析》[10],該書詳細(xì)闡述了成分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析方法建立的數(shù)學(xué)基礎(chǔ)。在成分?jǐn)?shù)據(jù)分析中,線性回歸模型是一種常用的分析技術(shù)?,F(xiàn)有的成分?jǐn)?shù)據(jù)線性回歸模型可以分為兩大類:第1類因變量是普通數(shù)據(jù)[11-12],第2類因變量是成分?jǐn)?shù)據(jù)[13-15]。Hron等[12]利用第1類成分?jǐn)?shù)據(jù)線性回歸模型研究了GDP組成與預(yù)期壽命的關(guān)系;而Wang等[14]利用第2類模型研究了地區(qū)總產(chǎn)值與就業(yè)和投資的關(guān)系。本文在因變量是普通數(shù)據(jù)的成分?jǐn)?shù)據(jù)回歸模型基礎(chǔ)上進(jìn)行研究。在成分?jǐn)?shù)據(jù)回歸模型中,通常以樣本之間獨(dú)立同分布作為前提。而在實(shí)際應(yīng)用中,獨(dú)立同分布的假設(shè)往往是不成立的。如何對現(xiàn)有的成分?jǐn)?shù)據(jù)線性回歸模型進(jìn)行改進(jìn),使之適應(yīng)實(shí)際應(yīng)用的需求,是一個(gè)值得深入研究的問題。

      在空間計(jì)量經(jīng)濟(jì)學(xué)[16]中,空間自回歸模型通過引入空間依賴項(xiàng),打破了因變量相互獨(dú)立的假設(shè),使得許多與空間地理位置或社交網(wǎng)絡(luò)有關(guān)的現(xiàn)象得到解釋。利用空間自回歸模型,可以對區(qū)域經(jīng)濟(jì)發(fā)展的問題[17-18]、溢出性問題[19-20]等進(jìn)行分析?,F(xiàn)有的空間自回歸模型在普通數(shù)據(jù)的基礎(chǔ)上已經(jīng)發(fā)展得相對完善,已有的對空間自回歸模型進(jìn)行估計(jì)的方法包括Ord[21]和Lee[22]提出的極大似然估計(jì)法、Kelejian、Prucha[23]和Lee[24]提出的廣義矩估計(jì)法、Lesage和Pace[25]從貝葉斯的角度提出的馬爾可夫鏈蒙特卡羅方法(Markov chain Monte Carlo method)。

      因此,針對經(jīng)典成分?jǐn)?shù)據(jù)線性回歸模型假設(shè)樣本間相互獨(dú)立的嚴(yán)格要求,研究因變量之間具有空間依賴的成分?jǐn)?shù)據(jù)回歸模型,通過在普通數(shù)據(jù)的空間自回歸模型中,引入成分?jǐn)?shù)據(jù)的協(xié)變量,提出了同時(shí)含有成分?jǐn)?shù)據(jù)和普通數(shù)據(jù)的空間自回歸模型。并依據(jù)成分?jǐn)?shù)據(jù)的特點(diǎn),給出了混合2種數(shù)據(jù)的空間自回歸模型的估計(jì)方法。提出的新模型比已有的成分?jǐn)?shù)據(jù)線性回歸模型具有更強(qiáng)的靈活性,可以處理更加復(fù)雜的空間依賴問題。

      1 基礎(chǔ)理論

      本節(jié)主要介紹成分?jǐn)?shù)據(jù)的代數(shù)空間——單形空間(simplex)中的基本運(yùn)算,以及與成分?jǐn)?shù)據(jù)聯(lián)系緊密的幾種變換,利用這些變換可以將具有約束的成分?jǐn)?shù)據(jù)轉(zhuǎn)化成易于處理的普通數(shù)據(jù)。

      1.1 單形空間

      對于含有d個(gè)成分的成分?jǐn)?shù)據(jù),對應(yīng)的單形空間Sd(上標(biāo)d表示成分?jǐn)?shù)據(jù)有d個(gè)成分,因此實(shí)際是d-1維的)定義為

      Sd={x=(x1,x2,…,xd)T,

      (1)

      現(xiàn)有單形空間Sd中的任意2個(gè)成分?jǐn)?shù)據(jù)x、y以及實(shí)數(shù)α,記x=(x1,x2,…,xd)T∈Sd,y=(y1,y2,…,yd)T∈Sd,α∈R,則x和y的加法⊕及α和x數(shù)乘運(yùn)算⊙可分別定義為

      x⊕y=C(x1y1,x2y2,…,xdyd)

      (2)

      (3)

      式中:C(·)表示閉合運(yùn)算,定義為

      (4)

      不難看出,閉合運(yùn)算保證了運(yùn)算結(jié)果仍在Sd中?;谶\(yùn)算⊕和⊙,可以導(dǎo)出x和y的減法運(yùn)算,

      (5)

      x和y的內(nèi)積運(yùn)算〈x,y〉a定義為

      (6)

      (7)

      (8)

      可以證明,含有內(nèi)積運(yùn)算的單形空間是一個(gè)希爾伯特空間。

      1.2 等距對數(shù)比變換

      ilr(x)=(〈x,e1〉a,〈x,e2〉a,…,〈x,ed-1〉a)T

      (9)

      Egozcue等[26]證明,ilr變換是保內(nèi)積的變換,即對于含有d個(gè)成分的成分?jǐn)?shù)據(jù)x和y,有

      〈x,y〉a=〈ilr(x),ilr(y)〉

      (10)

      下面給出具體的ilr變換過程。

      ξi=ilr(Ci)=clr(Ci)ΨT=ln(Ci)ΨT

      (11)

      式中:

      clr(Ci)=

      Ψ為(d-1)×d維的矩陣,具體表達(dá)式為

      2 模型的提出

      Y=ατn+ρWY+〈C,B〉a+XΓ+E

      (12)

      式中:ατn為截距項(xiàng),τn為所有元素均為的1的維度為n的向量;ρ為未知的空間自相關(guān)參數(shù),取值在區(qū)間(-1,1)內(nèi);W={wij}n×n為外生的空間矩陣,wij為對象i與j之間的權(quán)重;B為待估的成分?jǐn)?shù)據(jù)系數(shù),具有p個(gè)成分;Γ為普通數(shù)據(jù)的待估系數(shù);E為獨(dú)立于X的誤差項(xiàng),服從均值為0,方差為σ2In多元正態(tài)分布,In為n×n的單位矩陣。

      需強(qiáng)調(diào)的是,式(12)中C和回歸系數(shù)B都為成分?jǐn)?shù)據(jù),〈C,B〉a為一個(gè)實(shí)數(shù)。在Aitchison內(nèi)積空間中,〈C,B〉a代表X對Y解釋性最強(qiáng)的投影方向。

      當(dāng)ρ=0時(shí),式(12)退化為普通的成分?jǐn)?shù)據(jù)線性模型。在這個(gè)意義上,式(12)比經(jīng)典的成分?jǐn)?shù)據(jù)線性模型具有更強(qiáng)的靈活性,可以處理更加復(fù)雜的數(shù)據(jù)關(guān)系。

      3 估計(jì)方法

      為估計(jì)模型式(12)中的參數(shù)α,ρ,B,Γ,首先需將相互不獨(dú)立的成分?jǐn)?shù)據(jù)轉(zhuǎn)化為相互獨(dú)立的普通數(shù)據(jù),1.2節(jié)中已作詳細(xì)介紹;其次,要解決因變量yi之間不相互獨(dú)立的問題,此處采用極大似然估計(jì)法ilr變換后的模型進(jìn)行估計(jì)。

      同樣利用1.2節(jié)中的ilr變換,可得到成分?jǐn)?shù)據(jù)系數(shù)B的變換坐標(biāo)b=ilr(B)。

      由于B是需估計(jì)的參數(shù),因此變換后的坐標(biāo)b是未知的。記ξ=(ξ1,ξ2,…,ξn)T,則模型式(12)可寫為

      Y=ατn+ρWY+ξb+XΓ+E

      (13)

      為描述簡便,記:δ=(b,Γ)T,Z=(ξ,X),則式(13)可表示為

      Y=ατn+ρWY+Zδ+E

      (14)

      由于模型式(12)中誤差項(xiàng)服從多元正態(tài)分布,因變量Y的似然函數(shù)為

      (15)

      (16)

      (Y-ατn-ρWY-Zδ)

      (17)

      (18)

      (19)

      至此,所有參數(shù)都可以估計(jì)出來。

      4 數(shù)值模擬

      為評估所提出估計(jì)方法的統(tǒng)計(jì)性質(zhì),下面設(shè)計(jì)了幾組數(shù)值模擬實(shí)驗(yàn)檢驗(yàn)估計(jì)量的表現(xiàn)。所有的計(jì)算過程都是在R軟件中實(shí)現(xiàn),用到的包有“spdep”和“compositions”。

      關(guān)于空間自回歸模型的空間網(wǎng)絡(luò)結(jié)構(gòu),采取最常見的“車”相鄰(rook matrix)。假設(shè)n個(gè)樣本點(diǎn)隨機(jī)地散落在一個(gè)R行T列的格子棋盤上,每個(gè)樣本點(diǎn)占據(jù)棋盤上的一個(gè)方格,那么在棋盤上共享一條邊的2個(gè)樣本點(diǎn)就是相鄰的。在這樣的情況下,處在棋盤中間的任意樣本點(diǎn)都有4個(gè)鄰居,處在棋盤邊上的樣本點(diǎn)有3個(gè)鄰居,而處在棋盤角上的樣本點(diǎn)只有1個(gè)鄰居。分別設(shè)置R=10,20,30,T=30,25,30,相應(yīng)地樣本量n=R×T=300,500,900。為了查看空間依賴的強(qiáng)弱是否對估計(jì)量有影響,同樣設(shè)計(jì)了3組不同的ρ值,ρ=0,0.5,0.8。

      (20)

      樣本的總方差的計(jì)算公式為

      (21)

      估計(jì)結(jié)果如圖1~圖3所示??梢缘玫饺缦陆Y(jié)論:

      圖和的樣本偏差Fig.1 Sample deviation of

      圖的標(biāo)準(zhǔn)差及的總方差Fig.2 Standard deviation of and

      圖3 n和ρ取不同值時(shí),偏差箱線圖Fig.3 Boxplots of deviation of when n and ρ change

      5 結(jié) 論

      針對普通成分?jǐn)?shù)據(jù)線性回歸模型要求樣本間相互獨(dú)立的局限性,在空間自回歸模型的基礎(chǔ)上,提出了混合成分?jǐn)?shù)據(jù)與普通數(shù)據(jù)的空間自回歸模型,所提出的模型及估計(jì)方法具有如下優(yōu)點(diǎn):

      1) 新提出的模型不僅能夠同時(shí)處理成分?jǐn)?shù)據(jù)和普通數(shù)據(jù),還能表達(dá)數(shù)據(jù)中因變量之間相互依賴的問題。特別地,新模型可以處理地理空間中的依賴性。

      2) 新模型所提出的估計(jì)量具有相合性。隨著樣本量的增大,可以發(fā)現(xiàn)估計(jì)值的標(biāo)準(zhǔn)差在逐漸減小。除此之外,新提出的估計(jì)方法操作簡單,可以在R軟件上直接實(shí)現(xiàn)。

      在實(shí)際應(yīng)用中,新模型可處理社交網(wǎng)絡(luò)、地理空間等含有網(wǎng)絡(luò)結(jié)構(gòu)的依賴問題。而針對其他情況造成成分?jǐn)?shù)據(jù)線性模型樣本之間不相互獨(dú)立的問題,則需要分情況進(jìn)行深入分析。

      猜你喜歡
      因變量線性運(yùn)算
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      重視運(yùn)算與推理,解決數(shù)列求和題
      調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
      中國藥房(2022年7期)2022-04-14 00:34:30
      線性回歸方程的求解與應(yīng)用
      有趣的運(yùn)算
      適應(yīng)性回歸分析(Ⅳ)
      ——與非適應(yīng)性回歸分析的比較
      二階線性微分方程的解法
      偏最小二乘回歸方法
      “整式的乘法與因式分解”知識歸納
      撥云去“誤”學(xué)乘除運(yùn)算
      温州市| 西林县| 灵寿县| 漯河市| 铜川市| 忻州市| 德庆县| 孝昌县| 永春县| 通辽市| 赤城县| 南康市| 东兰县| 芜湖市| 天镇县| 巴彦淖尔市| 娄烦县| 高阳县| 邹平县| 宾阳县| 洛扎县| 始兴县| 常德市| 义乌市| 吉木乃县| 台安县| 隆尧县| 会泽县| 余干县| 正安县| 深圳市| 山阴县| 渝中区| 泊头市| 桃园县| 西峡县| 错那县| 盐山县| 仪征市| 上栗县| 类乌齐县|