• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于非對稱拉普拉斯分布的混合分位數(shù)回歸參數(shù)估計

      2021-03-01 09:29:02張發(fā)趕何幼樺
      關(guān)鍵詞:樣本量位數(shù)非對稱

      張發(fā)趕,何幼樺

      (上海大學(xué)理學(xué)院,上海 200444)

      傳統(tǒng)線性回歸要求誤差項服從正態(tài)分布,然而現(xiàn)實生活中許多數(shù)據(jù)尤其是金融經(jīng)濟數(shù)據(jù)大多數(shù)是尖峰厚尾的,此時模型的估計結(jié)果將不具有穩(wěn)健性.1978 年Bassett 等[1]提出分位數(shù)回歸模型.

      1986 年,Powell[2]解決了分位數(shù)回歸中存在缺失數(shù)據(jù)的問題.1998 年,Thompson 等[3]簡單介紹了貝葉斯方法.2001 年,Yu 等[4]進一步完善了貝葉斯方法,完整地將貝葉斯框架引入分位數(shù)回歸模型中,并使用非對稱拉普拉斯分布來描述誤差項.2010 年,Taddy 等[5]解決了非參數(shù)貝葉斯分位數(shù)回歸問題.

      混合回歸模型是研究多個子聚類混合的統(tǒng)計模型.Goldfeld 等[6]首次提出混合回歸模型.2014 年,Yao 等[7]和Song 等[8]分別使用t 分布以及Laplace 分布給出新的混合回歸模型,相比于傳統(tǒng)模型而言,該類模型具有更好的穩(wěn)健性.Park[9]在混合回歸模型中率先將均值和方差綜合起來考慮,提出了聯(lián)合均值方差模型.2016 年,Wu 等[10]提出了混合分位數(shù)回歸模型.2017 年,詹金龍等[11]利用混合Laplace 分布提出了聯(lián)合位置和尺度參數(shù)的回歸模型.

      上述研究基本不涉及尺度參數(shù)的結(jié)構(gòu),詹金龍等[11]雖然考慮了尺度參數(shù)的結(jié)構(gòu),但只限于拉普拉斯分布.在實際問題中往往出現(xiàn)不僅類別不同,每個聚類本身也存在差異的情況,例如男女身高的區(qū)別,不同學(xué)歷收入的區(qū)別等,基于此本工作提出非對稱拉普拉斯分布下的混合分位數(shù)回歸模型,并同時考慮位置參數(shù)和尺度參數(shù)的回歸問題.

      1 混合分位數(shù)回歸模型

      設(shè)隨機向量y 服從非對稱拉普拉斯分布(asymmetric Laplace distribution,ALDp),并且由m 個子聚類混合而成,概率密度函數(shù)如下:

      對每一個ALDp(yi;μj,),概率密度為

      式中:p 為非對稱參數(shù),0

      若隨機變量x 服從ALDp(x;μ,σ2),則有P(x<μ)=p,P(x>μ)=1 ?p,即位置參數(shù)μ就是分布ALDp(x;μ,σ2)的p 分位數(shù),所以在上述假設(shè)下估計模型的參數(shù)與求y 的p 分位數(shù)是等價的.

      在很多情況下,數(shù)據(jù)本身存在異方差性,這使得傳統(tǒng)的混合分位數(shù)回歸模型的估計存在偏差,針對這種情況,本工作同時對位置參數(shù)和尺度參數(shù)進行回歸,提出了基于ALDp的混合分位數(shù)回歸模型,

      式中:xi={xi1,xi2,···,xir}T和hi={hi1,hi2,···,hiq}T是回歸方程的解釋變量;相應(yīng)的{yi}ni=1是獨立的被解釋變量;βj={βj1,βj2,···,βjr}T是第j 個子聚類中維數(shù)為r×1 的位置模型的未知參數(shù);γj={γj1,γj2,···,γjq}T是第j 個子聚類中維數(shù)為q×1 的尺度模型的未知參數(shù).βj,γj,πj可以與p 有關(guān),為符號簡潔起見,βj即為βj(p),γj即為γj(p),πj即為πj(p).直接求解上述模型是比較困難的,本工作擬采用期望最大化(expectation maximization,EM)算法對上述參數(shù)進行估計.

      2 基于非對稱拉普拉斯分布的EM 算法

      EM 算法[12]是含有隱變量的概率模型參數(shù)的極大似然估計方法,本工作利用EM 算法對參數(shù)進行估計.

      假定子聚類數(shù)m 是固定和已知的,引入隱變量zij對混合比例進行刻畫,若zij屬于m 個子聚類的第j 類,則zij等于1;若zij不屬于m 個子聚類的第j 類,而屬于其余m ?1 類中的某一類,則zij等于0.

      式(2)在完全數(shù)據(jù)下關(guān)于參數(shù)Θ=(β1,γ1,π1,···,βm,γm,πm)T的對數(shù)似然函數(shù)可以寫成

      EM 算法是一種迭代算法,流程主要分為兩個步驟:E 步和M 步.E 步是計算對數(shù)似然函數(shù)的期望;M 步是尋找能使E 步產(chǎn)生的似然期望最大化的參數(shù)值;重復(fù)執(zhí)行E 步和M 步,直至參數(shù)Θ 收斂.具體操作如下.

      步驟一 給定參數(shù)迭代初始值

      步驟二(E 步) 利用第k 次迭代得到的結(jié)果估計Θ(k),計算,

      式中:

      步驟三(M 步) 用Q(Θ;y,x,h,Θ(k))對Θ 求最大值,將得到

      這里采用牛頓法對上述問題進行求解,由于目標函數(shù)含有絕對值無法直接求導(dǎo),因此下文推導(dǎo)過程中對應(yīng)部分使用差商代替求導(dǎo),這種做法也方便之后進行數(shù)值計算.

      令θ=(β,γ),Q(θ)=Q(β,γ),

      設(shè)計如下迭代過程:

      為了計算方便,

      步驟四 重復(fù)E 步和M 步,直至參數(shù)Θ 收斂.

      3 Monte Carlo 數(shù)值模擬

      利用數(shù)值模擬對本工作提出的非對稱拉普拉斯分布的EM算法進行驗證,以分析樣本量和p 對估計效果的影響.

      首先,產(chǎn)生服從ALDp分布的n 個隨機數(shù),若要產(chǎn)生來自分布F(x)的隨機數(shù),需先產(chǎn)生U(0,1)的隨機數(shù)u,然后計算F?1(u).具體計算步驟如下:(1) 從U(0,1)隨機產(chǎn)生u;(2) 計算x=F?1(u),其中F?1(u)=inf{x:F(x)≥u}.

      首先求ALDp的累計概率密度函數(shù)

      式中:

      計算反函數(shù)F?1(u),

      式中:p 為非對稱參數(shù);μ為位置參數(shù),σ 為尺度參數(shù).

      通過對不同分類數(shù)的模型進行模擬,結(jié)果表明樣本量和分位數(shù)對參數(shù)估計精度的影響關(guān)系與兩分類問題相同.此處僅以m=2 為例,考慮如下混合分位數(shù)回歸模型:

      根據(jù)式(11)產(chǎn)生模擬數(shù)據(jù),yi服從混合ALDp分布,xi服從U(1,2),hi服從U(1,2),彼此相互獨立.考慮分位數(shù)對模型參數(shù)的影響,即β1=50p,σ1=exp(?p)/5,β2=30p +2,σ2=2p2+0.1,其中p 表示非對稱參數(shù).給定混合比例π1=0.3,π2=0.7,取樣本量n=100,200,400,600,800,1 000,p=0.1,0.2,···,0.9,重復(fù)模擬300 次.利用均方誤差(mean square error,MSE)來觀察估計效果,結(jié)果如表1~4 所示.

      表1 參數(shù)β1 在不同樣本量下的MSETable 1 MSE of β1 under different sample sizes

      表2 參數(shù)σ1 在不同樣本量下的MSETable 2 MSE of σ1 under different sample sizes

      通過計算參數(shù)在不同樣本量下的均方誤差,可以發(fā)現(xiàn)模型參數(shù)估計的整體MSE 較小,參數(shù)估計效果良好.值得注意的是,在小樣本下,參數(shù)的估計相對于大樣本而言精確度會低一些,原因之一是在小樣本下高低兩側(cè)分位數(shù)的數(shù)據(jù)不足可能會導(dǎo)致部分參數(shù)估計的結(jié)果存在偏差.但是隨著樣本量的增加,所有參數(shù)在各個分位數(shù)下的MSE 均明顯降低,說明隨著樣本量的逐漸增加,模型的估計效果越來越好,并且隨著n 的增大,分位數(shù)對估計結(jié)果的影響也越來越小,模型在各個分位數(shù)上的估計穩(wěn)定性越來越高.顯然地,當(dāng)樣本量足夠大時,高低兩側(cè)分位數(shù)也已經(jīng)擁有了足夠多的數(shù)據(jù).

      表3 參數(shù)β2 在不同樣本量下的MSETable 3 MSE of β2 under different sample sizes

      表4 參數(shù)σ2 在不同樣本量下的MSETable 4 MSE of σ2 under different sample sizes

      4 實證分析

      4.1 數(shù) 據(jù)

      下面將利用模型(2)對波士頓房價數(shù)據(jù)進行分析,該數(shù)據(jù)來源于UCI(University of California Irvine)數(shù)據(jù)庫.波士頓房價數(shù)據(jù)于1978 年開始統(tǒng)計,包含了波士頓地區(qū)房屋的一系列特征(離散變量已由該數(shù)據(jù)庫處理完成),例如犯罪率、一氧化氮濃度、城鎮(zhèn)師生比例等,每個特征有506 個樣本點.首先對特征進行篩選,通過相關(guān)性分析,排除對房價沒有影響的變量,進而篩選出其中最重要的兩個變量,分別為每棟住宅房間數(shù)和該地區(qū)房東屬于低收入階層的比例,對應(yīng)散點如圖1 所示.

      4.2 模型建立與結(jié)果分析

      由圖1 可以看出,房價的波動與每棟住宅房間數(shù)(x1)和該地區(qū)房東低收入階層比例(x2)都有關(guān),利用該數(shù)據(jù)集構(gòu)建混合分位數(shù)回歸模型(12),將數(shù)據(jù)(房屋)類型分為兩類,對這兩類數(shù)據(jù)進行研究發(fā)現(xiàn)房價與房間數(shù)以及房價與房東屬于低收入階層比例的依賴關(guān)系有很大不同.

      圖1 各解釋變量與被解釋變量散點圖Fig.1 Scatter plot of each explanatory variable and explained variable

      利用EM 算法對式(12)中的參數(shù)進行估計,得到不同分位數(shù)下的位置參數(shù)和尺度參數(shù)估計結(jié)果如表5 所示.

      表5 不同分位數(shù)下模型位置參數(shù)和尺度參數(shù)以及混合比例的估計Table 5 Estimation of model position parameters,scale parameters and mixing ratio under different quantiles

      進一步分析表5 的實際意義,考察不同分位數(shù)下解釋變量x1和x2對不同類型房屋的房價邊際影響如圖2 所示.

      由圖2(a)可知,對于第二類房屋,β21>0,表明該類房屋的房價和房間數(shù)的多少呈正相關(guān),并且房間數(shù)對房價的邊際影響明顯高于第一類房屋,但是這種邊際影響隨著房價的升高逐漸減小.對于第一類房屋,β11在p>0.3 時接近于0,說明此時房間數(shù)的多少對房價的影響不大.

      圖2 不同分位數(shù)下x1,x2 對房價的邊際影響Fig.2 Marginal influence of x1 and x2 on housing prices at different quantiles

      對于圖2(b),β12<0,β22<0,表明在房價的所有分位數(shù)點上,該地區(qū)房東屬于低收入階層的比例對房價的邊際影響是負向的,并且整體而言這種影響會隨著房價的升高而逐漸增大,同時第二類房屋的負向影響高于第一類房屋.綜上所述,可以將上述房屋分為兩類,高檔小區(qū)和普通小區(qū).對高檔小區(qū)(第二類)而言,房間數(shù)的增加會明顯提高房價,可見每個房間的價值都很高,比如市中心的房屋.對于普通小區(qū)而言,房間數(shù)的多少對房價影響不大,每個房間的價值較低,比如郊區(qū)的房屋.同時,對于高檔小區(qū)而言,隨著房價的升高,房間數(shù)對房價的邊際影響逐漸減小,這表明當(dāng)房價足夠高時,人們會更多地關(guān)心居住地的品質(zhì),而不僅僅考慮房間的大小.

      另一方面,波士頓房東屬于低收入階層的比例會對房價造成負面影響,并且對高檔小區(qū)的整體負面影響高于普通小區(qū),特別是當(dāng)房價處于極高的位置時,二者的差距會被進一步放大.這是顯然的,高檔小區(qū)(如別墅)的定位是高收入人群,該區(qū)域低收入購房者的比例越高,對此類房屋價格的提高越是不利的,事實證明富人更喜歡和富人居住.

      本工作提出的模型相對于傳統(tǒng)混合分位數(shù)回歸模型而言,主要優(yōu)點在于不僅考慮了解釋變量對位置的影響,而且考慮了解釋變量對尺度的影響,因此可以在實際運用中對模型的各個部分進行更有效的控制.在實證分析中,使用每棟住宅房間數(shù)和該地區(qū)房東屬于低收入階層的比例這兩個解釋變量,對波士頓的房屋價格進行分析,發(fā)現(xiàn)每棟住宅房間數(shù)對高檔小區(qū)的正向邊際影響高于普通小區(qū),低收入階層的比例對高檔小區(qū)的負向影響高于普通小區(qū).隨著房價逐漸升高,每棟住宅房間數(shù)對房屋價格的邊際影響最終會有所降低,而低收入階層的比例對房屋價格的負向影響會逐漸增大.

      猜你喜歡
      樣本量位數(shù)非對稱
      醫(yī)學(xué)研究中樣本量的選擇
      五次完全冪的少位數(shù)三進制展開
      非對稱Orlicz差體
      航空裝備測試性試驗樣本量確定方法
      Sample Size Calculations for Comparing Groups with Binary Outcomes
      點數(shù)不超過20的旗傳遞非對稱2-設(shè)計
      非對稱負載下矩陣變換器改進型PI重復(fù)控制
      電測與儀表(2015年4期)2015-04-12 00:43:04
      遙感衛(wèi)星CCD相機量化位數(shù)的選擇
      “判斷整數(shù)的位數(shù)”的算法分析
      河南科技(2014年11期)2014-02-27 14:09:41
      基于分位數(shù)回歸的剪切波速變化規(guī)律
      桐城市| 阿坝| 通州区| 濉溪县| 南木林县| 墨江| 丰县| 武清区| 鄢陵县| 水城县| 马尔康县| 桃江县| 佛学| 灌云县| 格尔木市| 莱州市| 漠河县| 淅川县| 铜山县| 张掖市| 民勤县| 三亚市| 久治县| 尉犁县| 那曲县| 当雄县| 冷水江市| 湄潭县| 清丰县| 杭州市| 芜湖县| 科技| 耒阳市| 崇左市| 固镇县| 织金县| 泉州市| 调兵山市| 贵溪市| 延寿县| 湟中县|