鄭桂芬,吳劉倉(cāng),聶興鋒
(昆明理工大學(xué)理學(xué)院,云南 昆明650093)
在金融、醫(yī)學(xué)和社會(huì)經(jīng)濟(jì)領(lǐng)域中,存在大量偏斜且厚尾的數(shù)據(jù).如果用正態(tài)分布、偏正態(tài)和偏t分布去擬合,得到的信息不精確,利用偏Laplace正態(tài)分布對(duì)數(shù)據(jù)進(jìn)行擬合獲得的信息更具有準(zhǔn)確性和可靠性,因此研究偏Laplace正態(tài)分布具有重要意義.
在過(guò)去幾十年里,學(xué)者們提出很多方法分析處理偏態(tài)數(shù)據(jù).Azzalini[1]提出了偏態(tài)指數(shù)冪分布同時(shí)處理偏態(tài)和重尾兩種情況;Monti[2]對(duì)偏態(tài)指數(shù)冪分布性質(zhì)和推斷進(jìn)行了研究;WU等[3]利用聯(lián)合懲罰似然方法對(duì)偏正態(tài)分布下聯(lián)合位置與尺度模型提出了一種可行有效的變量選擇方法;吳劉倉(cāng)等[4]研究了偏正態(tài)數(shù)據(jù)下聯(lián)合位置與尺度混合專家回歸模型的參數(shù)估計(jì);馬婷等[5],吳劉倉(cāng)等[6]分別基于SN,StN分布下研究了聯(lián)合位置、尺度與偏度模型的極大似然估計(jì).偏正態(tài)分布的概率密度由差的平方進(jìn)行刻畫,為了能使估計(jì)的結(jié)果更加具有穩(wěn)健性,把偏正態(tài)分布進(jìn)行擴(kuò)展,從而引入偏Laplace正態(tài)分布,其概率密度用差的絕對(duì)值來(lái)表示.因此,分布的尾部比正態(tài)分布更加平坦.由于偏Laplace正態(tài)分布受異常點(diǎn)數(shù)據(jù)的影響不大、得到的結(jié)果比較穩(wěn)健,吸引了很多學(xué)者的研究興趣.Dogru和Arslan[7]在偏Laplace正態(tài)分布下研究了混合回歸模型的參數(shù)估計(jì).Garay等[8]研究了偏正態(tài)分布混合尺度的非線性回歸模型的統(tǒng)計(jì)診斷.張舒宇等[9]研究了基于Laplace分布下混合聯(lián)合位置與尺度模型的參數(shù)估計(jì).
綜上所述,雖然偏Laplace正態(tài)分布的回歸模型已經(jīng)有很多研究成果,但在偏Laplace正態(tài)分布下對(duì)位置和均值回歸模型建模的涉及較少,考慮到位置和均值建模的重要性,本文詳細(xì)介紹了利用EM算法對(duì)這兩個(gè)模型的參數(shù)進(jìn)行極大似然估計(jì),并通過(guò)實(shí)例結(jié)果表明本文所提出來(lái)的模型和方法的實(shí)用性和可行性.
本文結(jié)構(gòu)安排如下: 第二部分給出了偏Laplace正態(tài)分布的一些性質(zhì);第三部分給出了偏Laplace正態(tài)分布下位置和均值回歸模型;第四部分利用EM算法對(duì)位置和均值回歸模型的參數(shù)進(jìn)行極大似然估計(jì);第五部分通過(guò)Monte Carlo隨機(jī)模擬實(shí)驗(yàn)證實(shí)了本文提出方法的有效性;最后,實(shí)例研究結(jié)果表明,本文所提出的模型和方法是科學(xué)合理的.
對(duì)于服從偏Laplace正態(tài)分布的隨機(jī)變量Y可以表示為Y ~SLN(μ,σ2,λ),其中μ為位置參數(shù),σ2為尺度參數(shù),λ為偏度參數(shù).則其概率密度函數(shù)可表示為
其中Φ為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù),fL(y;μ,σ)為L(zhǎng)aplace分布的概率密度函數(shù),且
Ⅰ偏Laplace正態(tài)分布下的隨機(jī)表示
設(shè)Z ~SN(0,1,λ),V的概率密度函數(shù)為fV(v) =v?3exp(?(2v2)?1),v >0是兩個(gè)獨(dú)立隨機(jī)變量,隨機(jī)變量Y ~SLN(μ,σ2,λ)表達(dá)式為
然后,利用文[1]中的201頁(yè)和文[10]中的定理1,分布隨機(jī)變量Z的隨機(jī)表示得隨機(jī)變量Y的以下隨機(jī)表示
其中Z1~N(0,1),Z2~N(0,1)是獨(dú)立隨機(jī)變量,從而得到偏Laplace正態(tài)分布的層次表示
Ⅰ位置回歸模型
由概率密度函數(shù)式(2.1)及位置參數(shù)回歸模型(3.1)可以得到
Ⅱ均值回歸模型
這里yi為第i個(gè)響應(yīng)變量,服從位置參數(shù)為μi,尺度參數(shù)為σ2,偏度參數(shù)為λ的偏Laplace正態(tài)分布,xi=(xi1,··· ,xip)T是解釋變量,β=(β1,··· ,βp)T是維數(shù)為p×1的位置回歸模型的未知參數(shù),α=(α1,··· ,αp)T是維數(shù)為p×1的均值回歸模型的未知參數(shù).
本文采用極大似然估計(jì)的方法對(duì)參數(shù)進(jìn)行估計(jì),但因有潛變量存在,所以直接估計(jì)參數(shù)比較困難.EM算法作為解決潛變量問(wèn)題參數(shù)估計(jì)的有效方法,因此接下來(lái)本文介紹所提出模型參數(shù)的極大似然估計(jì)的EM算法.
Ⅰ位置回歸模型下極大似然估計(jì)的EM算法
由式(3.2)可得似然函數(shù)為:
EM算法(Expectation Maximization Algorithm)是一種迭代算法,其具體流程分為兩個(gè)步驟進(jìn)行: E-step是根據(jù)參數(shù)初始值或上一次迭代所得結(jié)果來(lái)計(jì)算對(duì)數(shù)似然函數(shù)的期望值;M-step是將對(duì)數(shù)似然函數(shù)最大化以獲得新的參數(shù)值,用新得到的參數(shù)值代替初始值或上一次迭代所得結(jié)果使得對(duì)數(shù)似然函數(shù)最大化.重復(fù)執(zhí)行以上兩步驟,直至收斂.下面給出EM算法在偏Laplace正態(tài)數(shù)據(jù)下位置回歸模型的參數(shù)估計(jì)中的計(jì)算步驟:
E-step: 給定觀測(cè)數(shù)和當(dāng)前參數(shù)值,求出(4.3)式中給出的完全數(shù)據(jù)似然函數(shù)的條件期望,即計(jì)算(4.5)-(4.7)式中的條件期望.
Ⅱ均值回歸模型下極大似然估計(jì)的EM算法
由式(3.4)可得似然函數(shù)為
設(shè)u=(u1,··· ,un),v=(v1,··· ,vn)為缺失數(shù)據(jù),(y,u,v)為完全數(shù)據(jù).然后用層次表示法得完全數(shù)據(jù)下對(duì)數(shù)似然函數(shù)為
下面給出EM算法在偏Laplace正態(tài)數(shù)據(jù)下均值回歸模型的參數(shù)估計(jì)中的計(jì)算步驟:
E-step: 給定觀測(cè)數(shù)據(jù)和當(dāng)前參數(shù)值,求出式(4.11)中給出的完全數(shù)據(jù)似然函數(shù)的條件期望,即計(jì)算(4.13)-(4.15)中的條件期望.
Ⅰ位置回歸模型參數(shù)估計(jì)的Monte Carlo模擬
為評(píng)價(jià)位置回歸模型參數(shù)估計(jì)方法的有效性,本文對(duì)有限樣本進(jìn)行模擬研究,參數(shù)估計(jì)的精確度使用均方誤差(MSE)來(lái)評(píng)價(jià)和衡量,其定義如下:
根據(jù)模型(5.1)產(chǎn)生模擬數(shù)據(jù),其中xi ~U(?1,1).yi(i=1,2,··· ,n)是根據(jù)偏Laplace正態(tài)分布產(chǎn)生的響應(yīng)變量,且yi服從偏Laplace正態(tài)分布,yi的產(chǎn)生過(guò)程如下:
1) 樣本U來(lái)自均勻分布(0,1)并設(shè);
2) 樣本Z1和Z2獨(dú)立于標(biāo)準(zhǔn)正態(tài)分布N(0,1);
3) 用適當(dāng)?shù)膮?shù)值給出偏Laplace正態(tài)分布樣本.
Ⅱ均值回歸模型參數(shù)估計(jì)的Monte Carlo模擬
為評(píng)價(jià)均值回歸模型參數(shù)估計(jì)方法的有效性,參數(shù)估計(jì)的精確度使用均方誤差(MSE)來(lái)評(píng)價(jià)和衡量,其定義如下:
均取樣本量n=50,100,150,200,重復(fù)模擬1000次.模擬結(jié)果見(jiàn)表1、表2.
表1 位置回歸模型的參數(shù)估計(jì)模擬結(jié)果
表2 均值回歸模型的參數(shù)估計(jì)模擬結(jié)果(由于λ在分母上,故λ≠0)
從表1和表2可以得到,隨著樣本量n的增大,所有數(shù)的估計(jì)值越來(lái)越接近真值,而且估計(jì)的均方誤差(MSE)也越來(lái)越小.以上結(jié)論表明,本文提出的偏Laplace正態(tài)數(shù)據(jù)下位置和均值回歸模型及所使用的EM算法對(duì)參數(shù)的極大似然估計(jì)取得了較理想的效果.
近年來(lái),隨著人們收入的增長(zhǎng)和生活水平的提高,觀看電影逐漸成為人們消遣娛樂(lè)的一種方式,故電影行業(yè)發(fā)展迅速,下面利用本文提出的偏Laplace正態(tài)分布的位置和均值回歸模型及其方法,對(duì)電影票房數(shù)據(jù)進(jìn)行參數(shù)估計(jì).本文對(duì)收集到的各類電影總票房和首映票房進(jìn)行統(tǒng)計(jì)分析,該數(shù)據(jù)中包含一個(gè)響應(yīng)變量Y-總票房和一個(gè)解釋變量X-首映票房,計(jì)算可得電影總票房的偏度系數(shù)結(jié)果表明是右偏的,直方圖如圖1所示.
圖1 電影票房數(shù)據(jù)分布直方圖
圖1和偏度系數(shù)說(shuō)明電影票房數(shù)據(jù)近似的服從偏Laplace正態(tài)分布,所以可以利用該數(shù)據(jù)對(duì)偏Laplace正態(tài)分布的位置和均值回歸模型做參數(shù)估計(jì),考慮Y與X之間的模型如下:
利用第四部分提出的參數(shù)估計(jì)方法,得到下表3.
表3 電影票房數(shù)據(jù)的位置、均值回歸模型參數(shù)估計(jì)結(jié)果
由于在同一組電影票房數(shù)據(jù)中,尺度和偏度參數(shù)是一樣的.從表中可以看出在兩個(gè)模型中的σ2和λ大體相同,但β和α在模型中代表了不同的位置,所以存在較大差異,與實(shí)際相符合,表明我們提出的模型和方法是科學(xué)合理的.
本文利用EM算法研究了偏Laplace正態(tài)數(shù)據(jù)下位置和均值回歸模型的參數(shù)估計(jì).從Monte Carlo模擬結(jié)果來(lái)看,本文提出的EM算法對(duì)位置和均值回歸模型的參數(shù)估計(jì)取得了較好的效果,并且在實(shí)例分析中,對(duì)電影票房實(shí)際數(shù)據(jù)的應(yīng)用研究也表明了本文提出的模型和方法是科學(xué)合理的.