許 岷
(北京航空航天大學 經(jīng)濟管理學院,北京市 100191)
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量級爆發(fā)式增長,數(shù)據(jù)維度不斷增高,數(shù)據(jù)類型越來越復雜、多樣。許多基于傳統(tǒng)點數(shù)據(jù)的統(tǒng)計分析方法不再適用,亟待進一步更新與擴展。1987年,分類學家Diday[1]提出了符號數(shù)據(jù)的概念,即通過“數(shù)據(jù)打包”思想,將海量、高維數(shù)據(jù)按類打包成一個“符號”。區(qū)間數(shù)據(jù)是一類典型的符號數(shù)據(jù)。
近年來,基于區(qū)間數(shù)據(jù)的經(jīng)典統(tǒng)計分析方法被廣泛研究,區(qū)間數(shù)據(jù)的線性回歸模型已發(fā)展的相當成熟。Billard和Diday[2]利用區(qū)間的中心表示區(qū)間數(shù)據(jù),并建立了區(qū)間中心的線性回歸模型。為了進一步挖掘區(qū)間內(nèi)部信息,Lima Neto和Carvalho[3]提出了中心半長法,即使用區(qū)間的中心和半長表示區(qū)間,并分別建立區(qū)間中心和半長的線性回歸模型。該方法的提出打開了區(qū)間數(shù)據(jù)分析的新局面,一系列基于中心半長法的模型相繼被提出,如Lasso回歸模型[4]、非參數(shù)模型[5]和考慮內(nèi)部散點的回歸模型[6]等。
從統(tǒng)計決策理論角度看,現(xiàn)有的區(qū)間數(shù)據(jù)回歸模型的參數(shù)求解過程是通過最小化平方損失函數(shù)得到參數(shù)的估計。例如,在基于中心半長法的區(qū)間回歸模型中,通過最小化平方損失得到回歸系數(shù)的最小二乘估計[3]。平方損失是一種常用的對稱損失函數(shù),已經(jīng)廣泛使用在統(tǒng)計建模的各個領域。
對稱的損失函數(shù)對高估或者低估某個參數(shù)賦予相同的風險測度,但在醫(yī)學分析、可靠性分析、金融數(shù)據(jù)分析研究中,高估或者低估某一特定值常常會產(chǎn)生更大的風險。例如,股票投資中股民對股票價格的波動非常敏感,過高或過低的預測估計都會影響股民的投資決策和投資利益[7]。在可靠性分析領域,高估某件器材的平均壽命要比低估該器材的平均壽命帶來的風險更大[8]等。此時,需要引入新的非對稱損失函數(shù)解決參數(shù)高估或者低估問題。
Varian[9]提出的線性指數(shù)(linearexponential,LINEX)函數(shù)是一種典型的非對稱損失函數(shù)。Zellner[10]將其拓展到貝葉斯數(shù)據(jù)分析領域。如今,各類基于LINEX損失函數(shù)的貝葉斯估計已被廣泛研究。王茹和周菊玲[11]提出了復合LINEX對稱損失下Kumaraswamy分布參數(shù)的貝葉斯估計。王理峰[12]研究了在LINEX損失下,多元正態(tài)分布熵的Stein型和Brester-Zidek型貝葉斯估計等。
利用區(qū)間數(shù)據(jù)刻畫醫(yī)學、地質(zhì)學數(shù)據(jù)時也會遇到刻畫參數(shù)高估或低估風險的問題。因此提出基于LINEX損失的區(qū)間線性回歸模型有重要的理論與現(xiàn)實意義。
本節(jié)闡述基于LINEX損失函數(shù)的回歸系數(shù)貝葉斯估計值的求法。首先介紹模型的矩陣表示及貝葉斯框架;其次求解回歸系數(shù)的后驗邊緣分布,并在LINEX損失條件下求解貝葉斯估計值。
本節(jié)利用模擬數(shù)據(jù),比較基于LINEX損失函數(shù)的貝葉斯估計值和最小二乘估計值的風險。依次介紹模擬數(shù)據(jù)的生成方法和不同預測指標,最后對試驗結果進行比較和討論。
本節(jié)參照已有文獻生成模擬數(shù)據(jù),中心和半長數(shù)據(jù)可以按均勻分布生成,回歸系數(shù)可以看成固定的常數(shù)。具體步驟如下:對第 i(i=1,2,…,n)個樣本,
對每種樣本量 n=20,50,100的模擬數(shù)據(jù)重復M=1000次,計算平均風險比較基于LINEX損失的貝葉斯估計值和最小二乘估計。本文選取在LINEX損失函數(shù)研究領域常用的LINEX風險及比率作為評價指標,設θ為真實參數(shù)值,則風險值R定義為:
風險值R越低表示估計值越有效。分別利用RLINEX和RLS表示基于LINEX損失的貝葉斯估計值和基于LINEX損失的貝葉斯估計值和最小二乘估計值。定義二者的比率RE:
其中,RE<1表示貝葉斯估計值的風險比最小二乘估計值小,即貝葉斯估計值更有效。反之,最小二乘估計值更有效,當RE接近于1時,表示兩個估計值的有效性相近。
表1和表2展示了基于LINEX風險的比較結果。
表1 基于LINEX損失的風險比較(a=-2,-1)
表2 基于LINEX損失的風險比較(a=1,2)
由表1和表2可知,無論樣本量n和參數(shù)a取何值,在LINEX損失下,基于LINEX損失的貝葉斯估計值的風險均小于最小二乘估計的風險。例如,當a=-2,n=100時,RLINEX和RLS值分別為2.405和4.457,二者的比值RE=0.54;當a=1,n=20時,RLINEX和RLS值分別為3.898和11.336,二者的比值RE=0.344。圖1展示了不同參數(shù)a和樣本量n條件下RE的變化,進而比較不同參數(shù)a和樣本量n條件下風險的變化。
圖1 基于LINEX損失的風險比較
圖1中,隨著參數(shù)a絕對值的增加,RE的值在降低,即當|a|較小時,基于LINEX的貝葉斯估計值與最小二乘估計相對比較接近,這與LINEX損失函數(shù)的性質(zhì)保持一致。例如,當n=20時,a=-2時,比率RE=0.0123;但當n=20,a=-1時,比率RE增加到0.3968。
隨著樣本量n的增加,無論a取何值,比率RE都呈上升趨勢,即在樣本量較大時,基于LINEX的貝葉斯估計值與最小二乘估計相對比較接近。例如,當a=1,n=20 時,比率 RE=0.344,但當 a=1,n=50、100 時,比率RE逐步增加,分別為0.701和0.891。綜上,在LINEX損失下,本文提出的貝葉斯估計相對優(yōu)于已有的最小二乘估計。
本文提出了基于LINEX損失函數(shù)的區(qū)間回歸系數(shù)的貝葉斯估計。主要研究包括:(1)推導區(qū)間數(shù)據(jù)回歸系數(shù)的后驗邊緣分布;(2)利用蒙特卡洛方法求解基于LINEX損失的回歸系數(shù)估計值;(3)比較該估計與現(xiàn)有最小二乘估計的風險測度。模擬研究表明,本文提出的貝葉斯估計在LINEX風險測度下明顯優(yōu)于最小二乘估計。