羅心藝, 彭作祥
西南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400715
設(shè){Xn,n≥1}為獨(dú)立同分布的隨機(jī)變量序列, 其公共分布函數(shù)為F(x).若存在常數(shù)an>0,bn∈R使得對(duì)所有1+γx>0, 有
(1)
(2)
當(dāng)分布函數(shù)F未知時(shí), 對(duì)極值指數(shù)γ的估計(jì)是極值理論的一個(gè)重要組成部分, 受到了學(xué)者的廣泛關(guān)注, 常用于金融、保險(xiǎn)、自然災(zāi)害等領(lǐng)域.在分布函數(shù)形式未知的情況下, 文獻(xiàn)[1]提出了著名的Hill估計(jì)量, 推斷分布函數(shù)的尾部表現(xiàn); 文獻(xiàn)[2-4]在一定條件下證明了Hill估計(jì)量的相合性和漸近正態(tài)性; 文獻(xiàn)[5]提出了矩率估計(jì)量, 并給出了其分布表示; 文獻(xiàn)[6]提出了一系列基于二階參數(shù)的外部估計(jì)得到的漸近無(wú)偏估計(jì)量, 并證明了其漸近性質(zhì); 文獻(xiàn)[7]證明了包含Hill估計(jì)量和矩率估計(jì)量在內(nèi)的一系列尾指數(shù)估計(jì)量的漸近正態(tài)性.關(guān)于尾指數(shù)估計(jì)量的更多研究, 見(jiàn)文獻(xiàn)[8-10].
在大數(shù)據(jù)時(shí)代, 估計(jì)極值指數(shù)時(shí), 常常會(huì)遇到被分開(kāi)存儲(chǔ)的數(shù)據(jù), 例如分析來(lái)自不同保險(xiǎn)公司的保險(xiǎn)索賠時(shí), 為了保護(hù)客戶的隱私, 保險(xiǎn)公司不能向外部分享具體的數(shù)據(jù), 甚至不能分享任何索賠結(jié)果, 此時(shí)前文所提的Hill估計(jì)量和矩率估計(jì)量等都不可用.與大部分尾指數(shù)估計(jì)量的相關(guān)文獻(xiàn)一樣, Hill估計(jì)量等只使用了一部分秩序較高的統(tǒng)計(jì)量.文獻(xiàn)[11]和文獻(xiàn)[12]基于塊方法提出了DPR估計(jì)量.當(dāng)數(shù)據(jù)被分組儲(chǔ)存且每組只有少數(shù)幾個(gè)最大的樣本可用于分析時(shí), DPR方法是可行的, 但是它僅使用了每塊中最大的兩個(gè)樣本, 很可能并不是尾指數(shù)的充分統(tǒng)計(jì)量.
(3)
受文獻(xiàn)[13]啟發(fā), 本文基于矩率估計(jì)量提出如下分布式矩率估計(jì)量
(4)
(5)
(6)
其中
(7)
定理1的證明由文獻(xiàn)[14]的定理B.1.9知, 對(duì)x>1和t≥t0有,
(γ-ε)log((1-ε)x) (8) 則 (γ-ε)2(log((1-ε)x))2<(logU(tx)-logU(t))2<(γ+ε)2(log((1+ε)x))2 (9) 由(10)式和(11)式可得 (12) 由文獻(xiàn)[15]的引理3.4知 其中{Ej(i),i=1, …,d}服從獨(dú)立同分布的標(biāo)準(zhǔn)指數(shù)分布,j=1,…,k.因此 (13) (14) 對(duì)定理2的證明, 我們需要下面這個(gè)輔助引理. 引理1令Z(1)≥…≥Z(m)表示服從Pareto(1)分布的獨(dú)立隨機(jī)變量{Z1, …,Zm}的次序統(tǒng)計(jì)量, 則對(duì)任意ρ≤0, 有 證見(jiàn)文獻(xiàn)[13]的引理S.3. (15) (16) (17) 對(duì)ρ<0, 存在δ>0使得ρ+δ<0, 應(yīng)用不等式 可以得到 對(duì)于I2, 記 故 其后的證明方法與ρ<0的情況類似, 此處省略, 定理證畢. 本文提出了分布式矩率估計(jì)量, 下面將其與分布式Hill估計(jì)量進(jìn)行有限樣本表現(xiàn)的比較.以γ=1,ρ=-1, 機(jī)器數(shù)量一定時(shí), Burr分布的表現(xiàn)為例, 其分布函數(shù)為F(x)=1-(1+x)-1.隨機(jī)生成n個(gè)來(lái)自Burr分布的樣本, 存儲(chǔ)在k個(gè)機(jī)器中, 每個(gè)機(jī)器有m個(gè)觀測(cè), 對(duì)每一個(gè)機(jī)器, 從m個(gè)觀測(cè)中選取d個(gè)超過(guò)數(shù)(d為自變量), 分別計(jì)算分布式Hill估計(jì)量和分布式矩率估計(jì)量的估計(jì)均值和均方誤差, 每個(gè)實(shí)驗(yàn)重復(fù)s次并取平均值. 設(shè)置n=1 000,k=20,m=50,s=100,d的取值范圍為1,…,30, 模擬結(jié)果如圖1所示. 圖1 Burr(1)的分布式Hill估計(jì)量和分布式矩率估計(jì)量的估計(jì)均值及均方誤差3 模擬研究