王淑媛 崔麗鴻
(北京化工大學(xué) 數(shù)理學(xué)院, 北京 100029)
密度函數(shù)估計是統(tǒng)計學(xué)中的一個基本問題。密度估計分為參數(shù)估計和非參數(shù)估計,對于后者,直方圖估計、核估計以及k-近鄰估計等都是研究的重點(diǎn)[1-2]。隨著小波理論的完善,加上其具有諸如正交性、緊支性、多分辨分析(MRA)等優(yōu)良特性,使得小波分析的應(yīng)用成為近年來非參數(shù)統(tǒng)計與計量研究的熱點(diǎn)。1988年,Doukhan[3]首先提出了小波密度估計的概念。隨后,許多學(xué)者對此進(jìn)行研究,并給出了收斂階的證明[4-5]。但由于單小波不能同時滿足正交性、對稱性及緊支性,在實(shí)際應(yīng)用中造成了很大困擾,基于此,雙正交小波和多小波相繼被提出。
Locke等[6]首次將多小波應(yīng)用到密度函數(shù)估計中,并給出了估計器表達(dá)式,最后通過模擬實(shí)驗(yàn)對比了小波與多小波估計的結(jié)果。黃守勇等[7]給出了線性多小波密度估計的收斂階及證明。本文基于文獻(xiàn)[6]提出的多小波密度估計,結(jié)合呂軍等[8]給出的一類二元多小波構(gòu)造方法,提出了一類二元多小波密度估計,并證明其在積分均方誤差(MISE)意義下存在收斂上界。仿真和實(shí)例數(shù)據(jù)的實(shí)驗(yàn)結(jié)果證明了方法和估計的可行性。
φ(x,y)=φ(x)φ(y)
記
φj,k1,k2(x,y)=2jφ(x-k1,y-k2)
ψl,j,k1,k2(x,y)=2jψi(x-k1,y-k2)
式中,j為分辨率水平,k1、k2為平移參數(shù),且j∈Z,k1,k2∈Z。
對任意的整數(shù)J>j0,j0∈Z,由多分辨分析定義[9]可知,二元實(shí)值函數(shù)f(x,y)∈L2(R2)在VJ空間的投影可展開為
ψl,j,k1,k2(x,y)
(1)
由尺度函數(shù)和小波函數(shù)的正交性可得
αj0,k1,k2=〈f(x,y),φj0,k1,k2(x,y)〉=?f(x,y)·φj0,k1,k2(x,y)dxdy
βl,j,k1,k2=〈f(x,y),ψl,j,k1,k2(x,y)〉=?f(x,y)·ψl,j,k1,k2(x,y)dxdy
由數(shù)學(xué)期望定義可得
αj0,k1,k2=?f(x,y)φj0,k1,k2(x,y)dxdy=E(φj0,k1,k2(X,Y))
βl,j,k1,k2=?f(x,y)ψl,j,k1,k2(x,y)dxdy=E(ψl,j,k1,k2(X,Y))
得到式(1)的樣本估計為
(2)
多小波是一種特殊的小波,它的基函數(shù)由向量函數(shù)構(gòu)成[10-12]。假設(shè)多尺度向量函數(shù)和多小波向量函數(shù)分別為
Φ=[Φ1,Φ2,…,Φr]T,r∈Z
Ψ=[Ψ1,Ψ2,…,Ψr]T,r∈Z
這里一類二元多尺度函數(shù)和一類二元多小波函數(shù)的構(gòu)造采用文獻(xiàn)[8]的方法,即
Φ(x,y)=Φ(x)φ(y)
記
Φj,k1,k2(x,y)=2jΦ(x-k1,y-k2)
Ψl,j,k1,k2(x,y)=2jΨl(x-k1,y-k2)
定義1r重的多分辨分析是L2(R2)中滿足以下條件的閉子空間VJ的嵌套序列,即:
(1)Vj∈Vj+1,j∈Z;
(3)h(x,y)∈Vj?h(2x,2y)∈Vj+1,j∈Z;
(4)h(x,y)∈Vj?h(x-k1,y-k2)∈Vj,j∈Z,k1,k1∈Z;
(5)存在r個函數(shù)Φ1(x,y),Φ2(x,y),…,Φr(x,y),使得{Φw(x-k1,y-k2),1≤w≤r,k1,k2∈Z}是空間V0的標(biāo)準(zhǔn)正交基。
令Wj是Vj+1中關(guān)于VJ的正交補(bǔ)空間,則L2(R2)能分解為空間Wj的直和,即
故任意的二元實(shí)值函數(shù)f(x,y)∈L2(R2)在VJ空間的投影可展開為
(3)
由多尺度函數(shù)和多小波函數(shù)的正交性可得
從而得到式(3)的樣本估計為
(4)
其中s為平滑參數(shù),p、m為空間的范數(shù)指標(biāo),且s>0,1≤p≤∞,1≤m≤∞。
證明:
綜上可得
證明:
由1.2節(jié)尺度系數(shù)估計值可知
由引理2可得
應(yīng)用Holder不等式可得
綜上所述
證明:
其中
由引理1可得
A≤C2-2Js
經(jīng)計算有
根據(jù)引理3可得
又因?yàn)?J≤n1/(2s+2),所以有
本節(jié)通過模擬及實(shí)例說明提出方法的可行性,并通過均方根誤差值來對比小波密度估計及多小波密度估計的優(yōu)劣。均方根誤差定義為
例1設(shè)二元隨機(jī)變量(X,Y)服從均勻分布,其中x∈[0,1],y∈[0,1],密度函數(shù)為
本例選取CL2*Db4(*表示乘積)構(gòu)成的二元多小波以及Db4*Db8構(gòu)成的二元單小波,對密度函數(shù)進(jìn)行估計,分辨率水平取J=4,樣本量n=10 000。
圖1為均勻分布的真實(shí)的密度函數(shù)圖像,圖2和圖3分別為多小波及單小波估計的圖像,其中,多小波誤差為0.164,單小波誤差為0.388。由圖1~3可以看出,兩種估計均能真實(shí)地描述服從均勻分布隨機(jī)數(shù)據(jù)的規(guī)律,但由于尺度函數(shù)的緊支性,當(dāng)平移向量很大時,圖像在邊界處漸進(jìn)有偏,且多小波的偏離程度明顯小于單小波。
例2設(shè)二元隨機(jī)變量(X,Y)服從正態(tài)分布,其中x∈[0,1],y∈[0,1],密度函數(shù)為
本例選取STT*Db4和CL2*Db4構(gòu)成的兩個二元多小波以及Db4*Db8構(gòu)成的二元單小波,對服從正態(tài)分布的數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn),分辨率水平J=4,樣本量n=10 000。
圖4表示真實(shí)的正態(tài)分布密度函數(shù),圖5~7分別為不同基函數(shù)的多小波及單小波估計的密度函數(shù)圖像。從圖4~7可以看出,對于邊界處為0的正態(tài)分布,多小波估計具有較好的估算精度,能夠客觀地反映出數(shù)據(jù)的分布規(guī)律,且邊界處擬合度更佳。由表1和圖8可以得出,隨樣本量的增加,多小波密度估計的誤差和運(yùn)行時間總是小于單小波,且在大樣本下優(yōu)勢更加明顯。
表1 隨樣本變化估計的運(yùn)行時間Table 1 Estimated run times of different samples
從線性表達(dá)式(式(2)和(4))可以看出,密度函數(shù)的信息包含在系數(shù)和基函數(shù)中,所以估計結(jié)果的質(zhì)量取決于分辨率水平J的選取。表2給出了不同分辨率水平對估計誤差值的影響,可以看出,隨著分辨率水平J的增加,估計的誤差值先變小后變大,且對于不同的基函數(shù),最優(yōu)分辨率水平不同。
表2 隨分辨率水平變化估計的誤差值Table 2 Error values of estimates at different resolution
例3實(shí)例分析中,二元多小波可以用來估計美國黃石公園中噴泉噴發(fā)時長和間隔時長的密度函數(shù),該數(shù)據(jù)集可在www.geyserstudy.org/geyser.aspx?pGeyserNo=OLDFAITHFU上公開獲取。本例選取n=1 922個樣本,基函數(shù)為CL2*Db4構(gòu)成的二元多小波,分辨率水平J=3,結(jié)果如圖9~11所示。
圖9和圖10分別為噴泉的間隔時長和噴發(fā)時長分布直方圖,其中橫坐標(biāo)的時長均進(jìn)行了歸一化處理,圖11為相應(yīng)的密度估計圖像。本例選取的樣本量較少,且數(shù)據(jù)分布隨機(jī)性更強(qiáng),不再服從某一已知的分布函數(shù)。從圖9~11可以看出,一類二元多小波密度估計圖像與噴泉的直方圖趨勢吻合,能夠客觀地反映出數(shù)據(jù)的真實(shí)分布規(guī)律,說明該方法也適用于更一般的數(shù)據(jù)分析,在實(shí)際應(yīng)用中是有效的。
本文研究了一類二元多小波函數(shù)進(jìn)行概率密度估計的問題,給出了線性多小波估計器,并且證明其在積分均方誤差意義下存在收斂上界。在仿真實(shí)驗(yàn)中,通過選取不同分布的二元數(shù)據(jù)進(jìn)行多小波密度估計,并與單小波進(jìn)行對比,驗(yàn)證了提出方法能夠較好地反映數(shù)據(jù)的真實(shí)分布規(guī)律且在某些條件下優(yōu)于單小波。最后,對實(shí)例的數(shù)據(jù)分析結(jié)果表明本文方法在實(shí)際應(yīng)用中是有效的。