汪太月,戴燕青
(1.湖北工業(yè)大學(xué) 理學(xué)院,湖北 武漢 430068;2.湖北理工學(xué)院 數(shù)理學(xué)院,湖北 黃石 435003)
在通常的信號(hào)分析與處理中,大多數(shù)信號(hào)被假定為高斯分布(即正態(tài)分布)[1].但是,在實(shí)際的信號(hào)處理問(wèn)題中,很多隨機(jī)過(guò)程都是服從廣義高斯分布(Generalized Gaussian Distribution,GGD)的.GGD在高斯分布的基礎(chǔ)上增加了自適應(yīng)系數(shù),是高斯分布的拓展形式,且二者都是嚴(yán)格對(duì)稱的分布[2].以GGD為特例的非對(duì)稱廣義高斯分布(Asymmetric Generalized Gaussian Distribution,AGGD)突破了對(duì)稱性的限制,在處理不對(duì)稱數(shù)據(jù)樣本時(shí)更為靈活.相對(duì)高斯分布而言,GGD和AGGD所研究的對(duì)象更為復(fù)雜,經(jīng)常被用于圖像/視頻信號(hào)處理及統(tǒng)計(jì)分析之中,其形狀參數(shù)常被作為圖像的特征進(jìn)行分類(lèi)或回歸.例如,在基于變換域的數(shù)字圖像處理中,小波變換[3]的系數(shù)、離散余弦變換的交流系數(shù)[4]都可用GGD或AGGD來(lái)擬合.在盲源分離及獨(dú)立成分分析過(guò)程中[5],將GGD或AGGD作為信號(hào)源的分布及評(píng)價(jià)函數(shù)也是合理的.此外,根據(jù)對(duì)實(shí)際觀測(cè)數(shù)據(jù)的分析和研究,某些非高斯噪聲[6]都可以采用它們來(lái)進(jìn)行模擬.相比廣義高斯分布而言,如同非對(duì)稱高斯分布一樣,非對(duì)稱廣義高斯分布突破了對(duì)稱性的束縛.因此,在數(shù)據(jù)挖掘及信號(hào)處理的實(shí)際應(yīng)用中,采用AGGD分析和建模更為合理,靈活性更強(qiáng),適用范圍也更為廣泛.
高斯分布是一種最常見(jiàn)的連續(xù)型隨機(jī)分布,在概率論與數(shù)理統(tǒng)計(jì)的理論研究及實(shí)際應(yīng)用中都占有非常重要的地位.在實(shí)際問(wèn)題中,如果某個(gè)隨機(jī)變量受到許多相互獨(dú)立的隨機(jī)因素影響,而每個(gè)隨機(jī)因素都不能起決定性作用,那么就能斷定該隨機(jī)變量服從或近似服從高斯分布,如工件的測(cè)量誤差;氣象學(xué)中的溫度及濕度;醫(yī)學(xué)現(xiàn)象中同質(zhì)群體身高、體重、紅細(xì)胞數(shù)、血紅蛋白量、膽固醇等.隨著研究的深入,高斯分布在誤差理論、產(chǎn)品檢驗(yàn)、質(zhì)量控制、質(zhì)量管理、無(wú)線電噪聲等領(lǐng)域中都有著廣泛的應(yīng)用[7].
圖1 高斯分布概率密度函數(shù)曲線(μ=0)
由圖1可以看出,如果固定μ,改變?chǔ)?的值,則σ2愈小,曲線呈高而瘦;σ2愈大,曲線呈矮而胖.這說(shuō)明高斯分布的概率密度函數(shù)的尺度由參數(shù)σ所決定,因此亦稱σ為尺度參數(shù).
(1)
當(dāng)式(1)中的Nl和Nr分別表示xk<μ和xk≥μ的樣本容量時(shí),模型可表示為:
(2)
左右方差與偏斜程度之間有著密切的聯(lián)系,偏度系數(shù)能用來(lái)量化非對(duì)稱的概率密度函數(shù)的偏斜程度,即三階參數(shù)為[8]:
(3)
偏度系數(shù)能刻畫(huà)數(shù)據(jù)分布的偏斜程度及方向,很好地反映分布偏離對(duì)稱性的程度.若該系數(shù)為0,則表示數(shù)據(jù)分布嚴(yán)格對(duì)稱;若呈右偏態(tài)(負(fù)偏態(tài))分布,即右尾長(zhǎng),該系數(shù)就大于0;若呈左偏態(tài)(正偏態(tài))分布,即左尾長(zhǎng),該系數(shù)就小于0.
源于廣義Gamma分布的廣義高斯分布是一種應(yīng)用廣泛的對(duì)稱隨機(jī)分布,可視為高斯分布的推廣形式.Laplace分布是其特例,而連續(xù)型均勻分布和單位脈沖函數(shù)是其極限形式.廣義Gamma分布的概率密度函數(shù)為[9]:
(4)
(5)
(6)
為簡(jiǎn)化計(jì)算,常常考慮μ=0的情形.
當(dāng)α<2,為超高斯分布;α>2,為亞高斯分布[13].
3) 當(dāng)α→0時(shí),有Kurtosis>3,此時(shí)GGD的概率密度函數(shù)趨于δ函數(shù),即:
4) 當(dāng)α→∞時(shí),GGD趨于均勻分布.
μ=0,σ=10,α分別為2,1,0.7,100的概率密度函數(shù)曲線如圖2所示.
圖2 不同參數(shù)α的GGD概率密度函數(shù)曲線(μ=0,σ=10)
廣義高斯分布族可用來(lái)描述可變尾長(zhǎng)的對(duì)稱分布.但對(duì)于非對(duì)稱分布,就需要對(duì)GGD進(jìn)行改進(jìn),構(gòu)造出AGGD.前面我們用左右方差代替方差得到非對(duì)稱高斯模型,于是,采用類(lèi)似方法來(lái)建立AGGD模型,從而得到其概率密度函數(shù)表達(dá)式:
(7)
為研究分布的離散程度及峰值附近的陡峭程度,由式(7)所確定的非對(duì)稱廣義高斯分布隨機(jī)變量的方差及其四階矩分別為:
(a) α=0.7
(b) α=2
(c) α=10
(d) α=100
不失一般性,考慮μ=0的情形.令A(yù)GGD概率密度函數(shù)fagg的右半軸部分為GGD的概率密度函數(shù)fgg(x;αr,βr)的右側(cè),左半軸部分為GGD的概率密度函數(shù)fgg(x;αl,βl)的左側(cè),即:
(8)
fgg(0;αr,βr)=fgg(0;αl,βl).
即:
代入式(8)得:
(9)
根據(jù)概率密度函數(shù)的正則性,有:
于是,可得到AGGD概率密度函數(shù)fagg的矩:
不同參數(shù)αl,αr的AGGD概率密度函數(shù)曲線如圖4所示.由圖4可知,若αl,αr中有一個(gè)參數(shù)不大于2,則概率密度函數(shù)曲線在μ=0處就不光滑,即μ=0是此模型構(gòu)造的AGGD概率密度函數(shù)的奇異點(diǎn).
(αl=0.7,αr=0.2)
(αl=0.7,αr=4)
(αl=3,αr=1)
圖4 不同參數(shù)αl,αr的AGGD概率密度函數(shù)曲線
非對(duì)稱形式的廣義高斯分布是一類(lèi)較廣義高斯分布更為復(fù)雜的分布形式,是廣義高斯分布的延續(xù)和推廣.利用GGD左右兩邊的方差不同及2個(gè)不同GGD概率密度函數(shù)在交接點(diǎn)處連續(xù)構(gòu)造了AGGD模型,突破了高斯分布及廣義高斯分布對(duì)稱性的限制,減少了理論研究中的過(guò)多假設(shè).在數(shù)據(jù)采集與處理、變換域圖像分析、降噪去噪等應(yīng)用領(lǐng)域,采用AGGD分析建模靈活性更強(qiáng),適用性也更好.今后將進(jìn)一步對(duì)其統(tǒng)計(jì)性質(zhì)進(jìn)行深入研究.