王萌萌 梁瀘丹 寇俊克
(桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西 桂林 541004)
在數(shù)理統(tǒng)計(jì)研究中,密度估計(jì)一直是一個(gè)極其重要的熱門(mén)研究問(wèn)題。 其研究成果被廣泛應(yīng)用到經(jīng)濟(jì)學(xué)、社會(huì)學(xué)以及生物統(tǒng)計(jì)等領(lǐng)域[1-4]。 特別是當(dāng)前大數(shù)據(jù)時(shí)代,如何對(duì)數(shù)據(jù)進(jìn)行高效地分析處理以便找出數(shù)據(jù)之間的特征規(guī)律就顯得尤其重要。密度估計(jì)作為數(shù)據(jù)分析的一種有效工具,能夠高效地找到數(shù)據(jù)所蘊(yùn)含的分布規(guī)律,這為后續(xù)數(shù)據(jù)分析處理提供了重要的參考依據(jù)。密度估計(jì)研究的本質(zhì)問(wèn)題是如何高效地利用觀測(cè)數(shù)據(jù)找到數(shù)據(jù)的分布規(guī)律。常規(guī)密度估計(jì)方法分為參數(shù)估計(jì)和非參數(shù)估計(jì)兩類(lèi)。參數(shù)估計(jì)方法需要事先假設(shè)數(shù)據(jù)滿(mǎn)足某個(gè)特定的模型或者有先驗(yàn)知識(shí)可以參考。 然而在實(shí)際應(yīng)用中,對(duì)于獲取的數(shù)據(jù)事先沒(méi)有任何先驗(yàn)知識(shí)可以利用且無(wú)法確定數(shù)據(jù)滿(mǎn)足哪些模型,因此,參數(shù)估計(jì)方法有一定的局限性,無(wú)法廣泛應(yīng)用。 相反,非參數(shù)估計(jì)方法不需要借助任何先驗(yàn)知識(shí),僅僅利用數(shù)據(jù)本身信息進(jìn)行估計(jì),因而在實(shí)際應(yīng)用中得到了廣泛的應(yīng)用。
在非參數(shù)估計(jì)方法中,核密度估計(jì)方法以其原理簡(jiǎn)單易懂且操作便捷而備受關(guān)注。核密度估計(jì)方法不需要先驗(yàn)知識(shí),且能夠處理較為復(fù)雜的數(shù)據(jù),同時(shí)其估計(jì)效果也十分理想。 鑒于上述特點(diǎn),核密度估計(jì)方法被廣泛應(yīng)用于公共事務(wù)、地理信息、醫(yī)療教育等多個(gè)領(lǐng)域[5-8]。核密度估計(jì)方法估計(jì)效果的優(yōu)劣其關(guān)鍵在于核函數(shù)的選取以及帶寬的選擇。 針對(duì)這一問(wèn)題,本文將借助MATLAB 軟件進(jìn)行數(shù)值模擬實(shí)驗(yàn), 對(duì)比分析不同核函數(shù)、不同帶寬以及不同樣本容量對(duì)密度估計(jì)效果的影響。通過(guò)實(shí)驗(yàn)分析核密度估計(jì)方法參數(shù)選取的優(yōu)劣性,以期為當(dāng)前大數(shù)據(jù)處理提供理論依據(jù)。
核密度估計(jì)方法作為非參數(shù)密度估計(jì)的經(jīng)典方法之一,在大數(shù)據(jù)處理中發(fā)揮著極其重要的作用。本文首先簡(jiǎn)要介紹核密度估計(jì)方法的原理。 在某一事件概率分布未知的情況下,利用觀測(cè)數(shù)據(jù)進(jìn)行密度函數(shù)估計(jì)。另外, 數(shù)據(jù)之間由于距離的遠(yuǎn)近也會(huì)產(chǎn)生不同程度的影響。 故認(rèn)為距離較近的數(shù)據(jù)互相之間產(chǎn)生的影響較大,而距離較遠(yuǎn)的數(shù)據(jù)產(chǎn)生的影響較小。核密度估計(jì)方法正是基于上述思想建立起來(lái)的。
設(shè)隨機(jī)變量X1,X2,…,Xn是從總體中抽取的獨(dú)立同分布樣本,其密度函數(shù)為f(x),則核密度估計(jì)器(為其中,n 為樣本容量,h 為帶寬,K(x)表示核函數(shù)。作為核密度估計(jì)方法的核心,其核函數(shù)應(yīng)具備以下條件:(1)非負(fù)性K(x)≥0;(2)對(duì)稱(chēng)性K(x)=K(-x);(3)歸一性∫RK(x)dx=1。 針對(duì)核密度估計(jì)器(f(x)來(lái)說(shuō),通過(guò)觀察發(fā)現(xiàn)該方法主要強(qiáng)調(diào)當(dāng)隨機(jī)變量Xi與變量x 的絕對(duì)值越小, 則兩者距離越小, 進(jìn)而隨機(jī)變量Xi對(duì)點(diǎn)x 處的密度函數(shù)值影響越大。另外,核密度估計(jì)器只依賴(lài)于樣本數(shù)據(jù)、帶寬以及核函數(shù),對(duì)于樣本數(shù)據(jù)是否滿(mǎn)足特定的模型或者規(guī)律不做要求。
針對(duì)核密度估計(jì)器來(lái)說(shuō),只要其核函數(shù)以及帶寬選取得當(dāng),核密度估計(jì)方法可以以任意精度去逼近真實(shí)密度函數(shù)。 常規(guī)核函數(shù)主要有表1 所示的幾種。
表1
針對(duì)核密度估計(jì)問(wèn)題,不同核函數(shù)、不同帶寬以及不同樣本容量都會(huì)對(duì)估計(jì)效果產(chǎn)生影響。鑒于上述參數(shù)的重要性, 本文下面將借助MATLAB 軟件進(jìn)行核密度估計(jì)數(shù)值實(shí)驗(yàn)對(duì)比分析[9-10]。
本節(jié)將分別選取高斯核、均勻核、三角核以及二次核函數(shù)進(jìn)行實(shí)驗(yàn)對(duì)比分析。 首先,利用MATLAB 軟件隨機(jī)生成1 000 個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)樣本數(shù)據(jù);然后,針對(duì)這1 000 個(gè)樣本數(shù)據(jù)分別選用高斯核、均勻核、三角核以及二次核進(jìn)行密度估計(jì)實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如圖1 所示。
從圖1 可以看出,4 種核函數(shù)估計(jì)結(jié)果均呈現(xiàn)正態(tài)分布形態(tài)。這說(shuō)明當(dāng)樣本數(shù)據(jù)大致呈正態(tài)分布的時(shí)候,上述4 種核函數(shù)都能取得不錯(cuò)的估計(jì)效果。但是,不同核函數(shù)的估計(jì)效果仍存在比較明顯的差異,其差異性主要表現(xiàn)在X 軸的負(fù)半軸以及峰值附近。高斯核函數(shù)和二次核函數(shù)在X 軸負(fù)半軸的估計(jì)效果要優(yōu)于三角核與均勻核。 另外,在峰值處雖然估計(jì)值均比真實(shí)值小,但是高斯核峰值附近產(chǎn)生差異的區(qū)間要小于其他核函數(shù)。 從整體上來(lái)說(shuō),4 個(gè)核函數(shù)的估計(jì)結(jié)果與真實(shí)密度函數(shù)大體保持一致,所得到的密度估計(jì)曲線基本相同。
圖1 不同核函數(shù)估計(jì)結(jié)果
在核密度估計(jì)方法中,帶寬的選取會(huì)對(duì)估計(jì)效果產(chǎn)生很大的影響。 前文已經(jīng)通過(guò)分析核估計(jì)器的函數(shù)特性說(shuō)明了這一點(diǎn)。 下面將通過(guò)數(shù)值實(shí)驗(yàn)對(duì)比分析帶寬選擇的優(yōu)劣性。 首先,利用MATLAB 軟件生成100個(gè)服從正態(tài)分布的隨機(jī)樣本數(shù)據(jù),核函數(shù)選擇高斯核函數(shù)。 為了更加充分地分析帶寬選擇對(duì)估計(jì)效果產(chǎn)生的影響,帶寬依次選擇h=1,h=3,h=5 以及h=10。 其實(shí)驗(yàn)結(jié)果如圖2 所示。
從圖2 可以看出,對(duì)于同一組樣本數(shù)據(jù)且核函數(shù)相同的情況下,當(dāng)帶寬為1 時(shí),曲線波峰過(guò)多且參差不齊,過(guò)分細(xì)化導(dǎo)致密度估計(jì)波動(dòng)太大,從而喪失了密度估計(jì)的意義。當(dāng)帶寬h=10 時(shí),數(shù)據(jù)平均化過(guò)于突出,密度估計(jì)太過(guò)平穩(wěn),從而使得估計(jì)值與真實(shí)值偏差過(guò)大。 由此可知,帶寬選取過(guò)小或過(guò)大都會(huì)使密度估計(jì)值與真實(shí)值偏差過(guò)大。 另外,從圖2 也可以看出當(dāng)帶寬h=3 時(shí)估計(jì)結(jié)果與真實(shí)密度函數(shù)圖像幾乎完全重合, 這就意味著在此帶寬條件下估計(jì)效果最好。綜上可知,帶寬的選取對(duì)核密度估計(jì)效果具有顯著的影響。
圖2 不同帶寬估計(jì)結(jié)果
針對(duì)核密度估計(jì)問(wèn)題,樣本容量的大小也會(huì)對(duì)估計(jì)效果產(chǎn)生影響。 一般來(lái)說(shuō),可以利用的有效數(shù)據(jù)越多,則估計(jì)效果就越好。 為了充分分析樣本容量對(duì)估計(jì)效果好壞的影響,在同一帶寬和核函數(shù)的條件下對(duì)比分析不同樣本容量的估計(jì)結(jié)果。分別進(jìn)行樣本容量為20、50、100、1 000 的數(shù)值實(shí)驗(yàn), 其實(shí)驗(yàn)結(jié)果如圖3所示。
由圖3 可知,當(dāng)樣本容量過(guò)小時(shí)(n=20),其估計(jì)結(jié)果與真實(shí)密度函數(shù)相差太大,尤其在峰值處更為突出。 當(dāng)樣本容量過(guò)大時(shí)(n=1 000),雖然其估計(jì)結(jié)果與真實(shí)密度函數(shù)大體一致,但是在峰值處仍存在較大差異。 當(dāng)樣本容量為100 時(shí),其核估計(jì)結(jié)果與真實(shí)密度函數(shù)圖像幾乎重合,估計(jì)效果最好。 另一方面,對(duì)比樣本容量20,50,100 的估計(jì)結(jié)果可以得出, 隨著樣本容量的增大,核密度估計(jì)效果越來(lái)越好。 但是這并不意味著樣本容量越大越好, 這一觀點(diǎn)可以從樣本容量1 000 時(shí)的估計(jì)結(jié)果可以看出。
綜上分析可知,在帶寬固定的條件下,樣本容量選取過(guò)小,數(shù)據(jù)細(xì)化作用突出,估計(jì)偏差較大,無(wú)法反映出真實(shí)數(shù)據(jù)的特性;樣本容量選取過(guò)大,估計(jì)效果整體偏好,但是在峰值附近誤差過(guò)大。
針對(duì)密度估計(jì)問(wèn)題, 本文借助MATLAB 軟件分析了核密度估計(jì)方法關(guān)鍵參數(shù)核函數(shù)、帶寬以及樣本容量對(duì)估計(jì)結(jié)果的影響。 通過(guò)實(shí)驗(yàn)對(duì)比分析發(fā)現(xiàn),核函數(shù)的選取對(duì)于估計(jì)效果的好壞影響不大,但是帶寬以及樣本容量的選取對(duì)于估計(jì)結(jié)果的影響程度較大。其次,帶寬過(guò)小或者過(guò)大都會(huì)導(dǎo)致密度估計(jì)結(jié)果與真實(shí)密度函數(shù)偏差較大,因此,必須選擇合適的帶寬才能得到理想的估計(jì)效果。 另外,樣本容量并不是越大越好,而是應(yīng)該在一個(gè)合理的范圍之內(nèi)。最后,對(duì)于密度估計(jì)問(wèn)題,核密度估計(jì)方法必須依據(jù)數(shù)據(jù)的某些特征,合理恰當(dāng)?shù)剡x取核函數(shù)以及帶寬,并利用一定數(shù)量的樣本數(shù)據(jù)進(jìn)行密度估計(jì),以期得到更加理想的估計(jì)結(jié)果。