概率密度估計中的核非方法及應(yīng)用研究

2013-08-16 06:19:20文仕軍

山東工業(yè)技術(shù) 2013年10期

文仕軍

(貴州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院，貴州貴陽550025)

0 引言

以統(tǒng)計數(shù)據(jù)分析為主要目的學(xué)習(xí)問題被分為三個基本問題：模式識別、回歸估計和概率密度估計。在解決學(xué)習(xí)問題的傳統(tǒng)理論中，模式識別和回歸估計都是建立在概率密度估計的基礎(chǔ)上的。概率密度估計通常采用參數(shù)估計和非參數(shù)估計的方法[1]。參數(shù)方法是根據(jù)經(jīng)驗，假定總體的分布為某種特定的形式，如高斯分布、瑞利分布等，而未知總體分布的某些具體參數(shù)值，然后再用樣本計算出這些未知的參數(shù)值。但在實際應(yīng)用中，樣本數(shù)據(jù)總是有限的，有時并不能確定總體的具體分布。當(dāng)對總體的分布形式無法做出大致正確的判斷時，需要采用一種非參數(shù)方法更為合理，直接從樣本入手進(jìn)行估計，即非參數(shù)估計方法。非參數(shù)統(tǒng)計方法幾乎不對總體設(shè)立限制條件，非參數(shù)估計可以處理所有類型的數(shù)據(jù)[2]。

概率密度估計是統(tǒng)計學(xué)中的一個核心問題，得到概率密度，就可以解決概率有關(guān)的問題。因此，求解概率密度問題在理論研究和實際問題中都有重要的意義。在非參數(shù)密度估計中，常用的方法有Parzen窗法和SVM 等。Parzen 窗估計需要盡可能多的估計樣本，窗寬的取值也影響估計的精度；SVM 估計需要采用非線性規(guī)劃的手段實現(xiàn)，雖然在樣本有限的情況下也能達(dá)到一定的精度，但是算法復(fù)雜，樣本規(guī)模較大時訓(xùn)練速度較慢。本文介紹一種簡單有效的估計方法，稱為核非線性回歸（KNR，Kernel-based Nonlinear Regression）法。

1 密度估計的經(jīng)典方法

1.1 概率分布及概率密度

對于隨機(jī)變量X 的分布函數(shù)F(x)，存在非負(fù)函數(shù)f(x)，使對于任意實數(shù)x 有：

則稱X 為連續(xù)型隨即變量，其中函數(shù)f(x)稱為X 的概率密度函數(shù)。

1.2 概率密度估計的經(jīng)典方法

1.2.1 極大似然估計

對于獨立同分布的樣本數(shù)據(jù)x1，x2，…，xN，定義似然函數(shù)為：

其中，密度是θ 的函數(shù)。

將似然函數(shù)（2）表示成對數(shù)形式：

則最大似然函數(shù)的估計量即為式(3)表示的微分方程的解[2]。

1.2.2 經(jīng)驗方法：統(tǒng)計直方圖[3]

設(shè)X1，X2，…，Xn是取自總體X 的樣本，x1，x2，…，xn表示樣本觀測值，令：

其中i=1，2，…，n，j=1，2，…，k，則得到：

式（7）為采用經(jīng)驗方法估計得到的密度函數(shù)。

2 密度估計的核非法

2.1 Parzen 窗法

定義以原點為中心，半徑為1/2 的鄰域函數(shù)為：

式（9）為Parzen 窗密度估計，其中h 為窗寬[3]。

2.2 基于SVM 的密度估計

用SVM 方法來估計概率密度，就是從概率密度的定義出發(fā)，直接求解該線性算子方程。它結(jié)合了不適定問題的理論、傳統(tǒng)的非參數(shù)統(tǒng)計學(xué)以及統(tǒng)計學(xué)習(xí)理論等方面的思想。支持向量機(jī)是通過事先選擇好的某一個非線性變換，將輸入向量x 映射到高維空間Z，在這一特征空間中，構(gòu)造一個最優(yōu)超平面[4,5]。

利用SVM 求解概率密度估計問題，主要是首先在像空間中定義相應(yīng)的回歸問題，然后利用支持向量機(jī)法構(gòu)造求解回歸問題的核函數(shù)K(xi，xj)和交叉函數(shù)κ(xi，t)，最后根據(jù)核函數(shù)，利用支持向量機(jī)方法求解回歸問題，找出支持向量和對應(yīng)的系數(shù)，具體過程為：

使用SVM 方法解線性算子方程：

方程（10）的解可以表示成如下形式：

將式（11）表示成函數(shù)集的形式：

在式（12）最小化泛函，即尋找目標(biāo)函數(shù)。通過算子A，該函數(shù)集映射為：

定義像空間中的核函數(shù)為：

利用SVM 方法解線性算子方程就可以表達(dá)為利用核函數(shù)和數(shù)據(jù)對(x1，F(xiàn)l(x1))，…，(xl，F(xiàn)l(xl))在像空間中進(jìn)行回歸估計，獲得w，并通過交叉核函數(shù)得到線性算子方程的解：

其中，κ(xi，x)為核交叉函數(shù)，式（16）是對未知的概率密度f(x)進(jìn)行回歸估計得到的結(jié)果[4-5]。

2.3 基于KNR 的密度估計[6-9]

KNR 是一種非線性核回歸算法，在圖像處理、模式識別中有廣泛的應(yīng)用。再生核k 定義為：設(shè)H 是Hilbert 函數(shù)空間，其元素是某個抽象集合B 上的實值或復(fù)值函數(shù)，設(shè)k(t，s)是B×B 上的二元函數(shù)，對于任何的s∈B，k 作為t 的函數(shù)是s 的元素，而且對于任何s∈B 及fk∈H有：

則稱設(shè)k(t,s)為Hilbert 函數(shù)空間的再生核。定義再生核函數(shù)為：

則密度函數(shù)f(x)為多個核函數(shù)疊加而成，表示如下：

其中N 表示樣本個數(shù)，x 表示樣本元素，a 為系數(shù)向量，由最小二乘準(zhǔn)則估計出向量a 如下式：

符號“+”表示矩陣的Moore-Penrose 廣義逆，并且K 中的第p 行q列的元素為：

其中，x 表示訓(xùn)練向量。

式（20）中，y 表示為：

3 實驗結(jié)果分析

首先給定高斯分布中的參數(shù)值，用高斯分布密度產(chǎn)生100 個隨機(jī)數(shù)，由分布密度（23）產(chǎn)生100 個隨機(jī)樣本，采用正態(tài)分布，用極大似然函數(shù)法求參數(shù)μ 和σ。

其中σ=0.5，μ=3。

用參數(shù)法估計的μ=3.0615，σ=0.5812，但這是在已知數(shù)據(jù)分布的基礎(chǔ)上，對已知分布的部分未知參數(shù)采用極大似然法進(jìn)行估計。然后用Parzen 估計、SVM、及KNR 方法法得到估計曲線，與理論曲線進(jìn)行了對比。由圖1 可知，經(jīng)驗密度估計過程中，不需要先驗知識，將樣本數(shù)據(jù)的取值范圍分成若干個區(qū)間，然后把落在每個區(qū)間內(nèi)的數(shù)據(jù)數(shù)目用直方圖表示出來，但是估計概率密度精度不高。圖2 采用Parzen 核密度估計的方法，根據(jù)樣本數(shù)據(jù)得到了概率密度曲線，在核密度估計過程中，窗寬h 的取值會影響估計曲線的光滑程度，h 較大，將有較多的樣本點對x 處的密度估計產(chǎn)生影響，Parzen 核密度估計為了提高估計精度，需要盡可能多的樣本。由圖3 支持向量機(jī)概率密度估計曲線可知，支持向量機(jī)估計時對樣本數(shù)據(jù)依賴較小，需要少數(shù)的支持向量即可，圖3 中* 號表示支持向量，估計精度較高時需要的支持向量也較多，支持向量較少的部分估計誤差很大，同時由于算法涉及大量矩陣運算，樣本訓(xùn)練時間長。由圖4 可知，采用KNR 方法后，能夠提高估計精度，算法簡單，提高了執(zhí)行速度。

圖1 經(jīng)驗密度估計曲線（直方圖）

圖2 parzen 核估計概率密度曲線

圖3 支持向量機(jī)估計概率密度曲線

圖4 核非法概率密度曲線

4 結(jié)論

在對極大似然法、Parzen 等傳統(tǒng)的方法進(jìn)行研究的基礎(chǔ)上，采用了一種KNR 的密度估計方法。得到了相關(guān)方法估計結(jié)果和理論估計結(jié)果的對比曲線，由結(jié)果可看出，與參數(shù)法求解概率密度相比，非參數(shù)法可以處理任意形式的概率密度，不存在模型失配問題，但是為了得到精確的概率密度，需要得到大量的訓(xùn)練樣本；KNR 方法能夠在有限樣本的情況下得到較為精確的密度估計。

［1］Vladimir N. Vapnik 著.統(tǒng)計學(xué)習(xí)理論的本質(zhì)[M].張學(xué)工，譯.北京：清華大學(xué)出版社，2000.

［2］邊肇祺，張學(xué)工.模式識別[M].北京：清華大學(xué)出版社，2000.

［3］周品.MATLAB 概率與數(shù)理統(tǒng)計[M].北京：清華大學(xué)出版社，2012.

［4］Weston Jason, Gammerman Alex, Stitson Mark, et al. Advances in Kernel Methods： Support Vector Learning[M]. Cambridge, MA： MIT Press,1999.

［5］張炤，張素，章琛曦，等.基于支持向量機(jī)的概率密度估計方法[J].系統(tǒng)仿真學(xué)報，2005，17(10)：2355-2357.

［6］Jing Zhang, Benyong Liu, and Hao Tan, A kernel-based nonlinear representor for eigenface classification[J]. JESTC，2004，2(2)：19-22.

［7］Benyong Liu and Jing Zhang. Eigenspectra versus eigenfaces： Classification with a kernel-based nonlinear representor[J]. LNCS, 3610,2005：660-663.

［8］胡業(yè)剛，劉本永.小圖像放大：算法與評價[J].貴州大學(xué)學(xué)報：自然科學(xué)版，2010，27(2)：78-82.

［9］劉本永.斜投影核鑒別器的增量學(xué)習(xí)：理論及算法[OL].[2012-10-29],中國科技論文在線,http：//www.paper.edu.cn/ releasepaper/content/201210-288.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看