邱 東,劉德雨
(長(zhǎng)春工業(yè)大學(xué) 電子與電氣工程學(xué)院,吉林 長(zhǎng)春 130000)
隨著機(jī)器視覺(jué)技術(shù)和人工智能的迅速發(fā)展,行人檢測(cè)逐步成為軍事、社會(huì)公共安全、交通和互聯(lián)網(wǎng)發(fā)展等社會(huì)領(lǐng)域里的熱門(mén)研究課題之一。但是行人檢測(cè)問(wèn)題涉及到模式識(shí)別、圖像處理、計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)等多學(xué)科,同時(shí)受到行人穿著、光照、身體姿態(tài)、尺度、視角和復(fù)雜背景等因素的影響,至今也未能(也不可能)設(shè)計(jì)出一種通用的、實(shí)時(shí)的、魯棒的檢測(cè)算法。
2006年,Hinton教授在《Science》上提出了一種面向復(fù)雜通用學(xué)習(xí)任務(wù)的深度神經(jīng)網(wǎng)絡(luò),指出具有大量隱藏層的神經(jīng)網(wǎng)絡(luò)具有非常好的特征學(xué)習(xí)能力,而且網(wǎng)絡(luò)的訓(xùn)練可以采用“逐層初始化”和“反向微調(diào)”技術(shù)解決,從此開(kāi)啟了對(duì)人工智能領(lǐng)域的研究熱潮,深度學(xué)習(xí)的概念開(kāi)始被提出。深入學(xué)習(xí)領(lǐng)域的大多數(shù)研究人員專(zhuān)注于深度網(wǎng)絡(luò)設(shè)計(jì)和相應(yīng)的快速學(xué)習(xí)算法,一些研究工作試圖改進(jìn)深度學(xué)習(xí)技術(shù)模型表示。孫勁光等[1]提出數(shù)值屬性的DBN,并在UCI的多個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比驗(yàn)證,證明了其有效性。N. Wang等[2]在2014年提出了具有高斯線(xiàn)性單位的高斯限制玻爾茲曼機(jī)器(GRBM)來(lái)學(xué)習(xí)來(lái)自實(shí)值數(shù)據(jù)的表示,通過(guò)用高斯函數(shù)替換二進(jìn)制值可見(jiàn)單元來(lái)改進(jìn)RBM。許慶勇等[3]在2015年提出了一種基于多特征融合的深度置信網(wǎng)絡(luò)圖像分類(lèi)算法,通過(guò)提取樣本圖像中的顏色、紋理和形狀特征,構(gòu)成多特征融合的權(quán)重矩陣,并對(duì)特征矩陣進(jìn)行歸一化處理,利用構(gòu)建的4層DBN分類(lèi)器進(jìn)行訓(xùn)練和分類(lèi)。
文中將傳統(tǒng)深度置信網(wǎng)絡(luò)同模糊集理論相結(jié)合,提出一種基于多特征的模糊深度置信網(wǎng)絡(luò)的行人檢測(cè)方法。該方法在傳統(tǒng)的深度學(xué)習(xí)模型深度置信網(wǎng)絡(luò)的基礎(chǔ)上引入模糊集的理論思想,一方面把深度學(xué)習(xí)的典型結(jié)構(gòu)之一深度置信網(wǎng)絡(luò)與模糊算法相結(jié)合,構(gòu)建用于圖像分類(lèi)和識(shí)別的模型;另一方面,利用模糊受限玻爾茲曼機(jī)構(gòu)建深度網(wǎng)絡(luò),同時(shí)改進(jìn)訓(xùn)練過(guò)程,用于圖像識(shí)別,以進(jìn)一步提高行人檢測(cè)的正確率。
對(duì)稱(chēng)三角模糊數(shù)如圖1所示。
圖1 對(duì)稱(chēng)三角模糊數(shù)
(1)
受限玻爾茲曼機(jī)(RBM)[4]是由Hinton和Sejnowski于1986年提出的,由一個(gè)可見(jiàn)層和一個(gè)隱藏層構(gòu)成,可見(jiàn)層與隱藏層的神經(jīng)元之間為雙向全連接,是一種可通過(guò)輸入數(shù)據(jù)集學(xué)習(xí)概率分布的隨機(jī)生成神經(jīng)網(wǎng)絡(luò)。標(biāo)準(zhǔn)的受限玻爾茲曼機(jī)是由二值(布爾/伯努利)隱層和可見(jiàn)層單元組成,該模型是用參數(shù)θ表示跨層節(jié)點(diǎn)之間的權(quán)值和偏置的連接的。權(quán)重矩陣W=(wij)中的每一個(gè)元素指定了隱藏層單元hj和可見(jiàn)單元xi之間的權(quán)重度置信網(wǎng)絡(luò)。受限玻爾茲曼機(jī)是基于能量的概率模型,定義概率分布如下:
(2)
(3)
受限玻爾茲曼機(jī)的能量函數(shù)定義為:
E(x,h,θ)=-bTx-cTh-hTWx
(4)
其中,bj和ci為偏移量;Wij為連接第jth可視節(jié)點(diǎn)和第ith隱藏節(jié)點(diǎn)的權(quán)重;θ={b,c,W}為系統(tǒng)參數(shù)。
傳統(tǒng)受限玻爾茲曼機(jī)中代表可視節(jié)點(diǎn)和隱藏節(jié)點(diǎn)之間的參數(shù)被限制為常量,這會(huì)引發(fā)很多其他的問(wèn)題。首先,它將限制表示能力,因?yàn)樽兞拷?jīng)常以某種不確定的方式相互作用。其次,它訓(xùn)練帶有噪聲的采樣數(shù)據(jù)的魯棒性也不高。2015年,C. L. Philip Chen等[5]提出的模糊受限玻爾茲曼機(jī)[2]可以很好地解決這些問(wèn)題,同時(shí)通過(guò)跨層單元關(guān)系的線(xiàn)性化來(lái)減少誤差和失真。
隨著一些快速學(xué)習(xí)算法和典型深度學(xué)習(xí)算法的提出,如深度自編碼器[6]、深度置信網(wǎng)絡(luò)[4]和深度受限玻爾茲曼機(jī)[7]等,受限玻爾茲曼機(jī)受到了越來(lái)越多的關(guān)注,之后受限玻爾茲曼機(jī)及其相關(guān)的深度學(xué)習(xí)結(jié)構(gòu)也在降維[8-10]、分類(lèi)[11-14]、特征提取[15-16]等方面得到了廣泛的應(yīng)用。受限玻爾茲曼機(jī)通過(guò)非監(jiān)督學(xué)習(xí)方式,用一定的數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò),設(shè)置可視神經(jīng)元的值匹配數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)的值,當(dāng)網(wǎng)絡(luò)訓(xùn)練完成以后,就可以用來(lái)對(duì)未知數(shù)據(jù)進(jìn)行計(jì)算,從而進(jìn)行分類(lèi)。
深度置信網(wǎng)絡(luò)是一個(gè)概率生成模型,和傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡(luò)相對(duì),生成模型建立一個(gè)觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布。深度置信網(wǎng)絡(luò)是由多個(gè)受限玻爾茲曼機(jī)層組成,模糊能量函數(shù)定義為:
(5)
通過(guò)邊緣化隱藏單元和化簡(jiǎn)式5得到模糊自由能量函數(shù):
(6)
(7)
同時(shí),去模糊化的概率可以表示為:
(8)
因此,在模糊受限玻爾茲曼機(jī)模型中,目標(biāo)函數(shù)是負(fù)對(duì)數(shù)似然,表示為:
(9)
其中,D表示訓(xùn)練數(shù)據(jù)集。
深度置信網(wǎng)絡(luò)是一種結(jié)合無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)方法的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn)在于,學(xué)習(xí)使用的數(shù)據(jù)來(lái)源簡(jiǎn)單,不需要進(jìn)行大量的手工標(biāo)注,缺點(diǎn)在于難以得到準(zhǔn)確的結(jié)果。而有監(jiān)督學(xué)習(xí)的優(yōu)缺點(diǎn)正好與之相對(duì),需要有手工標(biāo)注的數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,能得到更加準(zhǔn)確的學(xué)習(xí)結(jié)果。針對(duì)傳統(tǒng)的深度置信網(wǎng)絡(luò)中求解最優(yōu)參數(shù)計(jì)算量大及魯棒性不高的缺點(diǎn),提出一種基于模糊深度置信網(wǎng)絡(luò)的行人檢測(cè)方法。如圖2所示,包括以下兩個(gè)部分:
(1)借助模糊深度置信網(wǎng)絡(luò)提取行人特征,從圖像像素開(kāi)始,建立圖像的深度學(xué)習(xí)網(wǎng)絡(luò),通過(guò)逐層學(xué)習(xí)得到圖像的表達(dá);
(2)采用監(jiān)督學(xué)習(xí)提高FDBN分類(lèi)的性能。FDBN不僅繼承了DBN的強(qiáng)大抽象能力,而且展示了處理行人數(shù)據(jù)的誘人的模糊分類(lèi)。
圖2 深度置信網(wǎng)絡(luò)
FDBN通過(guò)引入模糊集理論,獲得嵌入類(lèi)先驗(yàn)知識(shí)與深度框架的能力。利用一個(gè)新的深度框架集成限制玻爾茲曼機(jī)(RBM)的抽象能力和模糊集的分類(lèi)能力。RBM可以快速降維,模糊集可以基于每個(gè)類(lèi)的成員函數(shù)提高深度框架的分類(lèi)精度。FDBN通過(guò)逐層貪心的非監(jiān)督學(xué)習(xí)構(gòu)建,參數(shù)空間通過(guò)梯度下降監(jiān)督學(xué)習(xí)微調(diào)。特征提取和分類(lèi)步驟使用相同的深度框架,在充足的非標(biāo)記數(shù)據(jù)的幫助下提高了概括能力,避免了顯式的特征提取過(guò)程,通過(guò)隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí)。同時(shí),局部的權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類(lèi)過(guò)程中數(shù)據(jù)重建的復(fù)雜度。FDBN可以通過(guò)反向傳播策略使用一個(gè)指數(shù)損失函數(shù)直接優(yōu)化構(gòu)建的深度框架??蚣苣P徒Y(jié)構(gòu)具體如圖3所示。
圖3 模糊深度置信網(wǎng)絡(luò)模型
模糊深度置信網(wǎng)絡(luò)訓(xùn)練過(guò)程主要有兩個(gè)步驟:
(1)根據(jù)輸入的HOG特征自底向上地訓(xùn)練模糊受限玻爾茲曼機(jī);
(2)根據(jù)步驟1的訓(xùn)練結(jié)果,采用BP算法對(duì)整個(gè)DBN結(jié)構(gòu)進(jìn)行微調(diào),使其更有利于分類(lèi)。
由于圖像特征的特性,采用二值型模糊受限玻爾茲曼機(jī)進(jìn)行特征學(xué)習(xí)將會(huì)丟失特征的屬性,因此在整個(gè)模糊深度置信網(wǎng)絡(luò)中的第一層模糊受限玻爾茲曼機(jī)的可視層采用的是服從高斯分布的模糊受限玻爾茲曼機(jī),其余仍為二值的。
為了優(yōu)化分類(lèi)結(jié)果,進(jìn)一步完善模糊深度置信網(wǎng)絡(luò)結(jié)構(gòu),需要將網(wǎng)絡(luò)的輸出結(jié)果與真實(shí)的結(jié)果進(jìn)行對(duì)比,利用對(duì)比結(jié)果對(duì)模糊深度置信網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進(jìn)行微調(diào),以實(shí)現(xiàn)進(jìn)一步優(yōu)化分類(lèi)器的目的。文中使用BP網(wǎng)絡(luò)對(duì)輸出值進(jìn)行反向監(jiān)督,利用BP網(wǎng)絡(luò)良好的反向傳播能力,將分類(lèi)結(jié)果誤差反向傳入模糊深度置信網(wǎng)絡(luò),實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)模型的微調(diào)。
文中算法在Win10系統(tǒng),4 GB內(nèi)存,Nvidia GTX960顯卡的計(jì)算機(jī)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)來(lái)源于INRIA行人數(shù)據(jù)庫(kù)(大小為64×128),其中訓(xùn)練集包含2 000張正樣本單個(gè)行人圖片和2 000張負(fù)樣本圖片,測(cè)試集為300張多行人圖片。實(shí)驗(yàn)對(duì)文中提出的模糊深度置信網(wǎng)絡(luò)行人檢測(cè)方法的性能進(jìn)行評(píng)估和分析,在同一檢測(cè)環(huán)境下與其他幾種經(jīng)典的行人檢測(cè)方法的性能進(jìn)行比較。為了評(píng)估各方法的分類(lèi)以及檢測(cè)性能,采用最能直觀反映檢測(cè)性能的檢測(cè)率、虛警率和檢測(cè)速度等指標(biāo)來(lái)衡量和分析整個(gè)系統(tǒng)的檢測(cè)性能。性能指標(biāo)的計(jì)算方法如下:
(10)
(11)
其中,TP表示正確分類(lèi)的正樣本數(shù);FP為被錯(cuò)分類(lèi)的正樣本數(shù);FN表示被誤分類(lèi)為正樣本的負(fù)樣本數(shù)。
首先對(duì)模糊深度置信網(wǎng)絡(luò)自身結(jié)構(gòu)的搭建對(duì)檢測(cè)結(jié)果的影響進(jìn)行檢測(cè)和分析,分別搭建3、4、5、6層模糊置信網(wǎng)絡(luò)結(jié)構(gòu),隱藏層的神經(jīng)節(jié)點(diǎn)數(shù)分別設(shè)為80,100,120,150,120,100,80,迭代次數(shù)設(shè)為1 500。結(jié)果如表1所示。
表1 不同結(jié)構(gòu)的模糊深度置信網(wǎng)絡(luò)的檢測(cè)性能對(duì)比
從表1中的數(shù)據(jù)可以看出,不同結(jié)構(gòu)的模糊深度置信網(wǎng)絡(luò)的檢測(cè)性能并不相同,4層深度網(wǎng)絡(luò)的檢測(cè)率最高,并且虛警率也沒(méi)有任何結(jié)構(gòu)比它低,并不是隱層的層數(shù)越多識(shí)別性能就越好;相反,隨著整體結(jié)構(gòu)越來(lái)越復(fù)雜,可能會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象,從而導(dǎo)致識(shí)別性能的降低。綜合考慮隱層數(shù)和隱層單元的識(shí)別性能,文中采用的是4層模糊深度置信網(wǎng)絡(luò),其中3層隱含層的神經(jīng)節(jié)點(diǎn)數(shù)為80、100、150的模糊深度置信網(wǎng)絡(luò),設(shè)定迭代次數(shù)為1 500。
將提出的模糊深度置信網(wǎng)絡(luò)和文獻(xiàn)[14-16]提出的性能較優(yōu)的分類(lèi)算法在相同的檢測(cè)平臺(tái)上進(jìn)行對(duì)比,具體檢測(cè)結(jié)果如表2所示。
表2 不同的深度學(xué)習(xí)網(wǎng)絡(luò)的測(cè)試結(jié)果對(duì)比
從表2的數(shù)據(jù)可以看出,在相同的條件下,文中提出的模糊深度置信網(wǎng)絡(luò)分類(lèi)檢測(cè)的檢測(cè)率和虛警率都優(yōu)于其他方法,雖然檢測(cè)速度比CS-SVM-AdaBoost要慢一些,但是基本可以實(shí)現(xiàn)實(shí)時(shí)檢測(cè),滿(mǎn)足實(shí)時(shí)性的要求。
針對(duì)復(fù)雜背景下行人檢測(cè)性能不穩(wěn)定的問(wèn)題,引入深度學(xué)習(xí)的方法進(jìn)行特征提取實(shí)現(xiàn)對(duì)行人的識(shí)別和檢測(cè),并在此基礎(chǔ)上將傳統(tǒng)的深度置信網(wǎng)絡(luò)同模糊集思想相結(jié)合,提出一種模糊深度置信網(wǎng)絡(luò)的行人檢測(cè)方法。使用模糊深度置信網(wǎng)絡(luò)可以提取更加有效的特征,進(jìn)一步提高算法的檢測(cè)精度。實(shí)驗(yàn)結(jié)果表明,該算法在檢測(cè)率、漏檢率、實(shí)時(shí)性等方面都比傳統(tǒng)的深度置信網(wǎng)絡(luò)有所提升,可以較快地從大多數(shù)的復(fù)雜背景下檢測(cè)和識(shí)別出行人目標(biāo)。因?yàn)閳D像的質(zhì)量直接影響最終的檢測(cè)效果,使用提出的方法在分辨率較低的圖像中難以將行人從復(fù)雜的背景中區(qū)分出來(lái),這也是接下來(lái)需要重點(diǎn)解決的問(wèn)題。