孫毅
(中國(guó)民航大學(xué),天津市 300300)
【摘 要】卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、池化層、全連接層構(gòu)成。它在目標(biāo)檢測(cè)和計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等領(lǐng)域成效卓然。本文主要簡(jiǎn)述卷積網(wǎng)絡(luò)結(jié)構(gòu)以及在各領(lǐng)域應(yīng)用。
【關(guān)鍵詞】卷積神經(jīng)網(wǎng)絡(luò);卷積網(wǎng)絡(luò)結(jié)構(gòu);各領(lǐng)域應(yīng)用
一、卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一種人工神經(jīng)網(wǎng)絡(luò),目前已成為圖像識(shí)別、語(yǔ)音分析、目標(biāo)檢測(cè)等領(lǐng)域的研究熱點(diǎn)。權(quán)值共享及池化操作有效的降低了網(wǎng)絡(luò)復(fù)雜度,與深度學(xué)習(xí)中的MLP,DPN等網(wǎng)絡(luò)相比,具有較少的可調(diào)參數(shù),降低了學(xué)習(xí)復(fù)雜程度以及訓(xùn)練所需時(shí)間;卷積神經(jīng)網(wǎng)絡(luò)在處理二維圖像時(shí),具有位移、縮放即扭曲圖像不變性。
二、卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
卷積網(wǎng)絡(luò)由輸入層、卷積層、池化層、全連接層及輸出層構(gòu)成基本結(jié)構(gòu)。卷積層和池化層一般成對(duì)交替出現(xiàn)。由于卷積層中特征面的神經(jīng)元與其輸入局部連接,通過(guò)相應(yīng)的權(quán)值與局部輸入進(jìn)行加權(quán)求和再加上偏置值,得到該神經(jīng)元輸入值,該過(guò)程等同于卷積過(guò)程,卷積神經(jīng)網(wǎng)絡(luò)也由此命名。
(一)卷積層
卷積層(convolutional layer)由多個(gè)特征面組成,每個(gè)特征面由多個(gè)神經(jīng)元組成,它的每一個(gè)神經(jīng)元通過(guò)卷積核與上一層特征面的局部區(qū)域相連。卷積核是一個(gè)權(quán)值矩陣。卷積層通過(guò)卷積操作提取輸入的不同特征,低層卷積層提取低級(jí)特征如邊緣、線條、角落,更高層的卷積層提取更高級(jí)的特征。
(二)池化層
池化層(pooling layer,也稱為取樣層)在卷積層之后,由多個(gè)特征面組成,它的每一個(gè)特征面唯一對(duì)應(yīng)于其上一層的一個(gè)特征面。卷積層的輸出是池化層的輸入,且池化層的神經(jīng)元也與其輸入層的局部接受域相連。池化層旨在通過(guò)降低特征面的分辨率來(lái)獲得空間不變性的特征,池化層起到二次提取特征的作用。常用的池化方法有最大池化即取局部接受域中值最大的點(diǎn)、均值池化即對(duì)局部接受域中的所有值求均值、隨機(jī)池化。
(三)全連接層
卷積網(wǎng)絡(luò)結(jié)構(gòu)中,最后一個(gè)池化層后連接著至少一個(gè)全連接層。全連接層中的每個(gè)神經(jīng)元與其前一層的所有神經(jīng)元進(jìn)行全連接。全連接層可以整合卷積層或者池化層中具有類別區(qū)分性的局部信息。最后一層全連接層的輸出值被傳遞給一個(gè)輸出層,可以采用softmax邏輯回歸進(jìn)行分類,該層也可稱為softmax層。
(四)特征面
特征面數(shù)目作為卷積網(wǎng)絡(luò)的一個(gè)重要參數(shù),通常是根據(jù)實(shí)際需求進(jìn)行設(shè)置的,若特征面過(guò)少,可能會(huì)使一些特征被忽略掉,不利于網(wǎng)絡(luò)的學(xué)習(xí);但是如果特征面?zhèn)€數(shù)過(guò)多,訓(xùn)練參數(shù)個(gè)數(shù)及網(wǎng)絡(luò)訓(xùn)練時(shí)間也會(huì)增加,也不利于學(xué)習(xí)網(wǎng)絡(luò)模型。
三、實(shí)際應(yīng)用
(一)圖像識(shí)別
近年來(lái),卷積網(wǎng)絡(luò)已廣泛應(yīng)用于圖像處理領(lǐng)域。利用機(jī)器學(xué)習(xí)的方法,使得計(jì)算機(jī)能夠識(shí)別圖像中的內(nèi)容。模式識(shí)別中的一個(gè)主要領(lǐng)域是圖像識(shí)別,主要涉及字符識(shí)別、人臉識(shí)別、物體識(shí)別等。在圖像識(shí)別中,手寫數(shù)字識(shí)別和人臉識(shí)別是被研宄的比較多的領(lǐng)域。手寫數(shù)字識(shí)別可以被用于自動(dòng)讀取銀行支票信息、信封上的郵政編碼和一些文檔中的數(shù)據(jù)等。
(二)音頻檢索
Hamid等結(jié)合隱馬爾科夫建立了基于卷積網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型,并在標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示該模型的正確率相對(duì)于具有相同隱含層數(shù)和權(quán)值的常規(guī)神經(jīng)網(wǎng)絡(luò)模型提高了10%,表明卷積網(wǎng)絡(luò)模型能夠更好的應(yīng)用于語(yǔ)音識(shí)別。
(三)目標(biāo)檢測(cè)
運(yùn)動(dòng)目標(biāo)檢測(cè)是視頻監(jiān)控的基本預(yù)處理步驟之一,通常是利用機(jī)器視覺(jué)等技術(shù)將目標(biāo)從背景中分離出來(lái)。在一個(gè)實(shí)用的計(jì)算機(jī)視覺(jué)系統(tǒng)中跟蹤目標(biāo)的初始狀態(tài)一般由目標(biāo)檢測(cè)結(jié)果給出,同時(shí)為語(yǔ)義層分析任務(wù)提供所需要的運(yùn)動(dòng)信息。因此,目標(biāo)檢測(cè)是高層理解與應(yīng)用的基礎(chǔ)任務(wù),其性能的好壞將直接影響后續(xù)的目標(biāo)跟蹤、動(dòng)作識(shí)別以及行為理解等后續(xù)任務(wù)的性能。按照算法處理對(duì)象的不同,目標(biāo)檢測(cè)大致可以分為基于背景建模的目標(biāo)檢測(cè)方法和基于前景建模目標(biāo)檢測(cè)方法兩大類。其中, 基于背景建模的方法通過(guò)建立背景模型與時(shí)間的關(guān)聯(lián)關(guān)系,間接地分離出運(yùn)動(dòng)前景,最后經(jīng)過(guò)前景分割得到目標(biāo);基于前景目標(biāo)建模的方法則是通過(guò)建立目標(biāo)的表觀模型,設(shè)計(jì)出適當(dāng)?shù)姆诸惼鲗?duì)視頻中的目標(biāo)進(jìn)行分類和檢測(cè)。
四、總結(jié)
隨著人工神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,卷積網(wǎng)絡(luò)的共享權(quán)值、訓(xùn)練所需的設(shè)置參數(shù)少、魯棒性強(qiáng)等優(yōu)良特性使其成為了研究的熱點(diǎn)。卷積網(wǎng)絡(luò)通過(guò)權(quán)值共享減少了需要訓(xùn)練的參數(shù)個(gè)數(shù)、降低了網(wǎng)絡(luò)的設(shè)計(jì)和計(jì)算復(fù)雜度,同時(shí)通過(guò)池化操作使得網(wǎng)絡(luò)對(duì)輸入的局部變換具有一定的不變性,提升了網(wǎng)絡(luò)的泛化能力。卷積網(wǎng)絡(luò)將原始數(shù)據(jù)直接輸入到神經(jīng)網(wǎng)絡(luò)中,然后隱性地從數(shù)據(jù)中進(jìn)行自主學(xué)習(xí)。雖然卷積網(wǎng)絡(luò)所具有的這些特點(diǎn)使其已被廣泛應(yīng)用于各種領(lǐng)域中特別是模式識(shí)別與人工智能領(lǐng)域,但是卷積網(wǎng)絡(luò)仍有許多工作需要進(jìn)一步研究;如當(dāng)處理一個(gè)具體的任務(wù),很難確定需要多少個(gè)卷積層和池化層,每一層使用多大的卷積核和步速等才使得訓(xùn)練結(jié)果最優(yōu)。
總的來(lái)說(shuō),卷積網(wǎng)絡(luò)在模式識(shí)別與人工智能等領(lǐng)域中的發(fā)展與應(yīng)用,使它在未來(lái)很長(zhǎng)的一段時(shí)間內(nèi)仍然是人們研究的一個(gè)熱點(diǎn)。新的理論和技術(shù)的納入以及新成果的出現(xiàn)會(huì)將卷積網(wǎng)絡(luò)應(yīng)用于更多新的領(lǐng)域中。
【參考文獻(xiàn)】
[1] Yann LeCun, Leon Bottou, Yoshua Bengio, et al. Gradient-based learning applied to document recognition. Proceedings of the IEEE,1998, 86(11):2278-2324
[2] Gao Li-Gang, Chen Pai-Yu, Yu Shi-Meng. Demonstration of convolution kernel operation on resistive cross-point array. IEEE Electron Device Letters, 2016,37(7):870-873
[3]尹勰,閆磊.基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像目標(biāo)檢測(cè)[J].工業(yè)控制計(jì)算機(jī),2017,30(4):96-97