• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      深度學(xué)習(xí)在目標(biāo)檢測(cè)的研究綜述

      2021-12-31 05:44:13趙立新邢潤(rùn)哲白銀光張宏昌何春燕
      科學(xué)技術(shù)與工程 2021年30期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)深度

      趙立新, 邢潤(rùn)哲, 白銀光, 張宏昌, 何春燕

      (河北工程大學(xué)機(jī)械與裝備工程學(xué)院, 邯鄲 056000)

      隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,為了給目標(biāo)檢測(cè)領(lǐng)域提供新的方法與途徑,計(jì)算機(jī)視覺(jué)成為了人們研究的重點(diǎn)。目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)系統(tǒng)的一個(gè)重要內(nèi)容,是依靠計(jì)算機(jī)對(duì)圖像進(jìn)行分析處理的技術(shù)。其功能是將不需要的背景信息去除掉,只保留所需要的目標(biāo)。在這個(gè)過(guò)程中,能夠采取一系列算法對(duì)其進(jìn)行處理,然后把所需要的目標(biāo)從圖像中提取出來(lái),最后對(duì)其進(jìn)行檢驗(yàn)。

      當(dāng)前的目標(biāo)檢測(cè)主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)的檢測(cè)方法。傳統(tǒng)方法通常是對(duì)圖像設(shè)定大小比例不同的滑動(dòng)窗口,將圖像中的某些部分列為候選區(qū),然后根據(jù)人工設(shè)定的特征算子如SIFT[1]、Harr[2]和HOG[3]等,提取候選區(qū)特征,最后進(jìn)行特征分類。傳統(tǒng)的目標(biāo)檢測(cè)方法雖然取得了一些成就,但同時(shí)也發(fā)現(xiàn)了一些弊端。首先滑動(dòng)窗口會(huì)產(chǎn)生時(shí)間復(fù)雜度,其次外觀與背景的多樣、光照的變化會(huì)對(duì)人工設(shè)計(jì)的特征方法產(chǎn)生魯棒性較差的問(wèn)題[4],復(fù)雜的步驟會(huì)產(chǎn)生檢測(cè)速度慢、精度低的問(wèn)題[5]。因此,傳統(tǒng)的目標(biāo)檢測(cè)方法已經(jīng)不能滿足現(xiàn)代社會(huì)的需求。對(duì)于這種情況,多種深度學(xué)習(xí)模型就被提出,而深度學(xué)習(xí)的目的通過(guò)建立一個(gè)多層網(wǎng)絡(luò),應(yīng)用此網(wǎng)絡(luò)使計(jì)算機(jī)能夠自主學(xué)習(xí)并獲得數(shù)據(jù)當(dāng)中蘊(yùn)含的內(nèi)部關(guān)系,從而提取出更多的數(shù)據(jù),使計(jì)算機(jī)學(xué)習(xí)更有表現(xiàn)力。

      1 深度學(xué)習(xí)發(fā)展

      Hinton等[6]在2006年提出一種多隱藏層的網(wǎng)絡(luò)結(jié)構(gòu),能夠詳細(xì)描述一個(gè)物體更深層抽象的特征。當(dāng)時(shí)計(jì)算機(jī)性能較差,不能滿足深度學(xué)習(xí)的運(yùn)行環(huán)境,因此深度學(xué)習(xí)遇到瓶頸[7]。如今,隨著計(jì)算機(jī)硬件水平不斷增強(qiáng),極大地提高了計(jì)算機(jī)運(yùn)行能力和運(yùn)算速度,深度學(xué)習(xí)有了很好的發(fā)展環(huán)境,針對(duì)其各種模型也不斷被人們提出,并廣泛應(yīng)用于各行各業(yè)。

      深度學(xué)習(xí)是基于流向圖的方式,來(lái)描述從輸入到輸出的全部計(jì)算過(guò)程。而深度是這個(gè)流向圖的特別屬性,指從一個(gè)輸入到另一個(gè)輸出最長(zhǎng)的長(zhǎng)度[8]。深度學(xué)習(xí)是一種通過(guò)構(gòu)建多層神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)對(duì)人腦數(shù)據(jù)信息的自主學(xué)習(xí)方法,可以通過(guò)同時(shí)用來(lái)對(duì)大量的數(shù)據(jù)信息進(jìn)行訓(xùn)練,來(lái)實(shí)現(xiàn)人腦的模擬與分析。深度學(xué)習(xí)通過(guò)訓(xùn)練學(xué)習(xí)數(shù)據(jù)信息并提取特征來(lái)滿足不同領(lǐng)域的服務(wù)要求[9]。深度學(xué)習(xí)模型具有高度的分層結(jié)構(gòu)和較強(qiáng)的自主學(xué)習(xí)能力,能夠很好地執(zhí)行識(shí)別、檢測(cè)和分類等操作,可以適用于處理各種復(fù)雜數(shù)據(jù)分析問(wèn)題。一般情況下,非監(jiān)督學(xué)習(xí)包含受限玻爾茲曼機(jī)(restricted boltzmann machine,RBM)、深層玻爾茲曼機(jī)、深度信念網(wǎng)絡(luò)(deep belief networks,DBN)等。而監(jiān)督學(xué)習(xí)有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)、深層堆疊網(wǎng)絡(luò)等。其中,基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類水平已經(jīng)遠(yuǎn)超人們識(shí)別的水平,基于計(jì)算機(jī)翻譯能力也已經(jīng)達(dá)到人們正常水平。

      2 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法

      2.1 深層信念網(wǎng)絡(luò)

      深層信念網(wǎng)絡(luò)(DBN)是一種非監(jiān)督學(xué)習(xí)方法,主要是基于RBM所組成的一種具有隨機(jī)性的概率生成神經(jīng)網(wǎng)絡(luò)模型,具有表達(dá)目標(biāo)特征的能力。

      DBN具體訓(xùn)練過(guò)程如下:首先對(duì)目標(biāo)進(jìn)行觀察得到初始樣本,以初始樣本數(shù)據(jù)進(jìn)行處理后作為輸入,訓(xùn)練好第一層RBM后,以輸出為樣本訓(xùn)練第二層,將第二層堆疊到第一層,重復(fù)以上操作直到所有的網(wǎng)絡(luò)模型都得到充分訓(xùn)練。最后將所得到的輸出量輸入到Back Propagation(BP)網(wǎng)絡(luò)中,對(duì)分類器進(jìn)行訓(xùn)練,從上往下將RBM網(wǎng)絡(luò)進(jìn)行調(diào)整。DBN適用于樣本數(shù)量較小的非線性的時(shí)間序列預(yù)測(cè)。

      Tao等[10]最先將DBN網(wǎng)絡(luò)嘗試用于滾動(dòng)軸承檢測(cè),提出一種基于DBN的振動(dòng)信號(hào)檢測(cè)方法,利用DBN構(gòu)建編碼器,將振動(dòng)信號(hào)的輸入與輸出最小化,檢測(cè)信號(hào)傳遞間的能量來(lái)進(jìn)行分類。其充分顯示了DBN網(wǎng)絡(luò)的提取特征的能力,但是由于參數(shù)多且計(jì)算量大,計(jì)算效率較低,還需有待提高。Tao等[11]、Chen等[12]、胡永濤[13]分別提出關(guān)于傳感信息及特征融合的DBN方法,通過(guò)融合來(lái)獲取信息,提高準(zhǔn)確率,但是特征提取較為復(fù)雜且特征融合具有局限性,還需進(jìn)一步研究。Gan等[14]提出一種分層診斷的DBN網(wǎng)絡(luò)方法,通過(guò)將小波包能量作為輸入特征量,利用DBN網(wǎng)絡(luò)對(duì)故障信息進(jìn)行分級(jí)識(shí)別,實(shí)現(xiàn)了對(duì)軸承的精準(zhǔn)分級(jí)識(shí)別,對(duì)故障信息能夠精準(zhǔn)診斷,但在網(wǎng)絡(luò)中調(diào)整參數(shù)較為繁雜,訓(xùn)練過(guò)程耗時(shí)較長(zhǎng),不利于故障診斷。周世超等[15]通過(guò)將2層RBM與3層BP網(wǎng)絡(luò)相結(jié)合,研究出一種針對(duì)語(yǔ)音文本的改進(jìn)DBN網(wǎng)絡(luò),實(shí)現(xiàn)了對(duì)語(yǔ)音文本的分類識(shí)別。該方法雖然取得較好的成績(jī),準(zhǔn)確率也較高,但在語(yǔ)音預(yù)處理階段對(duì)分類識(shí)別準(zhǔn)確率有很大影響。黃壽喜等[16]通過(guò)對(duì)RBM進(jìn)行改進(jìn),得到新型DBN網(wǎng)絡(luò),通過(guò)訓(xùn)練學(xué)習(xí)并提取表情特征,利用堆疊自動(dòng)編碼器對(duì)特征進(jìn)行分類識(shí)別。該方法魯棒性好,檢測(cè)精確度高,但是由于有些表情之間存在模糊,導(dǎo)致識(shí)別率較低。Zhong等[17]提出一種新型DBN網(wǎng)絡(luò),通過(guò)采用遞歸貪婪學(xué)習(xí)算法和多樣化權(quán)值參數(shù)訓(xùn)練出多樣化的隱藏層,使用監(jiān)督訓(xùn)練方法調(diào)整參數(shù),將分類錯(cuò)誤定義在已標(biāo)記的樣本上傳播到整個(gè)網(wǎng)絡(luò),這樣可以用語(yǔ)義信息調(diào)整參數(shù)。該方法在圖像分類精度、時(shí)間和各種性能上都有較好的效果,但是由于DBN的限制,對(duì)深層次特征提取能力較弱,參數(shù)較多,在一定程度上會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。甘磊[18]提出了一種基于主成分的DBN網(wǎng)絡(luò)模型,將高維特征作為主成分,降低輸入的維數(shù),實(shí)現(xiàn)DBN聚類模型的構(gòu)建,但對(duì)于K-means方法中的K值需要進(jìn)行控制,無(wú)法做到自動(dòng)計(jì)算K值。熊景鳴等[19]通過(guò)將信號(hào)進(jìn)行特征的二次提取,結(jié)合支持向量機(jī),提高識(shí)別準(zhǔn)確率,但在實(shí)際工程當(dāng)中,由于數(shù)據(jù)不足,需要進(jìn)一步實(shí)驗(yàn)驗(yàn)證。

      2.2 卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)(CNN)采用卷積、池化以及函數(shù)映射等操作[20-22],將數(shù)據(jù)信息逐步提取出來(lái)。最后,卷積神經(jīng)網(wǎng)絡(luò)將目標(biāo)化成函數(shù),通過(guò)計(jì)算得出誤差值,由BP算法將誤差值反饋給前面每一層,實(shí)時(shí)更新參數(shù),再逐層反饋給前面每一層,以達(dá)到訓(xùn)練的目的。CNN適用于樣本數(shù)量大且對(duì)精度要求較高的非線性的時(shí)間序列預(yù)測(cè)。自CNN出現(xiàn)以來(lái),研究人員在優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和改善模型復(fù)雜度方面做了大量的工作,意在用包含較少參數(shù)的簡(jiǎn)單模型完成較為復(fù)雜的任務(wù)[23]。現(xiàn)如今,常見(jiàn)的網(wǎng)絡(luò)模型主要有LeNet、AlexNet、ZF-Net、VGG-Nets、GoogLeNet、ResNet和DenseNet等[24]。

      LeNet模型[25]主要用來(lái)解決手寫數(shù)字識(shí)別的問(wèn)題。而現(xiàn)在被人們廣泛使用的所有關(guān)于深度學(xué)習(xí)的模型,都是由LeNet模型進(jìn)行改進(jìn)得到的,LeNet-5模型與最初的LeNet模型在設(shè)計(jì)上有著微妙的差別。LeNet-5采用Relu激活函數(shù),采用Softamax回歸。其特點(diǎn)是結(jié)構(gòu)簡(jiǎn)單,模型深度較淺,特征提取能力一般,易出現(xiàn)過(guò)擬合現(xiàn)象。趙彩敏等[26]通過(guò)采用淺層卷積核、z-score標(biāo)準(zhǔn)化以及用最大池化層來(lái)替代全連接層,提高模型識(shí)別率。該方法適用于樣本數(shù)據(jù)較少的情況,且對(duì)于部分?jǐn)?shù)據(jù)庫(kù)中的個(gè)別目標(biāo)無(wú)法進(jìn)行有效識(shí)別,需要進(jìn)一步提高識(shí)別效果。

      AlexNet模型[27]是第一次使用Relu、dropout以及圖形處理器(graphics processing unit,GPU)加速等技術(shù)。該模型分是對(duì)CNN更深刻理解并應(yīng)用的網(wǎng)絡(luò)模型。其特點(diǎn)是可以避免模型過(guò)擬合;提高訓(xùn)練速度,穩(wěn)定模型收斂速度;梯度消失的問(wèn)題可以通過(guò)Relu得到解決;該模型具有更深的網(wǎng)絡(luò)機(jī)構(gòu)和更多的參數(shù),但增加了計(jì)算量。至此,深度學(xué)習(xí)和CNN就被人們所記住,后續(xù)的相關(guān)研究也就頻繁出現(xiàn)。林坤等[28]提出一種改進(jìn)的AlexNet模型,通過(guò)引入SE-Block模塊加快網(wǎng)絡(luò)訓(xùn)練速度,將AlexNet網(wǎng)絡(luò)中的全連接層改為一個(gè),減少了網(wǎng)絡(luò)參數(shù)。該方法對(duì)斷掌的識(shí)別以及生物特征的融合識(shí)別還有明顯不足,需要進(jìn)一步研究。

      ZFNet模型與AlexNet模型相比,雖然在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)方面并沒(méi)有什么特別大的改進(jìn),只是在某些參數(shù)進(jìn)行了改變,但在性能方面比AlexNet模型要提高了許多。其使用的激活函數(shù)與技術(shù)與AlexNet基本沒(méi)有改變,只是使用了較小的filter。其特點(diǎn)是保留了更多原始的像素信息,改變了參數(shù),性能較AlexNet更好。許來(lái)祥等[29]提出一種改進(jìn)的ZFNet網(wǎng)絡(luò)模型,通過(guò)引入空間變換網(wǎng)絡(luò)STN和Dropout層,調(diào)整模型的層數(shù),提高了識(shí)別率。由于紅外圖像數(shù)據(jù)較少,需進(jìn)一步完善ZFNet結(jié)構(gòu),同時(shí)考慮利用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)網(wǎng)絡(luò)對(duì)圖像進(jìn)行仿真來(lái)訓(xùn)練網(wǎng)絡(luò)。

      VGG-Nets模型[30]主要是由牛津大學(xué)與Google DeepMind公司共同聯(lián)合研究開(kāi)發(fā)的一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。通過(guò)對(duì)卷積層和池化層進(jìn)行堆疊,構(gòu)建了一種十幾層深的Deep卷積神經(jīng)網(wǎng)絡(luò),并且通過(guò)對(duì)深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)多次進(jìn)行實(shí)驗(yàn),從中可以得到了CNN的深度與性能的一些結(jié)論。VGG-Nets模型比起AlexNet、ZFNet模型,其優(yōu)點(diǎn)在于極大地降低了錯(cuò)誤率。VGG-Nets模型采用1×1和3×3的小卷積核,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,分類器為Softamax邏輯回歸。由于采用小型卷積核,使得網(wǎng)絡(luò)表達(dá)能力得到提高,網(wǎng)絡(luò)的結(jié)構(gòu)也不斷加深,但同時(shí)也增加了計(jì)算量。李校林等[31]通過(guò)融合局部二值模式(local binary pattern,LBP)特征與卷積層提取到的特征,結(jié)合改進(jìn)的VGG模型的連接層,提高了表情識(shí)別準(zhǔn)確率,有較強(qiáng)的魯棒性。該方法只使用了最初的Softmax函數(shù),并沒(méi)有考慮損失函數(shù)對(duì)準(zhǔn)確率的影響,具有局限性。

      上述中的AlexNet模型與VGG-Nets模型提高網(wǎng)絡(luò)性能的方法都是采用加深網(wǎng)絡(luò)的結(jié)構(gòu),而GoogLeNet模型[32]不同,其提高性能的方法是既加深網(wǎng)絡(luò)結(jié)構(gòu)又對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。通過(guò)引入Inception模塊來(lái)取代傳統(tǒng)單一的卷積和激活等操作,中間層采用損失函數(shù)(loss function)作為輔助,并且將最后的全連接層換成1×1的小卷積核,降低了計(jì)算量,訓(xùn)練速度得到提高。丁英姿等[33]通過(guò)引入全局最大池化層(global max pooling layer,GMP)、Sigmoid交叉熵函數(shù)以及連通區(qū)域算法,提出一種改進(jìn)的GoogLeNet模型。該方法能夠同時(shí)檢測(cè)多種特征,準(zhǔn)確率也較高,適用于小樣本情況,但是小樣本數(shù)據(jù)較少,分布不均,具有局限性,需要增加數(shù)據(jù)庫(kù)和算法自優(yōu)化能力。

      ResNet模型[34]是CNN的創(chuàng)新之作,通過(guò)引入殘差模塊,建立了一個(gè)層數(shù)很深的網(wǎng)絡(luò)結(jié)構(gòu),減少了參數(shù)量和計(jì)算量,解決了網(wǎng)絡(luò)退化的問(wèn)題。神經(jīng)網(wǎng)絡(luò)只需學(xué)習(xí)輸入與輸出之間的差值,就可以將問(wèn)題簡(jiǎn)單化,一定程度上解決了信息丟失、梯度消失、神經(jīng)網(wǎng)絡(luò)無(wú)法正常運(yùn)行等問(wèn)題,使網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地進(jìn)行訓(xùn)練。Tao等[35]通過(guò)采用ResNet-50網(wǎng)絡(luò)作為基礎(chǔ),將兩個(gè)卷積層替代全連接層,然后使用Soft-NMS算法來(lái)增強(qiáng)魯棒性,提高檢測(cè)精度。該方法與之前的算法相比,無(wú)論速度還是精度都有很大提高。

      DenseNet模型[36]是一種連接緊密的卷積神經(jīng)網(wǎng)絡(luò)模型,通過(guò)吸取ResNet模型核心的部分,并在此基礎(chǔ)上進(jìn)行改進(jìn),使得網(wǎng)絡(luò)性能得到提高。在DenseNet模型中,任意兩層都有直接關(guān)系,每一層的輸入都是前面所有層輸出的和,并且在該層所學(xué)習(xí)到的特征也傳遞給后面層作為輸入,使特征能夠更好地傳播,降低了參數(shù)量,解決梯度消失或爆炸的問(wèn)題。

      李益兵等[37]通過(guò)設(shè)計(jì)一種混合蛙跳算法來(lái)對(duì)CNN模型進(jìn)行優(yōu)化改進(jìn),利用混合蛙跳算法對(duì)兩個(gè)卷積層進(jìn)行優(yōu)化,將參數(shù)定義為混合蛙跳算法中的特征向量,CNN的誤差作為函數(shù)值。通過(guò)訓(xùn)練得到最優(yōu)值,將其作為向量從而確定CNN的結(jié)構(gòu)。該方法可以選取最優(yōu)參數(shù),減少訓(xùn)練過(guò)程的次數(shù),提高模型準(zhǔn)確率,但是耗時(shí)較長(zhǎng),后續(xù)研究應(yīng)在保證準(zhǔn)確率同時(shí)減少時(shí)間。

      正是因?yàn)檫@些CNN模型在結(jié)構(gòu)上與其他神經(jīng)網(wǎng)絡(luò)不同,才使CNN具有很強(qiáng)的優(yōu)勢(shì),使得CNN在這方面取得重大成功[38]。

      2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)

      循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)又稱為時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),適用于在特定自然語(yǔ)言處理任務(wù)中進(jìn)行實(shí)驗(yàn)驗(yàn)證,能夠?qū)μ囟▎?wèn)題進(jìn)行解釋,但是解釋能力較差,不具有通用性。常見(jiàn)模型有:長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory network,LSTM)[39]、門控循環(huán)單元(gate recurrent unit,GRU)[40]、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bi-directional long short term memory network,BLSTM)[41]等。

      Ma等[42]將雙向LSTM、CNN和條件隨機(jī)場(chǎng)相結(jié)合,讓模型能夠從字符或詞中學(xué)習(xí),無(wú)須特征或數(shù)據(jù)信息預(yù)處理,適用于序列標(biāo)記的任務(wù)。Mou等[43]提出了一種基于RNN的改進(jìn)模型,通過(guò)將高光譜像素以最初數(shù)據(jù)信息的形式輸入到網(wǎng)絡(luò)模型中進(jìn)行分析處理。在以往的RNN中加入一種用于校正參數(shù)的激活函數(shù),不僅在模型訓(xùn)練過(guò)程中具有較強(qiáng)的學(xué)習(xí)能力,而且不會(huì)出現(xiàn)分歧的問(wèn)題。另外,作者還研究出一種改進(jìn)的GRU神經(jīng)網(wǎng)絡(luò),通過(guò)采用改進(jìn)門控遞歸單元,可以減少參數(shù)量,有效提高處理數(shù)據(jù)的能力,具有更為簡(jiǎn)單的結(jié)構(gòu)和更少的參數(shù)。Zhang等[44]提出一種基于中文命名實(shí)體識(shí)別的方格LSTM模型,該模型可以將單詞自身加入詞向量中,來(lái)消除分詞錯(cuò)誤產(chǎn)生的影響,但是由于中文漢字具有一詞多義,所以此方法仍具有一定局限性。牛哲文等[45]通過(guò)將GRU與CNN相結(jié)合,得到一種新型C-GRU模型。通過(guò)Dropout技術(shù)將部分單元隨機(jī)舍去,防止模型出現(xiàn)過(guò)擬合現(xiàn)象。與傳統(tǒng)模型相比,檢測(cè)準(zhǔn)確率和運(yùn)算速度方面都有明顯提高。Johnston等[46]通過(guò)改進(jìn)遞歸網(wǎng)絡(luò)的結(jié)構(gòu),提高了模型框架的壓縮性能;另外還使用了基于結(jié)構(gòu)相似性(structural similarity,SSIM)的加權(quán)像素?fù)p失訓(xùn)練[47-48],該方法能夠更清楚地感知圖像。

      正是因?yàn)檠h(huán)神經(jīng)網(wǎng)絡(luò)的不斷改進(jìn),使得它在圖像分類識(shí)別方面取得較大成功,為后續(xù)的研究提供了新的解決方法。雖然改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)還有缺點(diǎn),但并不影響研究人員對(duì)RNN的研究,在未來(lái)肯定會(huì)提出更加優(yōu)異的網(wǎng)絡(luò)模型。

      2.4 生成對(duì)抗網(wǎng)絡(luò)

      生成對(duì)抗網(wǎng)絡(luò)(GAN)主要由生成和判別兩種神經(jīng)網(wǎng)絡(luò)模型組成。生成模型主要任務(wù)是從隨機(jī)均勻分布中收集數(shù)據(jù),然后合成輸出數(shù)據(jù);判別模型以正式數(shù)據(jù)或者合成數(shù)據(jù)作為輸入,然后將樣本為真的概率輸出。在訓(xùn)練過(guò)程中,利用對(duì)抗網(wǎng)絡(luò)來(lái)生成樣本并且訓(xùn)練網(wǎng)絡(luò),這是常見(jiàn)的生成模型方法。GAN適用于圖像生成任務(wù),能夠?qū)D像中的信息生成,更好的理解,但不能對(duì)網(wǎng)絡(luò)結(jié)構(gòu)中各層之間的關(guān)系進(jìn)行解釋,也不能判斷網(wǎng)絡(luò)的優(yōu)劣。

      黃鐄等[49]將兩個(gè)不同結(jié)構(gòu)CNN模型分別作為GAN模型的生成模型與判別模型,其中生成模型是具有編碼和解碼功能的CNN模型,判別模型是二分類CNN模型。在訓(xùn)練過(guò)程中,生成模型利用跳躍連接將編碼與解碼功能得到的特征相結(jié)合,使其特征提取能力得到提高,減少過(guò)程中的損失。判別模型對(duì)圖像進(jìn)行特征提取,再將提取的特征匯總輸出,根據(jù)輸出值對(duì)圖像進(jìn)行判別。該方法在顏色還原和細(xì)節(jié)方面與以往方法相比有優(yōu)勢(shì),在處理一些低照度圖像的效果要明顯。

      GAN模型在圖像生成領(lǐng)域有著較為不錯(cuò)的成果,由此研究人員開(kāi)始在GAN模型基礎(chǔ)上對(duì)其進(jìn)行改進(jìn),研究出許多種新型網(wǎng)絡(luò)模型。唐賢倫等[50]利用CNN的特征提取再加上條件輔助,提出一種條件深度卷積生成對(duì)抗網(wǎng)絡(luò)模型。該方法不僅提高了運(yùn)算速度,同時(shí)也提高了圖像識(shí)別率,但是在對(duì)抗訓(xùn)練過(guò)程中速度比較慢,對(duì)于生成和判別網(wǎng)絡(luò)沒(méi)有設(shè)定一個(gè)最優(yōu)標(biāo)準(zhǔn),還需進(jìn)一步研究。商顯震等[51]將GAN與樸素貝葉斯結(jié)合,提出一種多分類診斷方法,這種方法對(duì)于數(shù)據(jù)集當(dāng)中的類不平衡和多分類問(wèn)題有明顯改善,識(shí)別準(zhǔn)確率也有提升。

      GAN模型有許多改進(jìn)模型,Mehdi[52]通過(guò)在生成對(duì)抗網(wǎng)絡(luò)中添加額外的信息,解決了網(wǎng)絡(luò)本身不可控的問(wèn)題。但是該方法只是單獨(dú)使用了每個(gè)標(biāo)簽,并沒(méi)有將多個(gè)標(biāo)簽聯(lián)合使用,在搜索空間上是有限的。Denton等[53]通過(guò)在卷積層使用高斯和拉普拉斯金字塔,生成出更高像素的圖像;Arjovsky等[54]想要解決網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定的問(wèn)題,于是提出了一種Wasserstein GAN模型,通過(guò)將判別模型的最后一層去除,改變生成模型與判別模型中的一些參數(shù),而且截取一定范圍的權(quán)重,但是最終并沒(méi)有解決網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定的問(wèn)題,只解決了模式崩潰的問(wèn)題。Gulrajani等[55]通過(guò)將連續(xù)性限制的條件進(jìn)行改進(jìn),采用新型lipschitz連續(xù)性限制手法,梯度消失的現(xiàn)象得到改善,模型收斂速度得到加快。

      3 深度學(xué)習(xí)應(yīng)用

      深度學(xué)習(xí)有著很強(qiáng)的特征提取能力,圖像識(shí)別精度高,實(shí)時(shí)性快等優(yōu)點(diǎn),因此被人們普遍應(yīng)用與目標(biāo)檢測(cè)的各個(gè)領(lǐng)域。尤其是在人臉、醫(yī)學(xué)圖像、遙感圖像、行人檢測(cè)[56]等方面取得較大成就。在以前,目標(biāo)檢測(cè)由于傳統(tǒng)方法的缺點(diǎn),并沒(méi)有達(dá)到要求。但是在近幾年中,深度學(xué)習(xí)技術(shù)得到完善,許多研究人員將深度學(xué)習(xí)技術(shù)與目標(biāo)檢測(cè)相結(jié)合,檢測(cè)效果比傳統(tǒng)方法有較大進(jìn)步。

      3.1 人臉檢測(cè)

      如今,人臉檢測(cè)已經(jīng)應(yīng)用于人們的日常生活當(dāng)中,是人們常用的一種技術(shù)手段。通常情況下,人臉檢測(cè)應(yīng)用于電子商務(wù)、視頻監(jiān)控、支付手段、門禁等日常生活的多個(gè)方面。人臉檢測(cè)是對(duì)人臉特征信息進(jìn)行采集和定位,完成身份信息驗(yàn)證和查找等。

      隨著深度學(xué)習(xí)技術(shù)的迅速崛起,人臉檢測(cè)已經(jīng)逐漸成為深度學(xué)習(xí)技術(shù)的重要研究發(fā)展方向之一,在深度學(xué)習(xí)不斷發(fā)展的過(guò)程中有許多新的算法被提出,其中一些算法目前仍然還有部分技術(shù)缺陷,有些算法已經(jīng)相對(duì)成功。其中Taigman等[57]提出的DeepFace模型在人臉檢測(cè)方面效果相對(duì)較好。該方法應(yīng)該使用更為簡(jiǎn)短的特征,網(wǎng)絡(luò)的運(yùn)算時(shí)間最好減少,這在其他視覺(jué)領(lǐng)域也有潛力。章之星等[58]將多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)與深度可分離卷積網(wǎng)絡(luò)(DSC)相結(jié)合,提出DSC-MTCNN網(wǎng)絡(luò)。通過(guò)在MTCNN中P-Net層、R-Net層以及O-Net層分別加入DSC和BN層,減少參數(shù)量,提高檢測(cè)速度,防止梯度消失。該方法降低了計(jì)算量、內(nèi)存占用空間和計(jì)算復(fù)雜程度,檢測(cè)精度并未受到太大影響。李楠等[59]通過(guò)將多個(gè)Inception模塊串聯(lián),對(duì)卷積核進(jìn)行分解簡(jiǎn)化,然后結(jié)合Softmax和TripletLoss,加深并加寬了網(wǎng)絡(luò)。該方法可以在參數(shù)較少的情況下仍然保持較高的識(shí)別率,并且降低了網(wǎng)絡(luò)計(jì)算的復(fù)雜程度。

      雖然這些年人臉檢測(cè)技術(shù)發(fā)展不錯(cuò),但依然有十分明顯的不足。例如,如何區(qū)分雙胞胎、如何判斷不同年齡階段的人臉變化、外部環(huán)境的干擾如何消除、如何加快人臉檢測(cè)的訓(xùn)練速度等。因此,要想解決上述問(wèn)題,人臉檢測(cè)技術(shù)還需要進(jìn)一步提高。

      3.2 醫(yī)學(xué)圖像檢測(cè)

      醫(yī)學(xué)方面的圖像種類非常繁多,而且圖像受設(shè)備和環(huán)境的影響十分巨大,這些問(wèn)題在一定程度上影響醫(yī)生對(duì)病人的診斷。因此,醫(yī)學(xué)圖像識(shí)別技術(shù)是目前最前沿的醫(yī)學(xué)診斷方法之一。醫(yī)學(xué)圖像檢測(cè)主要是從大量醫(yī)學(xué)圖像中快速、準(zhǔn)確地找出患者的病理信息,為醫(yī)學(xué)研究和治療做出貢獻(xiàn)。

      CNN是醫(yī)學(xué)圖像檢測(cè)的主要算法,通過(guò)CNN模型對(duì)圖像中的信息進(jìn)行提取,并合成高階特征信息,從而實(shí)現(xiàn)醫(yī)學(xué)圖像檢測(cè)。何雪英等[60]研究出一種改進(jìn)的深層CNN模型,主要利用數(shù)據(jù)加強(qiáng)和遷移學(xué)習(xí)的算法,從而完成對(duì)乳腺癌醫(yī)學(xué)圖像的分類識(shí)別。該方法能夠有效避免過(guò)擬合現(xiàn)象,識(shí)別準(zhǔn)確率更高,更符合臨床醫(yī)學(xué)的需求。Zhao等[61]將全卷積神經(jīng)網(wǎng)絡(luò)(FCN)與條件隨機(jī)場(chǎng)(CRFs)相結(jié)合,提出一種集成模型來(lái)實(shí)現(xiàn)對(duì)腦腫瘤圖像的分割。通過(guò)將原始圖像輸入FCN中得到分割概率圖,再將原始圖像與分割概率圖共同傳輸給CRFs,對(duì)分割結(jié)果進(jìn)行優(yōu)化,保證結(jié)果與原始圖像位置信息的一致性。該方法提高了計(jì)算速度,但在圖像分割時(shí),由于像素不同會(huì)導(dǎo)致網(wǎng)絡(luò)性能變差。李維等[62]通過(guò)改進(jìn)CNN,提出一種多層次二階特征融合的網(wǎng)絡(luò)模型,利用CNN對(duì)肺結(jié)節(jié)多層切面圖像提取特征,通過(guò)子模塊和融合模塊得到特征向量,對(duì)特征向量進(jìn)行分類,最終得到肺結(jié)節(jié)的評(píng)估結(jié)果。通過(guò)實(shí)驗(yàn)可知,該方法能夠有效提高分類準(zhǔn)確率。張國(guó)標(biāo)等[63]通過(guò)對(duì)經(jīng)典VGG-16模型第一個(gè)卷積層更換更大的卷積核并引入Dropout模塊,提出一種基于VGG-16的混合圖像監(jiān)測(cè)模型。該模型能夠提取更多的特征信息,提高魯棒性,但是對(duì)于單一圖像和混合圖像會(huì)產(chǎn)生錯(cuò)誤,將其錯(cuò)分為其他圖像,需要進(jìn)一步研究。

      目前因?yàn)槿鄙俅罅肯嚓P(guān)病理的數(shù)據(jù)集,所以現(xiàn)在仍然有許多病癥無(wú)法應(yīng)用此技術(shù)進(jìn)行有效診斷。因此,建立關(guān)于醫(yī)學(xué)圖像的大型數(shù)據(jù)集和網(wǎng)絡(luò)模型的改進(jìn)都是目前醫(yī)學(xué)圖像檢測(cè)的研究重點(diǎn)。

      3.3 遙感圖像檢測(cè)

      由于計(jì)算機(jī)水平的提高,遙感圖像數(shù)據(jù)也大幅增加,傳統(tǒng)的圖像識(shí)別方法不能有效提取有價(jià)值的信息。而深度學(xué)習(xí)技術(shù)有著很強(qiáng)的學(xué)習(xí)能力,能夠把低階特征合成高階特征,而且能使用深層結(jié)構(gòu)模型對(duì)遙感圖像進(jìn)行識(shí)別與分類。王鑫等[64]研究出一種基于改進(jìn)的CNN模型的遙感圖像分類識(shí)別算法,分析圖像中的成分并進(jìn)行降維,將得到的特征合成高階特征,最后對(duì)圖像進(jìn)行分類識(shí)別。該方法明顯降低錯(cuò)誤率,但是算法的效率還需提高。史文旭等[65]通過(guò)在SSD(single shot multibox detector)網(wǎng)絡(luò)模型中增加特征融合模塊與特征增強(qiáng)模塊,能夠增強(qiáng)特征的提取能力,提高檢測(cè)性能。另外,通過(guò)引入聚焦分類損失函數(shù),防止樣本失衡的現(xiàn)象。該方法能夠增強(qiáng)網(wǎng)絡(luò)的適應(yīng)能力,提高檢測(cè)精度,但對(duì)于小尺度目標(biāo)還需進(jìn)一步實(shí)驗(yàn)。Zhang等[66]提出一種無(wú)監(jiān)督遙感圖像超分辨的GAN模型,該模型利用平均池化的方法對(duì)遙感圖像進(jìn)行退化處理,雖然提高了模型的泛化能力,但是影響圖像退化因素太多,池化不能一概而論。Zhang等[67]用遷移學(xué)習(xí)的方法對(duì)不同情況的遙感HR和LR建模,利用通道注意力機(jī)制對(duì)不同深度的特征進(jìn)行融合。該方法對(duì)已經(jīng)建模的場(chǎng)景有明顯的優(yōu)勢(shì),但模型參數(shù)較多,實(shí)際應(yīng)用效果較差,適合復(fù)雜結(jié)構(gòu)的遙感圖像。Dong等[68]設(shè)計(jì)了一種稠密采樣機(jī)制,加寬了特征的通道,將不同深度的特征傳遞給上采樣器進(jìn)行重建。該方法能夠有效使用不同深度的特征,加強(qiáng)了特征利用率,但對(duì)遙感圖像中的微小目標(biāo)有著較差的重建能力,適合尺寸較大的目標(biāo)重建。

      目前遙感圖像檢測(cè)主要根據(jù)人工識(shí)別,其主要數(shù)據(jù)來(lái)自衛(wèi)星影像,但衛(wèi)星圖像中數(shù)據(jù)龐大,分辨率低,對(duì)目標(biāo)的檢測(cè)非常艱難。因此,遙感圖像檢測(cè)的重點(diǎn)就是準(zhǔn)確提取有價(jià)值的信息,深度學(xué)習(xí)就能夠?qū)崿F(xiàn)以上操作,雖然現(xiàn)在的技術(shù)還有不足,在實(shí)際應(yīng)用中依然有不少缺陷。對(duì)此,創(chuàng)建合適的模型以及算法優(yōu)化是其重要研究方向。

      3.4 行人檢測(cè)

      行人檢測(cè)主要應(yīng)用于視頻監(jiān)控、車輛導(dǎo)航和自動(dòng)駕駛。相對(duì)于目標(biāo)檢測(cè)而言,行人檢測(cè)要更為復(fù)雜,不同行人在同一時(shí)間有靜態(tài)和動(dòng)態(tài)之分,也容易受到位置姿態(tài)、光照、背景以及圖像模糊程度的影響,增加了行人檢測(cè)的難度。Zhang等[69]發(fā)現(xiàn)Faster RCNN在行人檢測(cè)中的效果并不理想,通過(guò)對(duì)其進(jìn)行分析之后得出一種RPN處理小目標(biāo)和負(fù)樣本,之后利用隨機(jī)森林對(duì)其進(jìn)行分類的方法。顧偉等[70]提出基于多特征融合的多通道特征模型,該模型能夠減少計(jì)算負(fù)擔(dān),提高效率;對(duì)于行人檢測(cè)有著較高的識(shí)別精度,適用于遮擋的行人。該方法由于使用二段式檢測(cè)方法,導(dǎo)致檢測(cè)速度下降,無(wú)法解決目標(biāo)高度重疊的問(wèn)題。謝永明等[71]提出改進(jìn)Faster R-CNN算法,能夠有效去除圖像中背景信息的干擾,增加圖像信息。該方法檢測(cè)精度有明顯提高,但是檢測(cè)速度略有下降,需要優(yōu)化網(wǎng)絡(luò),提高檢測(cè)效率。

      4 展望

      深度學(xué)習(xí)技術(shù)由于其具有超強(qiáng)的學(xué)習(xí)能力以及在復(fù)雜環(huán)境下的優(yōu)越性,令其成為現(xiàn)如今一個(gè)研究熱點(diǎn)。盡管現(xiàn)在該技術(shù)取得了較大的成就,但仍然需要進(jìn)一步發(fā)展。以下是對(duì)未來(lái)研究的一些討論。

      (1)針對(duì)圖像中的目標(biāo)微小,且存在遮擋和陰影,如何對(duì)目標(biāo)進(jìn)行檢測(cè)來(lái)滿足實(shí)際生活的應(yīng)用需求,成為先如今需要解決的一個(gè)問(wèn)題。為提高對(duì)目標(biāo)的檢測(cè),可以在淺層結(jié)構(gòu)中的利用注意力模塊對(duì)信息進(jìn)行整合,改進(jìn)算法實(shí)現(xiàn)目標(biāo)的實(shí)時(shí)監(jiān)測(cè)功能,使用尺度自適應(yīng)的檢測(cè)器來(lái)定位檢測(cè)目標(biāo)等等。

      (2)對(duì)于小型的數(shù)據(jù)集來(lái)說(shuō),無(wú)法進(jìn)行深層網(wǎng)絡(luò)訓(xùn)練,即使用遷移學(xué)習(xí)來(lái)對(duì)數(shù)據(jù)集進(jìn)行調(diào)整,也會(huì)使效果變差。而對(duì)于大型數(shù)據(jù)集來(lái)說(shuō),目前的數(shù)據(jù)集缺少多樣性,數(shù)據(jù)集還需要人工進(jìn)行標(biāo)注,費(fèi)時(shí)費(fèi)力,并且容易受到外部因素的影響。因此,研究大規(guī)模多樣化的數(shù)據(jù)集是人們重點(diǎn)研究之一。

      (3)目前的檢測(cè)算法需要圖像數(shù)據(jù)集的標(biāo)注完整,但是在數(shù)據(jù)集中人工標(biāo)注目標(biāo)耗時(shí)較長(zhǎng),對(duì)于算法也有著嚴(yán)重負(fù)擔(dān),難度較大。實(shí)現(xiàn)弱監(jiān)督目標(biāo)檢測(cè)能夠有效改善這一問(wèn)題,其可以根據(jù)少量標(biāo)注的圖像檢測(cè)未標(biāo)注的圖像,極大地降低難度,因此弱監(jiān)督目標(biāo)檢測(cè)方法是一個(gè)研究重點(diǎn)。

      (4)如何將多個(gè)任務(wù)組合在一個(gè)網(wǎng)絡(luò)當(dāng)中,且提高檢測(cè)精度對(duì)研究人員是一個(gè)挑戰(zhàn)。積累多層次特征的網(wǎng)絡(luò)架構(gòu)是提高目標(biāo)檢測(cè)性能的一個(gè)重要方法。當(dāng)多個(gè)計(jì)算機(jī)視覺(jué)任務(wù)同時(shí)進(jìn)行時(shí),可以獲取豐富的信息,極大提高單個(gè)計(jì)算機(jī)視覺(jué)任務(wù)的性能。

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)深度
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      深度理解一元一次方程
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      深度觀察
      深度觀察
      深度觀察
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      富锦市| 内江市| 辉南县| 星子县| 河津市| 瑞金市| 贵州省| 石门县| 佛冈县| 抚宁县| 明星| 长垣县| 犍为县| 阳原县| 五大连池市| 黄梅县| 汕头市| 东兰县| 吴桥县| 柳江县| 蒲江县| 鲁山县| 蓬莱市| 且末县| 宜春市| 蓬莱市| 北票市| 临漳县| 辽宁省| 高州市| 曲麻莱县| 锡林郭勒盟| 天镇县| 乡宁县| 土默特右旗| 达州市| 封丘县| 名山县| 南昌县| 崇仁县| 正镶白旗|