• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      卷積神經(jīng)網(wǎng)絡(luò)在實時檢測領(lǐng)域的研究

      2022-06-11 11:32:36高新怡陳琦陳冠宇楊靜怡張坤坤蔡華蕊
      軟件工程 2022年6期
      關(guān)鍵詞:目標檢測卷積神經(jīng)網(wǎng)絡(luò)圖像識別

      高新怡 陳琦 陳冠宇 楊靜怡 張坤坤 蔡華蕊

      摘? 要:提出輕量模型Mini Net用于實時檢測,并保證其準確度。Mini Lower利用Group卷積與通道合并提取低階特微,Mini Higher利用可分離的Depthwise卷積提取高階特微。Mini模塊實現(xiàn)的高效卷積使其大幅減少了參數(shù)量與計算量,并且在空間維度上引入更多層次所帶來的非線性,可提升模塊的提取能力。另外,在模型中利用更精細的特微搭配多尺度預(yù)測改善小目標檢測。基于一系列的消融實驗驗證Mini模塊設(shè)計的有效性,并透過對照實驗結(jié)果證實Mini Net模型的實時性優(yōu)于全卷積模型,在參數(shù)量僅有0.92×106的情況下,能夠有效地提取目標特微。

      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);輕量模型;目標檢測;圖像識別

      中圖分類號:TP311? ? ?文獻標識碼:A

      Research on Convolutional Neural Networks in Real-time Detection

      GAO Xinyi, CHEN Qi, CHEN Guanyu, YANG Jingyi, ZHANG Kunkun,CAI Huarui

      Abstract: This paper proposes a lightweight model Mini Net for real-time detection and its accuracy is guaranteed. Mini Lower uses Group convolution and channel merging to extract low-order micros, while Mini Higher uses separable Depthwise convolutions to extract high-order micros. The efficient convolution implemented by the Mini module greatly reduces the amount of parameters and computation, and the nonlinearity brought by more layers in the space dimension is introduced, which can improve the extracting ability of the module. In addition, a combination of a finer micro and multi-scale prediction is used in the model to improve small object detection. Based on a series of ablation experiments, the effectiveness of the Mini module design is verified, and the comparative experimental results very that the real-time performance of the Mini Net model is better than that of the full convolution model. When the parameter amount is only 0.92×106, the target micro can be extracted effectively.

      Keywords: convolutional neural network; lightweight model; object detection; image recognition

      1? ?引言(Introduction)

      從信息化軟件到電子商務(wù),然后到高速發(fā)展的互聯(lián)網(wǎng)時代,再到今天的云計算、大數(shù)據(jù),電子信息滲透到我們生活、工作的方方面面。在互聯(lián)網(wǎng)的驅(qū)動下,人們更清晰地認識并使用數(shù)據(jù),不僅僅是數(shù)據(jù)統(tǒng)計、分析,我們還強調(diào)數(shù)據(jù)挖掘、預(yù)測。機器學習就是對計算機一部分數(shù)據(jù)進行學習,再對另外一些數(shù)據(jù)進行預(yù)測、判斷。如今的機器視覺已逐漸成為多數(shù)學者的主要研究內(nèi)容,并且滲透到我們生活的各個領(lǐng)域,如圖像分類、目標定位、目標檢測等。其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的設(shè)計與研究顯得尤為重要。

      為了提高普通神經(jīng)網(wǎng)絡(luò)系統(tǒng)的效率及準確度,本文提出輕量模型用于實時檢測,并通過一系列消融實驗驗證模型設(shè)計的有效性。

      2? ?研究背景(Research background)

      2.1? ?研究現(xiàn)狀

      經(jīng)典的Le Net誕生于1998 年。隨后CNN的鋒芒開始被SVM等手工設(shè)計的特征蓋過。隨著ReLU和Dropout的提出,以及GPU和大數(shù)據(jù)帶來的歷史機遇,CNN在2012 年迎來了歷史突破——Alex Net[1]。

      此后,Deep Learning不斷發(fā)展,ImageNet大規(guī)模網(wǎng)絡(luò)視覺識別挑戰(zhàn)賽(ILSVRC)每年都會被Deep Learning刷榜。如圖1所示,隨著該模型被研究得越來越深入,top-5的錯誤率也越來越低,到2017 年,降到了2.25%附近。同樣,在ImageNet數(shù)據(jù)集合上,人眼的辨識錯誤率大概為5.1%,換言之,目前的Deep Learning模型的識別能力已經(jīng)超過了人眼[2]。而如圖1所示的模型代表,也是Deep Learning視覺發(fā)展的里程碑式代表。

      CNN主要的經(jīng)典結(jié)構(gòu)包括Le Net、Alex Net、ZF Net、VGG、NIN、Google Net[3]、Res Net、SE Net等,它們是最古老的CNN模型。1985 年,Rumelhart和Hinton等人提出了BP神經(jīng)網(wǎng)絡(luò)算法,使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得簡單可行。目前,Deep Learning雖然還是比Cortes和Vapnic的Support-Vector Networks稍落后一點,不過其發(fā)展前景非??捎^。

      2.2? ?研究目的與意義

      如今很多裝置、設(shè)備都注重系統(tǒng)能否實時響應(yīng),相應(yīng)地,系統(tǒng)響應(yīng)及時意味著系統(tǒng)的有效性好。當前,許多研究好模型的重心都在建立好模型的訓(xùn)練上,從宏觀角度看,顯然花大部分時間在訓(xùn)練上,系統(tǒng)的效率就成了問題;從微觀角度看,卷積本身的冗余性有待提高。本文著重研究輕量模型,從本質(zhì)上分析卷積參數(shù)的有效性,進一步提高系統(tǒng)的效率。

      3? ?卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network)

      3.1? ?神經(jīng)網(wǎng)絡(luò)

      起源于1943 年的M-P神經(jīng)網(wǎng)絡(luò)是廣泛應(yīng)用于機器學習的人工神經(jīng)網(wǎng)絡(luò),是按照生物神經(jīng)元的結(jié)構(gòu)和工作原理構(gòu)造出來的一個抽象和簡化的模型。其每個神經(jīng)元都是一個多輸入單輸出的信息處理單元,且神經(jīng)元輸入與輸出之間存在由于突觸延遲所導(dǎo)致的固定的時滯。而現(xiàn)存的神經(jīng)網(wǎng)絡(luò)是由大量的神經(jīng)元相互連接構(gòu)成的一種具有學習能力的自適應(yīng)系統(tǒng)。

      3.1.1? ?感知器

      在人工神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元具備激勵特性和感知特性。與神經(jīng)系統(tǒng)相似,基于Frank Rosenblatt提出的感知器由式(1)所確定, 維輸入與權(quán)重進行相乘、求和運算,再加一個可調(diào)偏置,通過激勵函數(shù)映射后,得到輸出。

      (1)

      單層感知器可視為最簡單的前向神經(jīng)網(wǎng)絡(luò),由輸入層、輸出層和一組可訓(xùn)練的權(quán)重參數(shù)組成,如圖2所示。多層感知器由輸入層、輸出層和隱含層所構(gòu)成,具有非線性特性,有效地解決了單層感知器難以處理線性不可分的問題,其結(jié)構(gòu)如圖3所示。

      3.1.2? ?BP神經(jīng)網(wǎng)絡(luò)

      BP算法是一種監(jiān)督學習算法[4],通常情況下被用來訓(xùn)練多層感知機,將數(shù)據(jù)輸入多層感知網(wǎng)絡(luò)中,通過前向傳播到隱含層,直至輸出層后,找到實際值與理論值之間的偏差函數(shù),根據(jù)梯度下降法進行反向傳播;再由更新的權(quán)重來最小化偏差函數(shù)得到偏差的極小值,使得模型的數(shù)據(jù)盡可能地擬合真實值。算法實際的誤差值取決于訓(xùn)練時的權(quán)重參數(shù),訓(xùn)練開始前會隨機分配初始權(quán)重,通過多次有效的反向傳播后得到一組最小化誤差的權(quán)重值。由于初始權(quán)重值是系統(tǒng)隨機分配的,也存在一定的誤差,需要多次擬合找最優(yōu)。

      每個神經(jīng)元的輸出為式(2), 個輸入,與權(quán)重進行相乘、求和運算后得到,通過激勵函數(shù)映射得到輸出。

      (2)

      權(quán)重更新為式(3),權(quán)重調(diào)整為式(4)。

      (3)

      (4)

      其中,為偏差函數(shù)。

      由鏈式法則求得偏導(dǎo)數(shù)為式(5),進而求得神經(jīng)元。若神經(jīng)元位于輸出層,此時輸出與預(yù)測值相等,可通過直接進行求偏運算得到;若神經(jīng)元位于隱含層,則必須進行遞歸運算。

      (5)

      其中,

      3.2? ?卷積

      隨著神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,在自適應(yīng)學習系統(tǒng)的基礎(chǔ)上,使用梯度下降法實現(xiàn)的多層次神經(jīng)網(wǎng)絡(luò)能夠有效地解決系統(tǒng)處理非線性的問題。神經(jīng)元早期所采用的是全連接方式對數(shù)據(jù)進行擬合,在處理高像素圖像時,模型容易出現(xiàn)過擬合的狀況。

      3.2.1? ?卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)利用局部感知視野、權(quán)值共享與空間或者時間的下采樣實現(xiàn)平移、縮放和形變的不變性[5],進一步改善全連接網(wǎng)絡(luò)在圖像識別領(lǐng)域的缺陷。

      為了進行高層次的特微提取,利用輸入圖像拓撲結(jié)構(gòu)的方式,使得卷積核提取到局部特微,再通過逐步濾波的結(jié)合,得到高層次特微。特微圖中的神經(jīng)元是由上一層的一組局部神經(jīng)元與單一卷積核進行卷積所得到的。

      將單個卷積核設(shè)置為一組權(quán)重和一個可選擇的偏置,卷積核可以在不同的區(qū)域內(nèi)檢測到相同的特微,再進行相乘、求和運算后,得到一個平面特微圖。而特微圖的所有神經(jīng)元共享權(quán)重,進而降低特微圖的復(fù)雜度。

      計算出的特微圖通過卷積層與下采樣層進行交替搭建,進而降低特微圖的空間分辨率,最后在網(wǎng)絡(luò)末端結(jié)合全連接層與分頻器輸出預(yù)測結(jié)果。

      3.2.2? ?串聯(lián)式與并聯(lián)式

      (1)串聯(lián)式

      由于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在擬合復(fù)雜度較高的非線性數(shù)據(jù)時會加大下一層的計算負擔,故提出串聯(lián)式系統(tǒng)簡化計算,即串聯(lián)多的3×3卷積與最大池化層組合來推展模型層數(shù),進而大幅度提升模型的識別能力。

      (2)并聯(lián)式

      如果數(shù)據(jù)集的分布可由相對稀疏的網(wǎng)絡(luò)進行擬合,可分析某些激活值的相關(guān)性,將相關(guān)性高的神經(jīng)元聚合連接在一起,從而減輕過擬合和降低卷積參數(shù)的計算量。

      在高層特微空間中,彼此之間的距離相對較遠,所以使用到大尺寸的卷積核數(shù)量相對較多,難以避免計算量的增多。因此,在3×3、5×5卷積前與3×3池化,在其后加入能進行通道交互且減少數(shù)據(jù)計算量的1×1卷積。此模型在實現(xiàn)提取高層特微的同時,還能夠控制其空間、時間復(fù)雜度處于合理的范圍并具有一定的準確性。模型如圖4所示。

      3.2.3? ?殘差

      殘差模塊如圖5所示,通過捷徑方式連接到原始輸入層,得到殘差函數(shù)表達式,再通過元素層級的加法得到,并經(jīng)過激勵函數(shù)映射得到相應(yīng)的輸出值。引入殘差函數(shù)映射能夠在分支突出微小變化,使得權(quán)重對分支變化更加敏感,從而降低模型的訓(xùn)練難度。

      3.3? ?輕量卷積

      為了解決系統(tǒng)的效率問題,引入輕量卷積。輕量模型主要是模型的卷積層進行組合與設(shè)計。通常情況下,在卷積層引入與傳統(tǒng)卷積不同的Group卷積和Depthwise卷積。

      3.3.1? ?Group卷積

      傳統(tǒng)的卷積是對上一層所有特微通道進行卷積處理,如圖6所示。而Group卷積是先將特微通道進行分組,使其在不同的GPU上進行運算,不同的卷積核對各自上一層分組后的通道進行處理,如圖7所示。

      此處以上一層特微通道數(shù)為,經(jīng)過本層卷積核操作后,輸出通道為為例。使用寬為、高為的一般卷積核,那么,它的單一卷積核尺寸為:;忽略偏置參數(shù),該層參數(shù)量為:;若使用等高等寬的Group卷積核,將上一層通道分為組,參數(shù)量為:。相比于一般的卷積核,Group卷積的參數(shù)量為原來的 倍。

      3.3.2? ?Depthwise 卷積

      Depthwise卷積模型如圖8所示,若上一層特微通道數(shù)為,且用等高等寬的Depthwise卷積核,那么其單一卷積核尺寸僅為,該層參數(shù)量也僅為,參數(shù)量大幅度降低。

      3.4? ?目標檢測

      3.4.1? ?Two Stages算法

      Two Stages的主要算法為R-CNN,將檢測問題轉(zhuǎn)化為分類問題,使用選擇性階層分組方式對候選區(qū)域進行提取,通過圖像分割算法得到多區(qū)域,根據(jù)相似度逐層合并得到多個候選框,再對每個候選框縮放到固定尺寸,輸入卷積神經(jīng)網(wǎng)絡(luò)進行特微提取,再送入SVM進行分類,得到準確位置。

      FAST-R-CNN[6]改進了R-CNN的缺點,將原始圖像一次性輸入卷積神經(jīng)網(wǎng)絡(luò),并將最后獲得的特微送入池化層提取到相應(yīng)的特微區(qū)域,并將候選框?qū)崿F(xiàn)最大池化,輸出固定尺寸的特微圖,解決了全連接層需要固定輸入,縮放特微區(qū)域?qū)е率д娴膯栴}。

      使用選擇性搜索提取候選區(qū)域會占用很多檢測時間,將候選區(qū)域提取到卷積神經(jīng)網(wǎng)絡(luò)中,引入?yún)^(qū)域生成網(wǎng)絡(luò)RPN,將卷積層輸出的特微圖進行類別和背景判斷,根據(jù)所獲得的候選框?qū)?yīng)之前卷積網(wǎng)絡(luò)輸出的特微圖,將其輸入池化層中,再分別送入softmax分類器和校正邊界回篩器中,獲得最終的預(yù)測結(jié)果。

      3.4.2? ?One Stage算法

      目標檢測[7]中的One Stage算法是直接回歸物體的類別概率和位置坐標值,比階層分組提取特微方法預(yù)先提取候選框的控制更加快速,可以實現(xiàn)即時檢測。One Stage算法中有代表性的是YOLO系列算法,整體為單一管道,直接從單張圖像回歸出邊界框的類別和準確位置。其優(yōu)點是檢測速度快,便于訓(xùn)練,且準確度高于R-CNN系列。

      YOLOv3將原始圖片縮放為,并將其輸入單一網(wǎng)絡(luò)中,經(jīng)過卷積層與池化層的處理,將特微圖分成的單元格,且每個單元格預(yù)測個邊界框,每個邊界框預(yù)測個值,包含框的相對中心坐標、相對偏移寬高、置信度分數(shù)為以及個類別條件概率。表示相對單元格偏移。

      在測試時,如式(6)所示,將預(yù)測框的類別條件概率與置信度分數(shù)相乘后,得到特定類別置信度分數(shù),并根據(jù)所有預(yù)測框的特定類別置信度分數(shù)進行過濾和非極大值抑制消除,從而得到最終預(yù)測結(jié)果。

      (6)

      式(6)中,含有目標也就是其中心點落入該單元格,;不含目標,。表示真實框與預(yù)測框的面積比。

      為了避免訓(xùn)練不穩(wěn)定引起所需收斂時間過長的問題,YOLOv2和YOLOv3將中心坐標采用對應(yīng)于單元格左上角的相對位置,求出Sigmoid函數(shù),使得中心坐標能夠落在單元格內(nèi)。如圖9所示,特微圖的寬為、高為,邊界框的寬為、高為,邊界框中心坐標為,偏移寬高為,單元格距離左上角特微圖的距離為,可以通過式(7)和式(8)定下,進而得到預(yù)測框的中心坐標在特微上的準確位置。

      (7)

      (8)

      4? ?Mini Net 模型(Mini net model)

      本研究基于Mini卷積模塊的設(shè)計,在高層與低層分別采用不同性質(zhì)的卷積模塊進行特微的提取,通過減少模型的參數(shù)量和計算量實現(xiàn)即時檢測,并保證一定的準確性。

      4.1? ?檢測系統(tǒng)

      對Mini Net模型的檢測流程圖如圖10所示,將原始圖片經(jīng)縮放轉(zhuǎn)換為固定尺寸輸入系統(tǒng)中,經(jīng)過Mini Net模型處理后,直接輸出目標的確切位置,采用單一管道的系統(tǒng)模式提升檢測效率。此處輸入的圖片均為彩色RGB數(shù)據(jù),并不對原始圖像進行灰度處理降維。

      4.1.1? ?系統(tǒng)流程

      Mini Net檢測系統(tǒng)分為訓(xùn)練階段和測試階段,訓(xùn)練階段如圖11(a)所示,建立Mini Net網(wǎng)絡(luò)并對權(quán)重進行初始化,將訓(xùn)練集縮放完的圖片輸入網(wǎng)絡(luò)進行前向傳播,計算出偏差函數(shù),再通過梯度下降法進行反向傳播調(diào)整權(quán)重值,經(jīng)過多次訓(xùn)練,最終得到特微圖的權(quán)重參數(shù)。測試階段如圖11(b)所示,建立Mini Net網(wǎng)絡(luò),將最佳權(quán)重輸入網(wǎng)絡(luò)中,將縮放后的圖像輸入網(wǎng)絡(luò)進行前向傳播進而實現(xiàn)多尺度預(yù)測,再利用NMS過濾得到最后的檢測結(jié)果。

      4.1.2? ?輸入前處理

      首先,計算出模型輸入尺寸與原始尺寸的寬高比,并取最小值作為縮放比例,為了避免縮放后的邊界大于原圖邊界裁剪到原始圖像,再將原始圖像乘以縮放比例得到新的尺寸。由于輸入圖像的寬和高皆為416,但是原始圖像的寬高比不一定是1∶1,故采用等比例縮放圖像,放置到寬高皆為416且RGB規(guī)定為(128,128,128)的灰度底片上。為了在訓(xùn)練過程中不出現(xiàn)重疊效果,選擇中間值128作為底色進行訓(xùn)練。

      4.1.3? ?模型架構(gòu)

      Mini Net模型是在高低階段分別采用不同的卷積模塊組合成的,在模型低層階段采用Mini Lower模塊來提取低階特微,在高層階段采用Mini Higher模塊來提取高階特微,最后搭配兩個尺寸輸出預(yù)測,整體框架如圖12所示。

      4.2? ?運作模式

      Mini Net模型的運作模式是基于One Stage算法的YOLOv3,將整個任務(wù)視為回歸問題,不需要預(yù)先提取候選框,而是直接將圖片輸入神經(jīng)網(wǎng)絡(luò)中進行處理,將特微圖分割成單元格的形式,在特微空間上進行全局的目標檢測??紤]到輕量模型的計算量問題,此處將采用YOLOv3-tiny的兩個尺度進行輸出預(yù)測,并且借鑒YOLOv3先驗框的偏置回歸控制,將其分割在兩個尺度上進行訓(xùn)練和測試。

      4.2.1? ?訓(xùn)練階段

      Mini Net模型采用監(jiān)督學習進行模式訓(xùn)練,包含兩個輸入和,計算偏差函數(shù)的輸出端,第一個輸入為圖片中目標對應(yīng)的真實框G的標記值,為縮放后圖片的RGB值。

      (1)輸入端

      訓(xùn)練集的每一個目標對應(yīng)的真實框都包含五個標記值,分別為:邊界左上角坐標、右下角坐標、所屬類別。先將真實框標記值進行轉(zhuǎn)換:,,,,再將真實框轉(zhuǎn)化后的標記值進行歸一化處理,如式(9)所示:

      (9)

      格式轉(zhuǎn)換完成后,將每個真實框G對應(yīng)到先驗框A上,從而決定先驗框的訓(xùn)練順序。

      (2)輸入端

      縮放后的原始圖像在模型訓(xùn)練前,先將RGB歸一化為[0,1],有助于訓(xùn)練的穩(wěn)定,再將歸一化的數(shù)據(jù)輸入Mini Net網(wǎng)絡(luò)中,經(jīng)前向傳播后輸出,最終兩個卷積層分別輸

      出不同尺寸的特微圖。小尺度輸出的張量形狀為:[,13,13,

      18],大尺度輸出的張量形狀為:[,26,26,18],18表示輸出三個預(yù)測框,且每個預(yù)測框預(yù)測六個值。

      (3)輸出端

      整個系統(tǒng)的輸出端為損失層,損失層接收兩個輸入,分別為實際標記值和模型預(yù)測值,再通過偏差函數(shù)計算出兩者的誤差值,經(jīng)過多次訓(xùn)練,尋找最合適的權(quán)重參數(shù)。在損失函數(shù)計算前,需進行維度轉(zhuǎn)換,如表1所示。

      此處采用交叉熵作為偏差函數(shù),用概率形式表示交叉熵的值,因為損失層的真實值和預(yù)測值皆為六個項目,故采用多任務(wù)訓(xùn)練模式。

      4.2.2? ?測試階段

      Mini Net測試階段由訓(xùn)練階段取得的權(quán)重進行運算,先將原始圖片縮放到模型所需要的尺寸,將RGB進行歸一化處理并進行前向傳播,輸出不同尺寸的預(yù)測結(jié)果,將置信度分數(shù)和條件概率相乘,得到特定置信度分數(shù),將置信度分數(shù)的預(yù)測框過濾掉,再對過濾后的圖片進行NMS處理消除重疊框,直至處理完所有預(yù)測框,得到預(yù)測結(jié)果。

      4.3? ?Mini 模塊設(shè)計

      此處根據(jù)不同階段提取的特微特性設(shè)計不同形式的輕量模型,分別為基于低層次提取的基本特微Mini Lower和基于高層次提取的高階特微Mini Higher,再將二者進行組合得到輕量模型Mini Net。

      4.3.1? ?Mini Lower模塊

      Mini Lower模塊主要利用Group卷積,其不同組的卷積核分別作用于分組后的特微圖上。首先,對輸入模塊的特微采用1×1卷積進行信息融合,并將卷積數(shù)量定為輸入特微通道數(shù)量的一半,從而可以實現(xiàn)特微交互,并能降低參數(shù)計算量;接著對處理完的特微進行Group卷積運算,考慮到過多分組會導(dǎo)致特微破碎化,所以只分為兩組,并進行3×3卷積操作,卷積核的數(shù)量取決于合并后的輸出通道數(shù)。此處采用通道層級的合并策略,一方面可以大幅減少參數(shù)量,另一方面也減少了卷積帶來的不必要的參數(shù)計算量。

      4.3.2? ?Mini Higher模塊

      Mini Higher模塊主要利用Depthwise卷積,每個卷積核各自操作所對應(yīng)的單一特微通道,并分別使用單一卷積核進行運算處理。使用Depthwise卷積能夠大大減少計算量。基于Mini Lower在模塊前端引入1×1卷積搭配池化層與激勵函數(shù)所帶來的效率,故此處也使用1×1的卷積組合,并將卷積核數(shù)量設(shè)為來降低參數(shù)的計算量,接著進行Depthwise卷積,最后1×1卷積相當于是對Depthwise卷積輸出的特微進行融合,以此擬合目標特微所需的位置。

      4.4? ?檢測模型

      4.4.1? ?YOLOv3-tiny模型

      圖片輸入模型經(jīng)3×3卷積核處理后,利用2×2最大池化降低特微圖尺寸搭配3×3卷積增加通道數(shù),經(jīng)過五次基本特微后,特微通道數(shù)增加至512;接著采用3×3卷積搭配1×1卷積提取高階特微,此階段3×3卷積核的數(shù)目較多,用以提取更多特性的高階特微,其后利用1×1卷積來降低通道數(shù)量;輸出端采用3×3卷積提取表達性特微,搭配1×1卷積輸出結(jié)果。

      4.4.2? ?Mini Net模型

      圖片輸入模型后,先對輸入圖片的上邊界和左邊界填0處理,使得特微圖的寬和高均降至原來的一半;接著使用五個Mini Lower模塊提取基本特微,并加倍特微通道,穿插四個池化層來降低特微圖的尺寸,該階段操作完之后,特微圖的尺寸降為13×13,通道數(shù)增加至512;對于高階特微采用Mini Higher進行提取;最終兩個尺度的輸出端采用1×1卷積進行預(yù)測。

      5? ?實驗結(jié)果(Experimental result)

      5.1? ?開發(fā)環(huán)境介紹

      此研究在中央處理器上執(zhí)行所有操作,沒有使用具有大量平行運算能力的圓形處理器,用Python完成即時檢測系統(tǒng)的設(shè)計,神經(jīng)網(wǎng)絡(luò)的搭建基于TensorFlow和聚類算法Keras,數(shù)據(jù)集均采用WIDER FACE對模型進行監(jiān)督學習評估,沒有使用另外的數(shù)據(jù)集。

      5.2? ?數(shù)據(jù)的預(yù)處理

      5.2.1? ?WIDER FACE

      數(shù)據(jù)集為WIDER的子集,所有圖片通過Google和Bing等搜索得到[8],進行類別處理,刪除相似度較高的圖片保證樣本的豐富性。如圖13所示為攜帶多樣屬性的大規(guī)模數(shù)據(jù),可充分保證正負樣本,不需要額外的數(shù)據(jù)集。

      5.2.2? ?數(shù)據(jù)集預(yù)處理

      訓(xùn)練集本身的特性將影響模型的泛化能力,需要對數(shù)據(jù)集進行過濾和篩選,保證數(shù)據(jù)集內(nèi)的數(shù)據(jù)真實有效。

      5.2.3? ?過濾和篩選

      首先,針對有問題的數(shù)據(jù)進行篩選,刪除十個標記值為0的不符圖片,并剔除寬或高的邊界框。如表2所示為對數(shù)據(jù)集與驗證集進行初步處理。

      5.2.4? ?統(tǒng)計與聚類

      先統(tǒng)計訓(xùn)練集的邊界框,并聚類出實驗所需要的六個先驗框,通過使用K-means的歐式距離函數(shù)計算出所有數(shù)據(jù)點與各個群集中心的距離。為了減小統(tǒng)計和聚類引起的誤差,對初始值的選取是從所有數(shù)據(jù)點中挑選六個點,而非隨機的任意值。

      5.3? ?訓(xùn)練方法

      基于Mini卷積模塊的有效設(shè)計,使得模型在整體訓(xùn)練的過程中更加穩(wěn)定,因此在檢測數(shù)據(jù)集上訓(xùn)練檢測模型。在數(shù)據(jù)集上采用多階段訓(xùn)練策略,在特定階段搭配超參數(shù)調(diào)整,從而提高模型的訓(xùn)練效率和檢測的準確性。

      5.3.1? ?超參數(shù)與優(yōu)化器

      此研究對于周期的確定不采用預(yù)先固定,而是在遍歷整個訓(xùn)練集的每個周期之后,利用周期更新權(quán)重值,在驗證集上計算平均誤差,從而判斷訓(xùn)練效果。常見的批次數(shù)量的設(shè)定方式有BGD、SGD和MBGD。BGD方式是將所有樣本輸入網(wǎng)絡(luò)中,將樣本全部遍歷一遍得到更新后的權(quán)重,此方法的計算量過于龐大,收斂速度非常慢;SGD方式的每一次訓(xùn)練僅選取一個樣本輸入網(wǎng)絡(luò)中,避免了大量的計算,模型通常遍歷少數(shù)樣本就可以收斂;MBGD方式每次訓(xùn)練選取一個批次的個樣本輸入網(wǎng)絡(luò),把整體數(shù)據(jù)分為若干批次,再決定該批次權(quán)重更新的梯度方向,這樣的數(shù)據(jù)既穩(wěn)定,又不會造成計算量大的問題。權(quán)重更新的有效性將影響模型的數(shù)據(jù)擬合能力,非線性高的權(quán)重將會調(diào)整更多來擬合每一個數(shù)據(jù)點,但是這樣容易出現(xiàn)過擬合的情況,如圖14所示。

      優(yōu)化器采用MBGD搭配L2進行權(quán)重更新,再搭配具有Momentum動量特性與RMS自適應(yīng)監(jiān)督學習的Adam作為優(yōu)化器。

      5.3.2? ?數(shù)據(jù)增強

      此處對于不同訓(xùn)練階段采用不同的處理策略。數(shù)據(jù)增強相當于增加更多樣化的數(shù)據(jù)量,因此可以避免過擬合,提高檢測準確度。多尺度縮放分為三步:第一步,在有效的范圍內(nèi)隨機生成新的寬高比,這樣不會導(dǎo)致檢測圖像與原始圖像的比例相差太大;第二步,獲取隨機縮放值,以避免縮放比例過大或過小導(dǎo)致輸入尺寸的邊界裁剪掉過多的原始數(shù)據(jù);第三步,設(shè)置的信箱模式,找到底片最合適的位置。

      5.4? ?實驗結(jié)果分析

      首先,為了說明Mini Lower的有效性,將Mini Lower與其他模塊進行對照實驗,并探討模型在合并更加精細的特微后,是否能夠改善整體的檢測效果,最后對Mini Net與YOLOv3-tiny進行評估比較。此策略將帶來更好的檢測性能。

      采用Mini Lower模塊設(shè)計的Mini Net能夠更加準確及時地進行檢測。以下按照表3來設(shè)計對照實驗,Mini Net-A組無殘差分支,故卷積核的數(shù)量增加;Mini Net-B組將Mini Lower模塊后的通道合并改為殘差模塊中的元素相加形式;Mini Net-C組保證合并后的通道數(shù)為384,而非Mini Net中的416通道。實驗結(jié)果如表4所示。

      6? 結(jié)論(Conclusion)

      對于輕量模型Mini Net,在參數(shù)量僅有0.92×106的情況下,能夠有效地提取目標特微。由于卷積本身有冗余問題,相較于全卷積使用大量的參數(shù)學習特微,根據(jù)低階特微和高階特微分別設(shè)計的Mini Lower和Mini Higher能夠更準確地學習特微。在卷積模塊中增加任何操作都會增加模型的計算量,進而影響檢測速度。輕量模型將批標準化層和激勵函數(shù)都設(shè)計在模塊前端,在數(shù)據(jù)堆疊的過程中,特微的交互作用使得數(shù)據(jù)在各個部分間共享,從而減少了不必要的數(shù)據(jù)計算。

      本文提出多階段的訓(xùn)練策略,第一階段使得收斂快速而穩(wěn)定,第二階段和第三階段改善系統(tǒng)出現(xiàn)過擬合的問題,利用更精細的特微來改善小目標的檢測。

      參考文獻(References)

      [1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 6(60):84-90.

      [2] RUSSAKOVSKY O, DENG J, SU H, et al. TmageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(03):221-252.

      [3] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// CVPR. 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015:1-9.

      [4] 劉品.BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化研究及應(yīng)用[D].北京:中國地質(zhì)大學,2016.

      [5] 陳灝然.基于卷積神經(jīng)網(wǎng)絡(luò)的小目標檢測算法研究[D].無錫:江南大學,2021.

      [6] GIRSHICK R. Fast R-CNN[C]// ICCV. Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015:1440-1448.

      [7] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// CVPR. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu HI, USA: IEEE, 2017:936-944.

      [8] YANG S, LUO P, LOY C C, et al. WIDER FACE: A face detection benchmark[C]// CVPR. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. LasVegas, USA: IEEE, 2016:5525-5533.

      作者簡介:

      高新怡(2001-),女,本科生.研究領(lǐng)域:自動化.

      陳? 琦(1970-),女,博士,副教授.研究領(lǐng)域:控制理論與應(yīng)用.

      陳冠宇(2001-),男,本科生.研究領(lǐng)域:計算機科學與技術(shù).

      楊靜怡(2001-),女,本科生.研究領(lǐng)域:自動化.

      張坤坤(2001-),女,本科生.研究領(lǐng)域:自動化.

      蔡華蕊(2000-),女,本科生.研究領(lǐng)域:通信工程.

      猜你喜歡
      目標檢測卷積神經(jīng)網(wǎng)絡(luò)圖像識別
      基于Resnet-50的貓狗圖像識別
      電子制作(2019年16期)2019-09-27 09:34:50
      高速公路圖像識別技術(shù)應(yīng)用探討
      圖像識別在物聯(lián)網(wǎng)上的應(yīng)用
      電子制作(2018年19期)2018-11-14 02:37:04
      圖像識別在水質(zhì)檢測中的應(yīng)用
      電子制作(2018年14期)2018-08-21 01:38:16
      視頻中目標檢測算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
      行為識別中的人體運動目標檢測方法
      深度學習算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      移動機器人圖像目標識別
      长海县| 宁强县| 五大连池市| 石阡县| 迁西县| 遂昌县| 巨野县| 长海县| 共和县| 格尔木市| 宁晋县| 寻乌县| 南丰县| 平度市| 漳平市| 彭泽县| 泰和县| 福清市| 诏安县| 阿尔山市| 榆树市| 双江| 兴仁县| 泰来县| 阳原县| 特克斯县| 郁南县| 本溪市| 荆门市| 四子王旗| 临高县| 庆阳市| 兴化市| 区。| 洪洞县| 北海市| 左云县| 金乡县| 扶风县| 达拉特旗| 无棣县|