基于深度學(xué)習(xí)的目標(biāo)檢測(cè)與識(shí)別算法

2021-11-18 03:39:27黃鏡塵李光李敏

科教創(chuàng)新與實(shí)踐 2021年39期

關(guān)鍵詞：目標(biāo)識(shí)別目標(biāo)檢測(cè)算法

黃鏡塵李光李敏

摘要：隨著科技的不斷發(fā)展，基于深度學(xué)習(xí)的目標(biāo)檢測(cè)與識(shí)別算法已經(jīng)可以應(yīng)用于各種不同的場(chǎng)景之中。本文從當(dāng)下比較流行的兩大類算法出發(fā)，分別從算法的原理介紹以及基本的工作流程進(jìn)行介紹，將五類識(shí)別算法優(yōu)缺點(diǎn)進(jìn)行逐一分析。對(duì)今后的學(xué)術(shù)研究方便進(jìn)行合適的選擇。

關(guān)鍵詞：目標(biāo)檢測(cè);算法;目標(biāo)識(shí)別

目標(biāo)識(shí)別一般要求研究系統(tǒng)具有較高的識(shí)別準(zhǔn)確度，這是進(jìn)行識(shí)別最基本的要求，精確識(shí)別樣品中的目標(biāo)數(shù)量是根本所在，識(shí)別系統(tǒng)的一切基礎(chǔ)功能包括其拓展都是建立在成功識(shí)別出一個(gè)個(gè)目標(biāo)模型之上建立的。二是擁有較快的識(shí)別速度[1]，由于現(xiàn)在的目標(biāo)識(shí)別工作都有著大量的計(jì)算量，放在正常的PC設(shè)備上面處理這些數(shù)據(jù)集需要有很多繁瑣的步驟需要一步步進(jìn)行處理，更何況是把這些處理放在樹莓派中進(jìn)行，每一個(gè)部分都需要花費(fèi)巨大的時(shí)間，因此在保證識(shí)別準(zhǔn)確性和精準(zhǔn)度的同時(shí)，能否擁有一定的識(shí)別速度就成為一個(gè)很重要的問題。三是目標(biāo)識(shí)別技術(shù)的出現(xiàn)在有眾多便利的同時(shí)，其安全性穩(wěn)定性也是一個(gè)需要我們考慮的重要因素，如何保證系統(tǒng)可以長(zhǎng)時(shí)間穩(wěn)定運(yùn)行也是該項(xiàng)目順利完成的一個(gè)重要訴求。

1.R-CNN基本原理及工作流程

首先需要獲取所要檢測(cè)的圖像，需要使用選擇性搜尋，然后大約選擇2000個(gè)上下的無(wú)關(guān)類的待選擇的區(qū)域;把上一步選擇的區(qū)域進(jìn)行轉(zhuǎn)化，轉(zhuǎn)變?yōu)榇笮〗y(tǒng)一的圖片類，并且會(huì)使用卷積神經(jīng)網(wǎng)絡(luò)模型將每一個(gè)區(qū)域的特征進(jìn)行提取收集;將每一個(gè)候選區(qū)域借由使用特定類型的線性支持向量器分類器來(lái)進(jìn)行分類，并且通過線性回歸的方法，對(duì)獲得的坐標(biāo)邊框進(jìn)行精致修正。

2.Fast R-CNN

（1）原理介紹

Fast R-CNN相對(duì)于R-CNN的變化，關(guān)鍵在于是實(shí)現(xiàn)了對(duì)后者的加速處理，首先是學(xué)習(xí)了有關(guān)SPP Net的方法，成功研究提出了ROI池化層的簡(jiǎn)易版本，并且也實(shí)現(xiàn)了候選框的映射，正是這些改進(jìn)讓網(wǎng)絡(luò)實(shí)現(xiàn)了反向傳播的功能，在SPP訓(xùn)練層面來(lái)講，也很好的攻克了其整體網(wǎng)絡(luò)訓(xùn)練的一些難題。其次是關(guān)于多任務(wù)Loss層的變化，R-CNN是使用支持向量器進(jìn)行多分類工作，而Fast R-CNN實(shí)現(xiàn)這一功能的卻是邏輯回歸模型[9]，還有就是之前的使用邊框回歸也是讓SmoothL1Loss進(jìn)行代替。

（2）基本工作流程

首先第一步工作同R-CNN相同，都是先需要獲取一個(gè)待識(shí)別的對(duì)象，接下來(lái)就是使用選擇性搜尋選擇好候選區(qū)域;識(shí)別對(duì)象要進(jìn)行特征提取，這一步是通過卷積操作然后得到特征圖;先要找到一個(gè)個(gè)的候選框關(guān)于特征圖的映射修補(bǔ)，然后將每個(gè)修補(bǔ)作為其候選框的特征量，將一個(gè)個(gè)特征量進(jìn)行輸入，放到ROI的池化層以及后面的層;把之前候選框的特征量輸入，特征量進(jìn)入到邏輯回歸模型分類器中，通過邏輯回歸模型分類器進(jìn)行一系列分類工作;對(duì)候選框位置進(jìn)行整理，通過進(jìn)行SmoothL1Loss的回歸方案來(lái)達(dá)到對(duì)位置調(diào)整的結(jié)果。

3.Faster R-CNN

（1）原理介紹

Faster R-CNN算法相較于Fast R-CNN算法的最大進(jìn)步就是其區(qū)域候選的選擇是使用區(qū)域候選網(wǎng)絡(luò)實(shí)現(xiàn)的。Faster R-CNN還通過把區(qū)域候選網(wǎng)絡(luò)合并到卷積神經(jīng)網(wǎng)絡(luò)中，真正意義上將端到端的目標(biāo)檢測(cè)進(jìn)行了實(shí)現(xiàn)，F(xiàn)aster R-CNN主要由卷積層、ROI池化層、風(fēng)險(xiǎn)系數(shù)、回歸和分類幾類構(gòu)成。

（2）基本工作流程

將全部的待檢測(cè)樣品進(jìn)行輸入，放到卷積神經(jīng)網(wǎng)絡(luò)中，從而獲取特征圖;為了得到候選框里面的一系列信息量，需要把卷積神經(jīng)網(wǎng)絡(luò)獲取的特征輸入到區(qū)域候選網(wǎng)絡(luò)中;將候選框里面的特征量信息進(jìn)行分類，并且判斷出這些特征量能不能歸于同一類別，將每一個(gè)候選框的特征信息進(jìn)行提取分類后，在使用回歸器將其整理到正確的地方。

4.YOLO

（1）原理介紹

One-stage這一算法的提出首先是在YOLO上面實(shí)現(xiàn)的，由：卷積層，目標(biāo)檢測(cè)層，NMS篩選層三個(gè)部分組成整個(gè)系統(tǒng)，而YOLO的檢測(cè)網(wǎng)絡(luò)主要是由2個(gè)全連接層和24個(gè)卷積層構(gòu)成的，在YOLO中，全連接層的作用是辨識(shí)圖像所處位置以及有關(guān)類型的概率值的工作，而卷積層則是負(fù)責(zé)待檢測(cè)樣品的特征信息的提取工作。

（2）基本工作流程

不同于R-CNN系列要將樣品分為2000個(gè)區(qū)域，YOLO可以將待識(shí)別樣品劃分為S*S個(gè)任意區(qū)域。接下來(lái)需要格子進(jìn)行預(yù)測(cè)X個(gè)邊界框，這些邊界框在回歸到自己的位置的同時(shí)，還需要順便預(yù)測(cè)一個(gè)值，我們稱之為confidence值。這個(gè)值表示邊界框中預(yù)測(cè)目的的可信程度以及邊界框預(yù)測(cè)信息的準(zhǔn)確度，接下來(lái)就是將一個(gè)個(gè)所得圖像進(jìn)行分類。

5.SSD

（1）原理介紹

SSD和YOLO的相同點(diǎn)是都使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行對(duì)樣品的檢測(cè)活動(dòng)，不同點(diǎn)是SSD的特征圖擁有多個(gè)尺度。SSD由三部分組成分別是卷積層、目標(biāo)檢測(cè)層還有非極大值抑制篩選層[8]。

（2）基本工作流程

SSD算法是在以前的傳統(tǒng)VGG網(wǎng)絡(luò)里面加入了5個(gè)特征圖尺寸依次減小的卷積層[17]，這樣做可以對(duì)每個(gè)特征圖的輸入使用不同的核心進(jìn)行卷積，并且使得得到的輸入量進(jìn)行不同的工作中，其中的一個(gè)輸出量給confidence用于分類，使每個(gè)默認(rèn)框生成不同類別的confidence;剩下的輸出值給localization用于回歸，這一使每個(gè)默認(rèn)框得4到個(gè)坐標(biāo)值。最后將每一個(gè)特征圖上面得到的最終結(jié)果進(jìn)行整理合并后送達(dá)到Loss層里面。

6.總結(jié)

R-CNN：R-CNN基于深度學(xué)習(xí)的目標(biāo)檢測(cè)中最早應(yīng)用卷積的特性的，由于R-CNN需要將每個(gè)檢測(cè)樣品都分成2000待檢測(cè)區(qū)域，使算法所需時(shí)長(zhǎng)大大增加。Fast R-CNN模型是在R-CNN和SPP-NET這兩種模型的基礎(chǔ)上提出的，依舊采用selective search來(lái)提取特征區(qū)域，所耗費(fèi)時(shí)間較長(zhǎng)的情況依舊沒有得到好轉(zhuǎn)。

Faster R-CNN采用了直接回歸的方式進(jìn)行時(shí)設(shè)計(jì)，可以較快的檢測(cè)出目標(biāo)樣品，在面對(duì)一些尺寸較小的樣品的時(shí)候無(wú)法成功檢測(cè)。

SSD算法成功的將R-CNN系列以及YOLO系列的特點(diǎn)長(zhǎng)處融合在了一起，使的邊界框的定位不準(zhǔn)的問題在SSD中也得到了很好的解決，并且在面對(duì)一些難以分辨的檢測(cè)樣品的情況下，也保有了一定的成功率。

參考文獻(xiàn)：

[1] 徐浩浩. 基于Python深度學(xué)習(xí)的人臉識(shí)別方法探究[J]. 現(xiàn)代信息科技，2019，3（17）：88-90

[2] Girshick R B， Donahue J， Darrell T， et al. Region- based convolutional networks for accurate object detection and segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2015， 38（1）： 142-158

（作者簡(jiǎn)介：黃鏡塵1999.07，山東交通學(xué)院本科學(xué)生，指導(dǎo)老師：李光、李敏）