黃鏡塵 李光 李敏
摘要:隨著科技的不斷發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)與識(shí)別算法已經(jīng)可以應(yīng)用于各種不同的場(chǎng)景之中。本文從當(dāng)下比較流行的兩大類算法出發(fā),分別從算法的原理介紹以及基本的工作流程進(jìn)行介紹,將五類識(shí)別算法優(yōu)缺點(diǎn)進(jìn)行逐一分析。對(duì)今后的學(xué)術(shù)研究方便進(jìn)行合適的選擇。
關(guān)鍵詞:目標(biāo)檢測(cè);算法;目標(biāo)識(shí)別
目標(biāo)識(shí)別一般要求研究系統(tǒng)具有較高的識(shí)別準(zhǔn)確度,這是進(jìn)行識(shí)別最基本的要求,精確識(shí)別樣品中的目標(biāo)數(shù)量是根本所在,識(shí)別系統(tǒng)的一切基礎(chǔ)功能包括其拓展都是建立在成功識(shí)別出一個(gè)個(gè)目標(biāo)模型之上建立的。二是擁有較快的識(shí)別速度[1],由于現(xiàn)在的目標(biāo)識(shí)別工作都有著大量的計(jì)算量,放在正常的PC設(shè)備上面處理這些數(shù)據(jù)集需要有很多繁瑣的步驟需要一步步進(jìn)行處理,更何況是把這些處理放在樹莓派中進(jìn)行,每一個(gè)部分都需要花費(fèi)巨大的時(shí)間,因此在保證識(shí)別準(zhǔn)確性和精準(zhǔn)度的同時(shí),能否擁有一定的識(shí)別速度就成為一個(gè)很重要的問題。三是目標(biāo)識(shí)別技術(shù)的出現(xiàn)在有眾多便利的同時(shí),其安全性穩(wěn)定性也是一個(gè)需要我們考慮的重要因素,如何保證系統(tǒng)可以長(zhǎng)時(shí)間穩(wěn)定運(yùn)行也是該項(xiàng)目順利完成的一個(gè)重要訴求。
1.R-CNN基本原理及工作流程
首先需要獲取所要檢測(cè)的圖像,需要使用選擇性搜尋,然后大約選擇2000個(gè)上下的無(wú)關(guān)類的待選擇的區(qū)域;把上一步選擇的區(qū)域進(jìn)行轉(zhuǎn)化,轉(zhuǎn)變?yōu)榇笮〗y(tǒng)一的圖片類,并且會(huì)使用卷積神經(jīng)網(wǎng)絡(luò)模型將每一個(gè)區(qū)域的特征進(jìn)行提取收集;將每一個(gè)候選區(qū)域借由使用特定類型的線性支持向量器分類器來(lái)進(jìn)行分類,并且通過線性回歸的方法,對(duì)獲得的坐標(biāo)邊框進(jìn)行精致修正。
2.Fast R-CNN
(1)原理介紹
Fast R-CNN相對(duì)于R-CNN的變化,關(guān)鍵在于是實(shí)現(xiàn)了對(duì)后者的加速處理,首先是學(xué)習(xí)了有關(guān)SPP Net的方法,成功研究提出了ROI池化層的簡(jiǎn)易版本,并且也實(shí)現(xiàn)了候選框的映射,正是這些改進(jìn)讓網(wǎng)絡(luò)實(shí)現(xiàn)了反向傳播的功能,在SPP訓(xùn)練層面來(lái)講,也很好的攻克了其整體網(wǎng)絡(luò)訓(xùn)練的一些難題。其次是關(guān)于多任務(wù)Loss層的變化,R-CNN是使用支持向量器進(jìn)行多分類工作,而Fast R-CNN實(shí)現(xiàn)這一功能的卻是邏輯回歸模型[9],還有就是之前的使用邊框回歸也是讓SmoothL1Loss進(jìn)行代替。
(2) 基本工作流程
首先第一步工作同R-CNN相同,都是先需要獲取一個(gè)待識(shí)別的對(duì)象, 接下來(lái)就是使用選擇性搜尋選擇好候選區(qū)域;識(shí)別對(duì)象要進(jìn)行特征提取,這一步是通過卷積操作然后得到特征圖;先要找到一個(gè)個(gè)的候選框關(guān)于特征圖的映射修補(bǔ),然后將每個(gè)修補(bǔ)作為其候選框的特征量,將一個(gè)個(gè)特征量進(jìn)行輸入,放到ROI的池化層以及后面的層;把之前候選框的特征量輸入,特征量進(jìn)入到邏輯回歸模型分類器中,通過邏輯回歸模型分類器進(jìn)行一系列分類工作;對(duì)候選框位置進(jìn)行整理,通過進(jìn)行SmoothL1Loss的回歸方案來(lái)達(dá)到對(duì)位置調(diào)整的結(jié)果。
3.Faster R-CNN
(1)原理介紹
Faster R-CNN算法相較于Fast R-CNN算法的最大進(jìn)步就是其區(qū)域候選的選擇是使用區(qū)域候選網(wǎng)絡(luò)實(shí)現(xiàn)的。Faster R-CNN還通過把區(qū)域候選網(wǎng)絡(luò)合并到卷積神經(jīng)網(wǎng)絡(luò)中,真正意義上將端到端的目標(biāo)檢測(cè)進(jìn)行了實(shí)現(xiàn),F(xiàn)aster R-CNN主要由卷積層、ROI池化層、風(fēng)險(xiǎn)系數(shù)、回歸和分類幾類構(gòu)成。
(2)基本工作流程
將全部的待檢測(cè)樣品進(jìn)行輸入,放到卷積神經(jīng)網(wǎng)絡(luò)中,從而獲取特征圖;為了得到候選框里面的一系列信息量,需要把卷積神經(jīng)網(wǎng)絡(luò)獲取的特征輸入到區(qū)域候選網(wǎng)絡(luò)中;將候選框里面的特征量信息進(jìn)行分類,并且判斷出這些特征量能不能歸于同一類別,將每一個(gè)候選框的特征信息進(jìn)行提取分類后,在使用回歸器將其整理到正確的地方。
4.YOLO
(1)原理介紹
One-stage這一算法的提出首先是在YOLO上面實(shí)現(xiàn)的,由:卷積層,目標(biāo)檢測(cè)層,NMS篩選層三個(gè)部分組成整個(gè)系統(tǒng),而YOLO的檢測(cè)網(wǎng)絡(luò)主要是由2個(gè)全連接層和24個(gè)卷積層構(gòu)成的,在YOLO中,全連接層的作用是辨識(shí)圖像所處位置以及有關(guān)類型的概率值的工作,而卷積層則是負(fù)責(zé)待檢測(cè)樣品的特征信息的提取工作。
(2)基本工作流程
不同于R-CNN系列要將樣品分為2000個(gè)區(qū)域,YOLO可以將待識(shí)別樣品劃分為S*S個(gè)任意區(qū)域。接下來(lái)需要格子進(jìn)行預(yù)測(cè)X個(gè)邊界框,這些邊界框在回歸到自己的位置的同時(shí),還需要順便預(yù)測(cè)一個(gè)值,我們稱之為confidence值。 這個(gè)值表示邊界框中預(yù)測(cè)目的的可信程度以及邊界框預(yù)測(cè)信息的準(zhǔn)確度,接下來(lái)就是將一個(gè)個(gè)所得圖像進(jìn)行分類。
5.SSD
(1) 原理介紹
SSD和YOLO的相同點(diǎn)是都使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行對(duì)樣品的檢測(cè)活動(dòng),不同點(diǎn)是SSD的特征圖擁有多個(gè)尺度。SSD由三部分組成分別是卷積層、目標(biāo)檢測(cè)層還有非極大值抑制篩選層[8]。
(2) 基本工作流程
SSD算法是在以前的傳統(tǒng)VGG網(wǎng)絡(luò)里面加入了5個(gè)特征圖尺寸依次減小的卷積層[17],這樣做可以對(duì)每個(gè)特征圖的輸入使用不同的核心進(jìn)行卷積,并且使得得到的輸入量進(jìn)行不同的工作中,其中的一個(gè)輸出量給confidence用于分類,使每個(gè)默認(rèn)框生成不同類別的confidence;剩下的輸出值給localization用于回歸,這一使每個(gè)默認(rèn)框得4到個(gè)坐標(biāo)值。最后將每一個(gè)特征圖上面得到的最終結(jié)果進(jìn)行整理合并后送達(dá)到Loss層里面。
6.總結(jié)
R-CNN:R-CNN基于深度學(xué)習(xí)的目標(biāo)檢測(cè)中最早應(yīng)用卷積的特性的,由于R-CNN需要將每個(gè)檢測(cè)樣品都分成2000待檢測(cè)區(qū)域,使算法所需時(shí)長(zhǎng)大大增加。Fast R-CNN模型是在R-CNN和SPP-NET這兩種模型的基礎(chǔ)上提出的,依舊采用selective search來(lái)提取特征區(qū)域,所耗費(fèi)時(shí)間較長(zhǎng)的情況依舊沒有得到好轉(zhuǎn)。
Faster R-CNN采用了直接回歸的方式進(jìn)行時(shí)設(shè)計(jì),可以較快的檢測(cè)出目標(biāo)樣品,在面對(duì)一些尺寸較小的樣品的時(shí)候無(wú)法成功檢測(cè)。
SSD算法成功的將R-CNN系列以及YOLO系列的特點(diǎn)長(zhǎng)處融合在了一起,使的邊界框的定位不準(zhǔn)的問題在SSD中也得到了很好的解決,并且在面對(duì)一些難以分辨的檢測(cè)樣品的情況下,也保有了一定的成功率。
參考文獻(xiàn):
[1] 徐浩浩. 基于Python深度學(xué)習(xí)的人臉識(shí)別方法探究[J]. 現(xiàn)代信息科技,2019,3(17):88-90
[2] Girshick R B, Donahue J, Darrell T, et al. Region- based convolutional networks for accurate object detection and segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(1): 142-158
(作者簡(jiǎn)介:黃鏡塵1999.07,山東交通學(xué)院本科學(xué)生,指導(dǎo)老師:李光、李敏)