胡靖逸 郭雪亮 李會軍 朱美強(qiáng)
摘要
R-CNN (Regions withConvolutional Neural NetworkFeatures)算法及其改進(jìn),大多數(shù)用于ImageNet,coco等學(xué)術(shù)競賽中,針對現(xiàn)實(shí)應(yīng)用于現(xiàn)場檢測任務(wù)的優(yōu)化及研究相對較少。本文在RCNN結(jié)構(gòu)上,提出了在現(xiàn)實(shí)場景數(shù)字檢測任務(wù)中,基于經(jīng)典圖像處理技術(shù)完成候選框提取的思路,可極大提高目標(biāo)檢測效率,使其能夠完成實(shí)時(shí)檢測任務(wù)。
【關(guān)鍵詞】實(shí)時(shí)目標(biāo)檢測 深度學(xué)習(xí)
1引言
Ross Girshick在2014年于CVPR發(fā)表論文《Rich feature hierarchies for Accurate ObjectDetection and Segmentation》,第一次將在圖像分類任務(wù)中表現(xiàn)優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測當(dāng)中,該檢測算法即R-CNN(Regionswith Convolutional Neural Nerwork FeatureS).
但該算法也存在明顯缺陷,檢測效率底下,無法應(yīng)用于實(shí)時(shí)檢測任務(wù)當(dāng)中。隨后Ross Girshick嘗試對其進(jìn)行改進(jìn),提出了Fast-RCNN算法,F(xiàn)aster-RCNN算法等,用來提升檢測速度。但即便如此,基本配置的個(gè)人電腦及工控機(jī)仍然難以滿足計(jì)算需求。在處理現(xiàn)實(shí)場景數(shù)字檢測任務(wù)時(shí),本文提出了基于經(jīng)典圖像處理技術(shù)完成候選框提取的思路,可極大提高目標(biāo)檢測效率,使其能夠完成實(shí)時(shí)檢測任務(wù)。
2 R-CNN算法介紹
2.1候選框提取
在物體識別與定位領(lǐng)域,最傳統(tǒng)的方法是基于窮舉性搜索。但這種方法計(jì)算量大,非常低效。尤其在超高分辨率的遙感圖像中,采用基于窮舉性搜索的物體識別與定位算法,將會是一件令人十分頭痛惱火的事情。此時(shí),若能過濾掉一些無用的box將會節(jié)省大量時(shí)間。這就是Selective Search(選擇性搜索)的優(yōu)點(diǎn),選擇性搜索( Selective Search)綜合了蠻力搜索( Exhausticve Search)和分割(Segmentarion)的方法,意在找到可能的目標(biāo)位置進(jìn)行物體的識別。
其他在R-CNN框架下用于候選框處理的算法還有Edge Boxes,Bing, Geodesic等,各算法效果比較可參考J Hosang的論文[3]。
2.2卷積神經(jīng)網(wǎng)絡(luò)
20世紀(jì)60年代,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時(shí)發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而提出了卷積神經(jīng)網(wǎng)絡(luò)( Convolutional Neural Networks, CNN)。現(xiàn)在,CNN已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一,特別是在模式分類領(lǐng)域,由于該網(wǎng)絡(luò)避免了對圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像,因而得到了更為廣泛的應(yīng)用。
通常由卷積層、池化層、全連接層、分類器等組成,而網(wǎng)絡(luò)結(jié)構(gòu)、模型參數(shù)等可具體設(shè)計(jì)。常用的網(wǎng)絡(luò)模型包括LeNet,AlexNet,ResNet等。
3候選框提取算法改進(jìn)
R-CNN框架使用通用性強(qiáng)的SelectiveSearch算法做候選框提取算法,但在現(xiàn)實(shí)環(huán)境當(dāng)中,檢測目標(biāo)的圖像特征相對固定,仍舊使用Selective Search算法會造成大量冗余。本文的中心思路是根據(jù)待檢測目標(biāo)的圖像特點(diǎn),使用傳統(tǒng)圖像處理算法有針對性地提取圖中候選框??蓸O大的減少候選框提取數(shù)量。在此思路指導(dǎo)下,本文設(shè)計(jì)了基于邊緣特征的候選框提取算法用于實(shí)驗(yàn)測試,在現(xiàn)實(shí)項(xiàng)目使用過程中可借鑒。
基于邊緣特征的候選框提取算法使用Canny算子提取圖像中的邊緣特征。首先通過高斯卷積對圖像進(jìn)行高斯平滑處理,再是對平滑處理后的圖像按照Sobel濾波器進(jìn)行微分操作,得到梯度圖,然后利用非極大抑制排除非邊緣像素,最后用滯后值查找圖像邊緣點(diǎn),得到了圖像的邊緣特征。根據(jù)劉少華的論文,滯后閾值選取是提取邊緣特征的關(guān)鍵,既要保證能夠檢測出重要信息,又能夠抑制噪聲的影響。之后,使用最小包圍矩形獲取輪廓,在此過程中,可用矩形寬高比、面積等信息對輪廓進(jìn)行篩選。篩選后所得矩形輪廓即為提取獲得的候選框。
4實(shí)驗(yàn)測試
4.1實(shí)驗(yàn)環(huán)境
本文遇到的現(xiàn)實(shí)場景數(shù)字檢測任務(wù)場景為全國機(jī)器人大賽RoboMasters的能量機(jī)關(guān)系統(tǒng),其中需要通過計(jì)算機(jī)視覺識別出九宮格屏幕中每一格內(nèi)的手寫體數(shù)字,傳遞給機(jī)器人進(jìn)行目標(biāo)打擊。所用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為LeNet。分別在三段視頻中使用SelectiveSearch算法與基于邊緣特征的候選框提取算法進(jìn)行候選框提取與內(nèi)容識別。
4.2實(shí)驗(yàn)結(jié)果
在測試實(shí)驗(yàn)中,邊緣檢測算法準(zhǔn)確提取出了所需要檢測的九宮格。由表1,表2可知,在各段測試視頻中,采用基于邊緣特征的候選框提取算法提取候選框效率遠(yuǎn)遠(yuǎn)高于SelectiveSearch算法,且準(zhǔn)確率符合要求。5結(jié)論
R-CNN無法直接用于現(xiàn)實(shí)檢測任務(wù),其檢測每張圖片花費(fèi)時(shí)間較長,無法在實(shí)時(shí)檢測任務(wù)中使用。本文提出改進(jìn)思路:在現(xiàn)實(shí)場景數(shù)字檢測任務(wù)中,檢測目標(biāo)自身具備一定圖像特征,因此在R-CNN框架上設(shè)計(jì)了基于邊緣特征的候選框提取算法進(jìn)行候選框提取,代替通用性強(qiáng)的Selective Search算法。經(jīng)過實(shí)驗(yàn)測試,可極大減少所提取候選框數(shù)量,從而使R-CNN方法能夠現(xiàn)實(shí)運(yùn)用于現(xiàn)實(shí)場景數(shù)字檢測任務(wù)當(dāng)中。
參考文獻(xiàn)
[l]Trevor Darrell Ross Girshick, JeffDonahue. Rich feature hierarchiesfor accurate object detection andsegmentation[C]. In CVPR, pages 580-587, 2014.
[2]T. Gevers J. R.R.Uijlings,K.E.A.van de Sande. Selective search forobject recognition. InternationalJournal of Computer Vision,104 (2):154 -171, 201 3.
[3]P. Dollar B. Schiele J. Hosang, R.Benenson. What makes for effectivedetection proposals. In IEEETransactions on Pattern Analysis andMachine Intelligence, 2015.