摘 要:文章討論了目標(biāo)檢測(cè)在計(jì)算機(jī)視覺領(lǐng)域中的重要性,并介紹了目標(biāo)檢測(cè)算法的 2 種主要類型:傳統(tǒng)計(jì)算機(jī)視覺方法和基于深度學(xué)習(xí)的方法。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法逐漸成為主流,并取得了較好的效果。然而,為進(jìn)一步提高 Faster R-CNN 在目標(biāo)檢測(cè)方面的性能,文章結(jié)合鯨魚優(yōu)化算法對(duì)Faster R-CNN 網(wǎng)絡(luò)進(jìn)行優(yōu)化,并使用 PASCAL VOC 2012數(shù)據(jù)集對(duì)網(wǎng)絡(luò)性能進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,基于鯨魚優(yōu)化算法的 Faster R-CNN 網(wǎng)絡(luò)性能明顯優(yōu)于標(biāo)準(zhǔn) Faster RCNN 網(wǎng)絡(luò)?;诖?,深度學(xué)習(xí)的目標(biāo)檢測(cè)算法將在未來有更廣泛的應(yīng)用和更好的效果。
關(guān)鍵詞:Faster R-CNN;目標(biāo)檢測(cè):實(shí)時(shí)性
中圖法分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A
1 引言
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要任務(wù),其主要作用是在圖像或視頻中自動(dòng)識(shí)別并定位感興趣的目標(biāo)物體。目標(biāo)檢測(cè)在許多應(yīng)用中都具有重要作用,如自動(dòng)駕駛、醫(yī)學(xué)影像分析領(lǐng)域等。
現(xiàn)有的目標(biāo)檢測(cè)算法主要分為2 類:傳統(tǒng)計(jì)算機(jī)視覺方法的算法和基于深度學(xué)習(xí)的算法。傳統(tǒng)計(jì)算機(jī)視覺方法主要基于圖像特征提取和分類器構(gòu)建,如Haar 特征[1] 、HOG 特征[2] 、SIFT 特征[3] 等。而基于深度學(xué)習(xí)的算法主要基于卷積神經(jīng)網(wǎng)絡(luò)和其變種,如Faster R?CNN[4] 、YOLO[5] 等。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法逐漸成為主流,并取得了較好的效果。這些算法不僅具有較高的檢測(cè)準(zhǔn)確率,還具有較快的檢測(cè)速度,能夠滿足實(shí)時(shí)應(yīng)用的需求。
隨著技術(shù)的不斷發(fā)展,其應(yīng)用范圍將會(huì)越來越廣泛。為了進(jìn)一步提高Faster R?CNN 在目標(biāo)檢測(cè)方面的性能,本文結(jié)合鯨魚優(yōu)化算法對(duì)Faster R?CNN 網(wǎng)絡(luò)進(jìn)行優(yōu)化,并采用數(shù)據(jù)集PASCAL VOC 2012 對(duì)網(wǎng)絡(luò)性能做了測(cè)試,實(shí)驗(yàn)結(jié)果表明,基于鯨魚優(yōu)化算法的Faster R?CNN 網(wǎng)絡(luò)性能明顯優(yōu)于標(biāo)準(zhǔn)Faster R?CNN網(wǎng)絡(luò)。
2 Faster R?CNN 網(wǎng)絡(luò)與鯨魚優(yōu)化算法
2.1 Faster R?CNN 網(wǎng)絡(luò)架構(gòu)
Faster R?CNN 是目標(biāo)檢測(cè)領(lǐng)域中比較先進(jìn)的一種網(wǎng)絡(luò)結(jié)構(gòu),其架構(gòu)主要包括卷積層、RPN 網(wǎng)絡(luò)、ROI池化和全連接層。其中,卷積層用于提取圖像的特征,RPN 網(wǎng)絡(luò)用于生成候選區(qū)域,ROI 池化用于對(duì)候選區(qū)域進(jìn)行特征提取,全連接層用于對(duì)候選區(qū)域進(jìn)行分類和回歸。Faster R?CNN 的基本架構(gòu)如圖1 所示。
(1)卷積層。
本文的Faster R?CNN 使用了深度卷積神經(jīng)網(wǎng)絡(luò)來提取圖像的特征。常用的卷積神經(jīng)網(wǎng)絡(luò)有VGG[6] 、ResNet、Inception 等,這些網(wǎng)絡(luò)可以提取不同層次的特征。本文將ResNet 卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器。
(2)RPN 網(wǎng)絡(luò)。
RPN 是Faster R?CNN 中的一個(gè)關(guān)鍵模塊,其作用是生成候選區(qū)域,即物體可能出現(xiàn)的位置。RPN 網(wǎng)絡(luò)是一個(gè)小型的卷積神經(jīng)網(wǎng)絡(luò),其輸入為卷積特征圖,輸出為多個(gè)候選區(qū)域。具體而言,RPN 網(wǎng)絡(luò)通過滑動(dòng)窗口的方式在特征圖上滑動(dòng),每個(gè)位置生成多個(gè)不同大小和長(zhǎng)寬比的錨框,然后對(duì)每個(gè)錨框進(jìn)行分類和回歸,得到每個(gè)錨框的置信度和偏移量,最后根據(jù)置信度選擇一定數(shù)量的候選區(qū)域。
(3)ROI 池化。
ROI 池化是指Faster R?CNN 對(duì)候選區(qū)域進(jìn)行特征提取的操作。對(duì)于每個(gè)候選區(qū)域,ROI 池化將其劃分成固定大小的網(wǎng)格,然后在每個(gè)網(wǎng)格上進(jìn)行最大池化操作,將每個(gè)網(wǎng)格內(nèi)的最大值作為該網(wǎng)格的特征表示。最后將所有網(wǎng)格的特征拼接起來,作為該候選區(qū)域的特征表示。
(4)全連接層。
Faster R?CNN 的最后一層是全連接層,用于對(duì)候選區(qū)域進(jìn)行分類和回歸。具體而言,全連接層首先將每個(gè)候選區(qū)域的特征表示通過一層全連接層映射到一個(gè)固定長(zhǎng)度的向量,然后分別對(duì)該向量進(jìn)行分類和回歸,得到物體類別和位置信息。
2.2 鯨魚優(yōu)化算法
鯨魚優(yōu)化算法是一種新興的基于仿生學(xué)的全局優(yōu)化算法,其靈感來源于鯨魚的群體行為。鯨魚優(yōu)化算法通過模擬鯨魚的游動(dòng)行為,對(duì)搜索空間進(jìn)行探索和優(yōu)化,以找到最優(yōu)解。算法的基本流程如下:
(1)初始化種群,包括鯨魚的位置和速度;
(2)計(jì)算每條鯨魚的適應(yīng)度;
(3)根據(jù)適應(yīng)度更新最優(yōu)解;
(4)根據(jù)當(dāng)前最優(yōu)解和鯨魚的位置更新鯨魚的速度和位置;
(5)重復(fù)步驟(2) ~(4),直至達(dá)到停止準(zhǔn)則。
鯨魚優(yōu)化算法的關(guān)鍵在于鯨魚的游動(dòng)行為。在該算法中,鯨魚的游動(dòng)行為被抽象成3 種基本的行為,分別是旋轉(zhuǎn)、俯沖和泡沫聚集。
旋轉(zhuǎn)行為是指鯨魚在游動(dòng)過程中繞著自身旋轉(zhuǎn)的行為,可用公式(1)表示;俯沖行為是指鯨魚在游動(dòng)過程中向下俯沖的行為,可用公式(2)表示;泡沫聚集行為是指鯨魚在游動(dòng)過程中圍繞著一些食物源聚集的行為,可用公式(3)表示。
2.3 針對(duì)R?CNN 的優(yōu)化策略
在Faster R?CNN 中,鯨魚優(yōu)化算法的優(yōu)化策略主要體現(xiàn)在損失函數(shù)的優(yōu)化上。該算法可以用來優(yōu)化模型的分類損失和回歸損失。在分類損失方面,本文使用該方法來優(yōu)化模型的權(quán)重參數(shù),以提高分類準(zhǔn)確率。具體而言,可以將分類損失作為鯨魚優(yōu)化算法的目標(biāo)函數(shù),然后再搜索最優(yōu)的權(quán)重參數(shù):
其中,θc 表示分類損失的權(quán)重參數(shù),Lc 表示分類損失函數(shù)。在回歸損失方面,本文使用該算法來優(yōu)化模型的邊界框回歸系數(shù),以提高目標(biāo)檢測(cè)的準(zhǔn)確率,優(yōu)化回歸損失的邊界框回歸系數(shù):
其中,θr 表示回歸損失的邊界框回歸系數(shù),Lr 表示回歸損失函數(shù)。需注意的是,由于該方法只能使用歷史數(shù)據(jù)進(jìn)行優(yōu)化,因此在進(jìn)行優(yōu)化時(shí),需要使用已有的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,并將訓(xùn)練得到的模型作為初始解來進(jìn)行優(yōu)化。此外,為了避免過擬合,還需要對(duì)其進(jìn)行一定的正則化處理。
3 實(shí)驗(yàn)與討論
3.1 數(shù)據(jù)集
PASCAL VOC 2012 數(shù)據(jù)集是一個(gè)廣泛使用的圖像識(shí)別和目標(biāo)檢測(cè)數(shù)據(jù)集,其圖像來源于真實(shí)世界中的場(chǎng)景,具有一定的多樣性和復(fù)雜性,主要用于評(píng)估計(jì)算機(jī)視覺算法的性能。該數(shù)據(jù)集包含20 個(gè)常見類別的物體(如人、車、飛機(jī)等),每個(gè)類別有大約1 000張圖像,其中包含了物體的位置和類別標(biāo)簽信息。PASCAL VOC 2012 數(shù)據(jù)集的部分圖片如圖2 所示。
3.2 測(cè)試結(jié)果
針對(duì)PASCAL VOC 2012 數(shù)據(jù)集,本實(shí)驗(yàn)使用基于鯨魚優(yōu)化算法的Faster R?CNN 算法和標(biāo)準(zhǔn)FasterR?CNN 算法對(duì)物體進(jìn)行分類,并將準(zhǔn)確率、召回率和F1 值作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果如表1 所列。
從表1 中可以看出,基于鯨魚優(yōu)化算法的FasterR?CNN 算法在準(zhǔn)確率、召回率和F1 值上均優(yōu)于標(biāo)準(zhǔn)Faster R?CNN 算法。
3.3 結(jié)果分析
基于算法結(jié)構(gòu)和實(shí)驗(yàn)結(jié)果可知,Faster R?CNN算法通過引入Region Proposal Network(RPN)來生成候選區(qū)域,并使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)這些候選區(qū)域進(jìn)行分類和定位,使它在目標(biāo)檢測(cè)任務(wù)中具有較高的準(zhǔn)確率和速度,但是在處理大規(guī)模數(shù)據(jù)集時(shí),其性能可能會(huì)受到限制?;邛L魚優(yōu)化算法的Faster R?CNN 算法通過引入鯨魚優(yōu)化算法來優(yōu)化Faster R?CNN 算法中的超參數(shù),從而提高了算法的性能,實(shí)驗(yàn)結(jié)果表明,基于鯨魚優(yōu)化算法的Faster R?CNN 算法在PASCAL VOC 2012 數(shù)據(jù)集上具有更高的準(zhǔn)確率、召回率和F1 值。此外,基于鯨魚優(yōu)化算法的Faster R?CNN 算法通過優(yōu)化超參數(shù),理論上具備更好的泛化能力,且可以處理更大規(guī)模、更復(fù)雜的數(shù)據(jù)集。
4 結(jié)束語
目標(biāo)檢測(cè)算法是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)核心技術(shù),它的主要任務(wù)是在圖像或視頻中檢測(cè)出特定目標(biāo)的位置和數(shù)量,并對(duì)其進(jìn)行分類。一個(gè)好的目標(biāo)檢測(cè)算法應(yīng)該既能夠準(zhǔn)確地檢測(cè)出目標(biāo),又能夠盡可能地找到所有真實(shí)目標(biāo)。本文為了提高Faster R?CNN 算法的精度,首先對(duì)其結(jié)構(gòu)進(jìn)行了系統(tǒng)性分析,然后使用鯨魚優(yōu)化算法對(duì)其進(jìn)行優(yōu)化。針對(duì)PASCAL VOC2012 數(shù)據(jù)集的實(shí)驗(yàn)表明,目標(biāo)檢測(cè)算法提高了目標(biāo)檢測(cè)精確度以及實(shí)用性。另外,目標(biāo)檢測(cè)算法還需要具備對(duì)遮擋和尺度變化的魯棒性,這也是本研究下一步要做的內(nèi)容。
參考文獻(xiàn):
[1] 甘玲,朱江,苗東.?dāng)U展Haar 特征檢測(cè)人眼的方法[J].電子科技大學(xué)學(xué)報(bào),2010,39(2):247?250.
[2] 尚俊.基于HOG 特征的目標(biāo)識(shí)別算法研究[D].武漢:華中科技大學(xué),2012.
[3] 藺海峰,馬宇峰,宋濤.基于SIFT 特征目標(biāo)跟蹤算法研究[J].自動(dòng)化學(xué)報(bào),2010,36(8):1204?1208.
[4] REN S,HE K,GIRSHICK R,et al.Faster R?CNN:Towardsreal?time object detection with region proposal networks[ J]. IEEE transactions on pattern analysis and machineintelligence,2017,39(6):1137?1149.
[5] JIANG P,ERGU D,LIU F,et al.A Review of Yolo algorithmdevelopments[J].Procedia Computer Science,2022,199:1066?1073.
[6] 包嘉欣,田秋紅,楊慧敏,等.基于膚色分割與改進(jìn)VGG 網(wǎng)絡(luò)的手語識(shí)別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(6):47?55.
作者簡(jiǎn)介:
曹宏徙(1987—),碩士,工程師,研究方向:網(wǎng)絡(luò)安全、計(jì)算機(jī)視覺。