方俊 邱春榮
摘要:運用目標檢測技術,水下機器人海底打撈技術可替代人工捕撈,解決人工作業(yè)危險系數(shù)高、經(jīng)濟效益低的問題。該文水下目標檢測研究對象為海參、海膽、扇貝、海星四類生物,針對水下圖像顏色偏移嚴重、存在明顯跨域等問題,提出了一種基于Cascade-Rcnn的海底生物目標檢測方法,結合傳統(tǒng)圖像處理,解決水下圖像跨域問題,最終精度達到0.507(iou0.5:0.95?Map)。
關鍵詞:目標檢測???Cascade-Rcnn????跨域???顏色偏移
中圖分類號:TP29???文獻標識碼:A???文章編號:1672-3791(2022)06(b)-0000-00
Research?on?Object?Detection?Technology?of?Underwater?Image?Based
FANG?Jun??Qiu?Chunrong
(Changsha?Social?Work?College,Changsha,Hunan?Province,410004?China)
Abstract:?Using?target?detection?technology,?underwater?robot?seabed?fishing?technology?can?replace?manual?fishing?and?solve?the?problems?of?high?risk?coefficient?and?low?economic?benefit?of?manual?operation.The?research?objects?of?underwater?target?detection?in?this?paper?are?four?types?of?organisms:?sea?cucumbers,?sea?urchins,?scallops,?and?starfish.?In?view?of?the?serious?color?shift?of?underwater?images?and?the?obvious?cross-domain?problems,?this?paper?proposes?a Cascade-Rcnn-based?underwater?biological?target?detection?method,?which?combines?traditional?image?processing?to?solve?the?cross-domain?problem?of?underwater?images,?and?the?final?accuracy?reaches?0.507?(?iou0.5:0.95).
Key?Words:?Target?detection;?Cascade-Rcnn;?Domain?shift;?Color?shift
中圖分類號:TP29???文獻標識碼:A???文章編號:1672-3791(2022)06(b)-0000-00
人工潛水捕撈海產(chǎn)品的方式存在危險系數(shù)高、作業(yè)時間短、身體傷害大等諸多問題,故研究水下機器人進行海生物捕撈任務具有重大的意義[1-2]。水生物目標檢測主要技術難點在于:一方面,水下圖像存在嚴重的顏域問題,給水下水生物目標檢測帶來困難,容易導致過擬合問題;另一方面,水生物形狀多變,又附著于環(huán)境,運用傳統(tǒng)的人工特征點篩選提取很難達到精度需求[3-4]。
深度學習在目標檢測領域發(fā)展迅速,諸如Faster-rcnn、Cascade-rcnn、Yolo等模型的出現(xiàn)促進了計算機視覺在工業(yè)領域的應用[5-7]。該文針對復雜的海底捕撈作業(yè)場合提出了一種基于Cascade-rcnn的目標檢測方法,運用傳統(tǒng)圖像處理方法解決圖像偏移和跨域問題,實現(xiàn)深度學習和傳統(tǒng)視覺算法的結合應用。
使用Cascade?Rcnn模型作為基線,主要是為了解決水下目標檢測任務的高準確性需求,Cascade?Rcnn的復雜模型結構在水下圖像這種顏色偏移嚴重、存在明顯跨域的圖像檢測任務中其泛化性能更好,更能準確地抓取水產(chǎn)生物的具體位置。
1?數(shù)據(jù)預處理與數(shù)據(jù)增強
1.1實驗數(shù)據(jù)集
數(shù)據(jù)集來自于鵬城實驗室水下目標檢測算法賽(光學圖像賽項),其中訓練集為5543幅,A組測試集800幅,B組測試集1200幅,見圖1。檢查目標生物有海參、海膽、扇貝、海星,見圖2。該實驗采用COCO?mAP[@0.5:0.05:0.95]指標(mean?Average?Precision)?進行計算,即將10個不同IOU閾值下的mAP取平均值作為最終結果。對于任意一IOU閾值,其對應的mAP計算公式如下:
其中r為召回率(recall),p(r)?為當召回率為r時,檢測結果的準確率(precision),mAP為4個類別的AP平均值。
觀察數(shù)據(jù)集肉眼即可發(fā)現(xiàn)數(shù)據(jù)集存在明顯顏色偏移,即大部分圖像呈明顯藍綠色,且圖像對比度較低,主要原因是自然光在水中傳播時會呈指數(shù)衰減。設I0代表某一水層的光量,經(jīng)過傳輸L距離后的光量I為:
其中,c為體積衰減系數(shù),單位m?1,而不同深度,不同波長,光的衰減是程度不同,這就導致圖像存在明顯色偏,且在不同海域存在色偏程度不同,圖像跨域(domain-shift)的問題。
針對上述多種問題,提出以下的數(shù)據(jù)預處理和數(shù)據(jù)擴充方案。
1.2?數(shù)據(jù)預處理
針對色偏問題常用的做法為白平衡,但白平衡易造成目標色素損失,特征表示能力下降,影響建模結果。故采用Oparam方法進行顏色通道矯正,緩減由于光線衰減程度不同而造成的色偏問題,主要的計算公式如下:
其中Ur、Ug、Ub分別為紅綠藍三通道的像素值之和,Uref為三通道像素值算術平均值,Pr、Pg、Pb為顏色矯正前像素點的值,Pr’、Pg’、Pb’為顏色矯正后像素點的矯正結果。通過矯正后可得到接近于現(xiàn)實世界狀況的正常圖像,由圖3可見矯正效果。
1.3?數(shù)據(jù)擴充
域間差異(domain?shift)是指不同的數(shù)據(jù)集之間存在數(shù)據(jù)分布差異,訓練的模型一般只能用在與訓練集分布相似的數(shù)據(jù)集上,否則會產(chǎn)生具有明顯差距的結果。水下圖像中,不同海域、不同深度下所采集的圖像往往存在不同的色偏,這樣就產(chǎn)生了域間差異問題,會導致網(wǎng)絡泛化性能差、容易過擬合等問題,該文采用了兩種不同方向的數(shù)據(jù)擴充方法,分別為:直方圖規(guī)定化,圖像度量擾動。
直方圖規(guī)定化(histogram?specification)是指通過圖像變換將一幅圖像的直方圖變成規(guī)定形狀的直方圖的增強方法。假設Pr(r)表示原始圖像的灰度概率密度,Pz(z)表示規(guī)定化圖像的灰度概率密度(r和z分別是原始圖像的灰度級、規(guī)定化后圖像的灰度級)。
在本實驗中具體的方式為,以一定概率針對一張原始圖像隨機選取一張其他的訓練集圖像作為模板圖像,在HSV空間中對原始圖片的直方圖進行規(guī)定化處理,得到擴充圖像,見圖4
圖像度量擾動指的是以一定概率對圖像進行不同程度,不同方式的度量擾動,主要包括:隨機光亮度擾動、隨機對比度擾動、隨機飽和度擾動、隨機色調(diào)擾動、隨機通道交換??紤]到單純使用直方圖規(guī)定化,域的適應范圍依然在訓練集中,故加入一些擾動,在域中進行隨機偏移,模擬出更多的圖像域,進一步解決跨域問題,見圖5。
除上述兩種解決跨域問題的數(shù)據(jù)擴充之外,加入常用形變類擴充增強網(wǎng)絡的魯棒性能,主要包括隨機翻轉(zhuǎn),隨機旋轉(zhuǎn)等,并采用多尺度訓練增強網(wǎng)絡對不同尺度目標的建模能力。
2?基于cascade-rcnn的模型
2.1?cascade-rcnn
Cascade-rcnn主要用于解決faster-rcnn中正樣本采樣IoU設定困難的問題:IoU設定過低會導致圖像引入太多周邊環(huán)境信息,最終導致bbox回歸效果較差以及模型歧義不收斂的問題,而iou設定過高則會導致正樣本數(shù)量太少,模型較易過擬合。Cascade-rcnn提出了muti-stage的結構,每個stage都有一個不同的IoU閾值,每個stage的proposal為上個stage的回歸結果,通過這樣的方式來逐步地提升IoU的閾值,達到了更高的精度。圖6是模型流程圖。
水下圖像目標檢測任務,對于最終結果的IoU準確度要求較高,選擇常用的faster-rcnn很難達到準確的回歸結果,故選擇cascade-rcnn作為baseline進行建模,提升在高iou要求下的map結果。
2.2?roi-align
選擇roi?align替換roi?pooling,roi?align取消量化操作,使用雙線性內(nèi)插的方法獲得坐標為浮點數(shù)的像素點上的圖像數(shù)值,從而將整個特征聚集過程轉(zhuǎn)化為一個連續(xù)的操作。
2.3?Deformable?Convolutional?Networks
海生物目標形狀不規(guī)則(海參、海星此類問題比較突出),標準卷積核會提取到很多無用信息,加入可變形卷積提高網(wǎng)絡學習空間幾何形變的能力。在該任務中,在模型的backbone中加入3層可變形卷積,強化模型形變建模能力。
2.4?Global?context?block
海底生物生存地點一般具有一定的規(guī)律,不同種類的生物生存的海域、深度是不同的,而相同生物存在群居現(xiàn)象,背景知識、全局信息的加入可強化建模效果,尤其是增加中小尺度目標的召回率。故引入注意力機制,選擇了GCB(Global?context?block)作為注意力網(wǎng)絡加入到后backbone的后3個stage中,增強模型的全局建模能力,加大中小目標的召回。
3?實驗結果
為體現(xiàn)各種優(yōu)化帶來的精度提升,做了如表1的消融實驗。
實驗結果表明,Cascade-rcnn在水下目標檢測任務中更具優(yōu)勢,而Dcn和GCB模塊的加入增強了模型的性能,使得模型能夠更精確地提取水下的形變目標和中小目標。Oparam、直方圖匹配、圖像度量擾動三種方法能帶來2個百分點的精度提升,驗證了使用圖像擴增方法來解決水下圖像顏色偏移嚴重、存在明顯跨域問題的有效性,最終融合各類改進,獲得了iou0.5:0.95?Map?0.507的不錯成績。
4結語
該文提出了一種基于Cascade-rcnn的水下圖像目標檢測方案,該方案通過使用傳統(tǒng)圖像處理算法解決跨域問題,通過使用深度學習算法實現(xiàn)水下目標建模,良好地結合了兩方面算法的優(yōu)勢,取得了較好結果。根據(jù)具體情況方案可做相應改進,一方面可以使用精度更高的目標檢測算法,如EfficenDet、Trident等,另一方面可以在組成模塊上做更多的探討,如CBAM、SE等。
參考文獻
[1]?張悅.面向海產(chǎn)品的水下圖像處理及目標檢測研究[D].濟南:山東大學,2021.
[2]?林森,趙潁.水下光學圖像中目標探測關鍵技術研究綜述[J].激光與光電子學進展,2020,57(6):26-37.
[3]?吳宇,蔡永斌,湯榮華.水下視覺圖像處理和識別技術研究[J].艦船電子工程,2019,39(5):93-96.
[4]?顏小紅.基于深度學習的水下目標檢測方法研究[D].哈爾濱:哈爾濱工程大學,2021.
[5]?彭豪,李曉明.基于改進Faster?R-CNN的小目標檢測模型[J].電子測量技術,2021,44(24):122-127.
[6]?夷德.基于YOLO的目標檢測優(yōu)化算法研究[D].南京:南京郵電大學,2021.
[7]?CAI?Z,WASCONCELOS?N.Cascade?r-cnn:?Delving?into?High?Quality?Object?Detection[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?2018:6154-6162.