阮順領(lǐng),李少博,顧清華,江 松,毛 晶
(1.西安建筑科技大學(xué) 資源工程學(xué)院,陜西 西安 710055;2.西安建筑科技大學(xué) 西安市智慧工業(yè)感知計(jì)算與決策重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710055;3.西安優(yōu)邁智慧礦山研究院有限公司,陜西 西安 710055)
露天礦區(qū)無(wú)人駕駛逐漸成熟并落地,環(huán)境感知作為礦卡車實(shí)現(xiàn)無(wú)人化的關(guān)鍵環(huán)節(jié)之一,對(duì)于露天礦無(wú)人駕駛的實(shí)現(xiàn)有著重要意義。然而露天礦區(qū)非結(jié)構(gòu)化道路相較于城市結(jié)構(gòu)化道路,除了常規(guī)的車輛、行人等行車障礙,還存在著一些難以檢測(cè)的困難樣本,如坑洼、尖銳碎石等,容易造成陷車或輪胎夾石。同時(shí)露天礦區(qū)環(huán)境復(fù)雜惡劣,這對(duì)障礙檢測(cè)算法可靠性提出了更高的要求,因此亟待對(duì)露天礦區(qū)道路障礙的高效、可靠檢測(cè)方法進(jìn)行研究。
基于機(jī)器視覺的無(wú)人駕駛車輛障礙檢測(cè)可以分為傳統(tǒng)的圖像處理方法和深度學(xué)習(xí)方法?;诙S圖像處理的障礙檢測(cè)算法通常分為以下步驟:①
圖像增強(qiáng),如直方圖均衡化法、同態(tài)濾波法,暗通道去霧算法等;②
圖像邊緣檢測(cè),如張金波[1]針對(duì)灰度圖像邊緣檢測(cè)的特點(diǎn),提出的快速邊緣檢測(cè)算法,FERNANDO等[2]提出的基于強(qiáng)度函數(shù)的數(shù)字圖像邊緣檢測(cè)方法;③
圖像分割,如聚類算法[3]、閾值分割算法[4]等,同時(shí)針對(duì)特定應(yīng)用場(chǎng)景,國(guó)內(nèi)外學(xué)者提出了基于弱標(biāo)注信息的語(yǔ)義分割方法[5]、交互式圖像分割方法[6]等。二維圖像處理技術(shù)容易受到各種不利因素的影響,尤其是在光照不足的非結(jié)構(gòu)化道路,因此一些學(xué)者提出了立體視覺的障礙物檢測(cè)方法,如STANTANA等[7],ZHANG等[8]。
隨著深度學(xué)習(xí)的發(fā)展,PRABHAKAR[9],SANIL[10]等使用卷積神經(jīng)網(wǎng)絡(luò)去解決無(wú)人駕駛車輛障礙檢測(cè)問(wèn)題,獲得了更好的檢測(cè)精度和速度?;谏疃葘W(xué)習(xí)的障礙檢測(cè)方法往往由以下3個(gè)結(jié)構(gòu)組成:① 用于提取圖像特征信息的骨干網(wǎng)絡(luò),如復(fù)雜骨干網(wǎng)絡(luò)VGG[11]、ResNet[12]、DenseNet[13]、EfficientNet[14],輕量型骨干網(wǎng)絡(luò)MobileNet[15]、ShuffleNet[16]、GhostNet[17]等;② 將不同尺寸特征圖進(jìn)一步融合的特征金字塔模塊,如FPN[18]、PANet[19]、NAS-FPN[20]等;③ 對(duì)特征圖進(jìn)行分類去預(yù)測(cè)的Head,如一階段算法的SSD[21]、YOLO[22]、RetinaNet[23]、FCOS[24],兩階段算法的Faster R-CNN[25]、R-FCN[26]、Mask R-CNN[27]等。針對(duì)非結(jié)構(gòu)化道路障礙檢測(cè),蔡舒平等[28]提出了基于改進(jìn)YOLOv4的障礙物實(shí)時(shí)檢測(cè)方法,通過(guò)對(duì)模型進(jìn)行輕量化改進(jìn)并使用了逆殘差方法,使得模型擁有較好的自適應(yīng)性和魯棒性。盧才武等[29]基于Mask R-CNN網(wǎng)絡(luò),提出了融合目標(biāo)檢測(cè)的露天礦行車障礙預(yù)警,達(dá)到了較好的檢測(cè)精確度和7.35 fps的檢測(cè)速度。然而其針對(duì)露天礦區(qū)障礙物檢測(cè)還不夠全面,雖然精度較高但缺少坑洞、尖銳碎石等困難樣本的檢測(cè),同時(shí)檢測(cè)速度較慢難以滿足實(shí)時(shí)性要求。因此露天礦區(qū)道路障礙檢測(cè)模型需要在以下3個(gè)方面具備較好的能力:① 在光線和紋理復(fù)雜情況下,擁有高效的特征提取能力;② 對(duì)于坑洼等負(fù)向障礙,擁有良好的多尺度檢測(cè)性能;③ 對(duì)于行人和尖銳碎石等障礙,有著良好的小目標(biāo)檢測(cè)性能。
鑒于以上分析,針對(duì)露天礦區(qū)復(fù)雜環(huán)境下道路障礙物多尺度和小目標(biāo)特征,筆者提出一種基于深度學(xué)習(xí)的露天礦區(qū)道路障礙檢測(cè)模型。由于RepVGG網(wǎng)絡(luò)對(duì)復(fù)雜環(huán)境信息有著優(yōu)良的特征提取能力和高效的推理速度,比較適合于露天礦區(qū)道路障礙的檢測(cè),但同時(shí)該網(wǎng)絡(luò)使用大量3×3卷積導(dǎo)致其感受野較小,對(duì)小目標(biāo)特征提取不充分[30],因此提出在特征提取階段采取優(yōu)化的RepVGG+骨干網(wǎng)絡(luò);并使用雙向特征融合金字塔模型進(jìn)一步提升多尺度檢測(cè)性能;通過(guò)對(duì)損失函數(shù)和分類預(yù)測(cè)模塊進(jìn)行優(yōu)化進(jìn)一步提升模型的檢測(cè)精度和速度,為復(fù)雜環(huán)境下露天礦區(qū)無(wú)人礦卡提供高效的障礙檢測(cè)方法。
露天礦區(qū)非結(jié)構(gòu)化道路的背景信息復(fù)雜多變,各類障礙物尺寸跨度與特征差異較大,同時(shí)過(guò)于依賴自然光照條件。而在露天礦開采區(qū)道路多為臨時(shí)修建,道路信息經(jīng)常變換,這導(dǎo)致了露天礦區(qū)障礙檢測(cè)具有挑戰(zhàn)性,如圖1所示。
圖1 露天礦區(qū)障礙物及其特征Fig.1 Obstacles and their characteristics in open pit mines
RetinaNet[23]作為一階段檢測(cè)法,具有良好的實(shí)時(shí)性和檢測(cè)精度,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 RetinaNet structure
RetinaNet使用了ResNet50作為特征提取網(wǎng)絡(luò),在FPN中P3、P4、P5使用ResNet50的Stage_2、Stage_3、Stage_4的輸出進(jìn)行1×1卷積后歸一為通道數(shù)256的特征;P6是經(jīng)過(guò)Stage_4的輸出進(jìn)行步長(zhǎng)為2的3×3卷積而來(lái);P7則是通過(guò)對(duì)P6使用ReLU激活函數(shù)后再進(jìn)行步長(zhǎng)為2的3×3卷積,用來(lái)增強(qiáng)大目標(biāo)的檢測(cè)。在網(wǎng)絡(luò)的預(yù)測(cè)分類的Head中,P3~P7每層的先驗(yàn)框面積從322~5122像素依次遞增,先驗(yàn)框的長(zhǎng)寬比為[1∶2,1∶1,2∶1],size為[20,21/3,22/3],這樣每層的先驗(yàn)框數(shù)量為9。雖然先驗(yàn)框可以代表一定的框的位置信息與框的大小信息,但是其是有限的,無(wú)法表示任意情況,因此RetinaNet利用4次256通道的3×3卷積+ReLU和分類器的卷積結(jié)果對(duì)先驗(yàn)框進(jìn)行調(diào)整。
由于RetinaNet用了5個(gè)不同尺寸的特征進(jìn)行分類回歸操作,使得網(wǎng)絡(luò)各個(gè)anchor之間過(guò)渡更加平滑,提升網(wǎng)絡(luò)的多尺度檢測(cè)性能。當(dāng)RetinaNet的輸入分辨率為600×600時(shí),在分類預(yù)測(cè)層中最大特征尺寸僅為75×75,使得露天礦區(qū)的小目標(biāo)檢測(cè)性能較差,同時(shí)多尺度檢測(cè)性能和檢測(cè)速度有待進(jìn)一步提升。
基于上述討論,為了解決露天礦區(qū)障礙物中小目標(biāo)和多尺度問(wèn)題,在特征提取階段,提出了更加高效的RepVGG+作為骨干特征提取網(wǎng)絡(luò);在特征融合階段,使用基于SimAM空間與通道注意力和跨階段連接的雙向融合特征金字塔(Bidirectional Feature Pyramid Network,B-FPN);在分類預(yù)測(cè)階段,對(duì)Head結(jié)構(gòu)進(jìn)行進(jìn)一步優(yōu)化,降低特征冗余,并提高檢測(cè)性能,其結(jié)構(gòu)如圖3所示。
露天礦區(qū)障礙檢測(cè)需滿足無(wú)人礦卡環(huán)境感知的實(shí)時(shí)性需求,因此采用了RepVGG[30]作為骨干特征提取網(wǎng)絡(luò),保證模型的檢測(cè)速度與精度。
RepVGG的網(wǎng)絡(luò)結(jié)構(gòu)類似于ResNet,在VGG網(wǎng)絡(luò)的基礎(chǔ)上使用殘差結(jié)構(gòu)去解決深層網(wǎng)絡(luò)的梯度消失問(wèn)題,同時(shí)大量使用1×1卷積和Identity殘差結(jié)構(gòu),使得網(wǎng)絡(luò)更加簡(jiǎn)單高效。其訓(xùn)練和推理階段的基本卷積結(jié)構(gòu)如圖4所示。
RepVGG在模型推理階段首先將殘差塊中的卷積層和BN層進(jìn)行融合,然后將具體不同卷積核的卷積均轉(zhuǎn)換為具有3×3大小的卷積核的卷積,最后合并殘差分支中的Conv3×3。將所有分支的權(quán)重W和偏置B疊加起來(lái),獲得一個(gè)融合之后的Conv3×3網(wǎng)絡(luò)層。由于在模型推理階段僅僅由3×3卷積和Relu激活函數(shù)堆疊而來(lái),拋棄了殘差結(jié)構(gòu),同時(shí)當(dāng)前大多數(shù)推理引擎對(duì)于3×3卷積有著特定的加速,相較于ResNet骨干網(wǎng)絡(luò),更加易于模型推理和加速。
圖4 RepVGG+結(jié)構(gòu)Fig.4 RepVGG+ structure
雖然RepVGG在圖片分類任務(wù)中取得了優(yōu)異的性能,但其在目標(biāo)檢測(cè)任務(wù)中還有待優(yōu)化。如圖4(d)所示,RepVGG_A2的Stage4中只進(jìn)行了一次基本卷積操作,并使用了1 408個(gè)通道,更大的通道數(shù)對(duì)于多分類任務(wù)會(huì)獲得更好的性能。但是將RepVGG應(yīng)用于目標(biāo)檢測(cè)時(shí),由于其Stage4的特征卷積次數(shù)過(guò)少,使得16×16尺寸的特征,難以得到更加高層的特征信息。因此,本文提出了更加適應(yīng)于目標(biāo)檢測(cè)任務(wù)的RepVGG+(圖3),對(duì)Stage4模塊進(jìn)行2次基本卷積操作,同時(shí)將Stage4的通道數(shù)調(diào)整為768,降低參數(shù)量,保證檢測(cè)精度與速度的平衡。使用大尺寸的卷積核可以擴(kuò)大網(wǎng)絡(luò)感受野顯著提高網(wǎng)絡(luò)性能,但越大的卷積核其計(jì)算速度越慢,因此本文提出在Stage4中使用金字塔池化結(jié)構(gòu)(Spatial Pyramid Pooling,SPP)[31],如圖3所示將RepVGG的Stage4_1特征層進(jìn)行卷積降低通道數(shù)為384,然后進(jìn)行13×13、9×9、5×5、1×1,4個(gè)不同尺度的最大池化操作,擴(kuò)大感受野。將池化后的特征進(jìn)行拼接,再次使用卷積批處理和激活操作使通道數(shù)還原為768。SPP通過(guò)使用大尺寸池化核增加神經(jīng)網(wǎng)絡(luò)的感受野并分離出顯著的上下文特征,提升檢測(cè)性能。
露天礦區(qū)障礙檢測(cè)模型的多尺度和小目標(biāo)檢測(cè)能力還有待進(jìn)一步提升,提升小目標(biāo)檢測(cè)常用的方法是擴(kuò)大特征尺寸,使得網(wǎng)絡(luò)在分類預(yù)測(cè)時(shí)可以獲得更多特征信息。但是通過(guò)擴(kuò)大輸入分辨率會(huì)增加網(wǎng)絡(luò)每一層的特征尺寸,進(jìn)一步增加模型參數(shù)量并帶來(lái)極大的計(jì)算開銷。當(dāng)輸入分辨率為512×512時(shí)骨干網(wǎng)絡(luò)的Stage1特征尺寸為128×128,包含了豐富的特征信息,因此本文將骨干特征網(wǎng)絡(luò)的Stage1的特征作為特征金字塔模塊P2層的輸入,并取消用于大目標(biāo)檢測(cè)的P7層。但是Stage1特征信息具有較多的噪聲,在分類過(guò)程難以直接被解析。因此本文提出B-FPN結(jié)構(gòu),進(jìn)一步優(yōu)化網(wǎng)絡(luò)各層的特征信息使P2層使網(wǎng)絡(luò)可以獲得更加抽象高效的語(yǔ)義特征,同時(shí)提升多尺度檢測(cè)性能。其結(jié)構(gòu)如圖5所示。
圖5 基于SimAM通道與空間注意力和跨階段連接的雙向特征融合模塊Fig.5 Bidirectional feature fusion module based on SimAM channels with spatial attention and cross-stage connectivity
將骨干網(wǎng)絡(luò)的Stage1、Stage2、Stage3、Stage4_2的特征圖進(jìn)行1×1卷積獲得通道數(shù)為96的P2、P3、P4、P5層,同時(shí)對(duì)Stage2的輸出使用步長(zhǎng)為2的3×3卷積獲得特征尺寸為8×8的P6層用于檢測(cè)大目標(biāo)。在自下而上的融合過(guò)程中,P5層使用跨階段連接卷積(CSPnet)[32]后進(jìn)行上采樣處理和SimAM注意力[33]進(jìn)行特征增強(qiáng),然后與P4的特征圖進(jìn)行橫向連接,P3和P4層重復(fù)上述操作,使得每一層獲得了骨干網(wǎng)絡(luò)各層的特征信息,減少了P3層的噪聲信息。在P3層之后使用SSH[33]結(jié)構(gòu)進(jìn)一步擴(kuò)大特征圖感受野,提升微小目標(biāo)檢測(cè)能力。在自上而下的融合過(guò)程中,P3、P4、P5、P6層則與上一層下采樣之后的特征圖相加后進(jìn)行CSP卷積處理,達(dá)到特征網(wǎng)絡(luò)雙向融合,增強(qiáng)多尺度檢測(cè)的目的。
網(wǎng)絡(luò)的基礎(chǔ)卷積模塊為卷積+批處理+LeakyReLU,相較于ReLU激活函數(shù),LeakyReLU當(dāng)x≤0時(shí)使用λ系數(shù)調(diào)節(jié)梯度,使得神經(jīng)元在取負(fù)值時(shí)也有微小梯度,可以有效改善神經(jīng)元死亡問(wèn)題,2者的數(shù)學(xué)表達(dá)為
(1)
在特征融合模塊中使用跨階段連接結(jié)構(gòu)(CSPNet)[32]提升不同特征層在橫向連接后的特征信息。CSPNet的結(jié)構(gòu)如圖3所示,將輸入拆分為相同通道數(shù)的稠密分支與稀疏分支,稠密分支進(jìn)行多次卷積后與系數(shù)分支進(jìn)行拼接,還原輸入特征。CSPNet其原理是利用跨階段特征融合策略和截?cái)嗵荻攘鱽?lái)增強(qiáng)不同層次特征的可變性,用于解決模型在訓(xùn)練中由于梯度冗余,而導(dǎo)致的特征提取效率低下以及模型推理速度較慢問(wèn)題。
上采樣的過(guò)程中,采用nearest插值方法會(huì)損失一定的局部特征圖信息,為此引入了SimAM空間與通道注意力機(jī)制[33],挖掘通道間各個(gè)神經(jīng)元的重要特征。在計(jì)算機(jī)視覺中現(xiàn)有的注意力模塊集中在通道域或空間域,與人腦中基于特征的注意和基于空間的注意相對(duì)應(yīng)。然而,在人類中,這2種機(jī)制共存,共同促進(jìn)視覺處理過(guò)程中的信息選擇。SimAM為每個(gè)神經(jīng)元定義了以下能量函數(shù):
(2)
其中,t和xi分別為輸入特征X∈C×H×W的目標(biāo)神經(jīng)元和其他神經(jīng)元;i為空間維度上的索引;M=H×W為在該通道上的神經(jīng)元個(gè)數(shù);ωt、bt為加權(quán)與偏置轉(zhuǎn)換。求解上述方程得到關(guān)于ωt和bt的快速封閉形式解:
(3)
(4)
其中,
式(4)表示能量越低,神經(jīng)元t與周圍神經(jīng)元的區(qū)別越大,重要性越高。因此,神經(jīng)元的重要性可以通過(guò)1/e*得到,最后使用sigmoid對(duì)特征進(jìn)行增強(qiáng)處理:
(5)
為了進(jìn)一步增強(qiáng)P2層特征,提升微小目標(biāo)檢測(cè)性能。在P2層進(jìn)行特征融合之后,使用SSH[34]模塊處理,其結(jié)構(gòu)如圖6所示,通過(guò)引入5×5、7×7卷積核提高感受野,從而引入更多的上下文信息,同時(shí)為了減少大尺寸卷積核帶來(lái)的計(jì)算量提升,使用多個(gè)3×3卷積層進(jìn)行拼接代替5×5、7×7卷積層。本文在3×3卷積模塊之后還加入了批處理層改善梯度消失問(wèn)題,同時(shí)將激活函數(shù)由ReLU更換為L(zhǎng)eakyReLU,優(yōu)化模型結(jié)構(gòu)如圖6所示。
圖6 SSH模塊,使用多個(gè)3×3卷積層進(jìn)行拼 接代替5×5、7×7卷積層增強(qiáng)感受野Fig.6 SSH module,using multiple 3×3 convolutional layers for stitching instead of 5×5 and 7×7 convolutional layers to enhance the perceptual field
露天礦區(qū)障礙檢測(cè)網(wǎng)絡(luò)的分類子網(wǎng)預(yù)測(cè)9個(gè)先驗(yàn)框和K個(gè)類別在每個(gè)空間位置出現(xiàn)對(duì)象的概率,如圖7(a)所示,RetinaNet使用了4個(gè)3×3卷積層,每層都有256個(gè)過(guò)濾器,并在后面加入ReLU激活函數(shù),最后使用帶有K×9個(gè)過(guò)濾器的3×3卷積層后,使用Sigmoid激活函數(shù)預(yù)測(cè)每個(gè)空間位置的二進(jìn)制輸出。邊界框回歸分支與分類子網(wǎng)并行,將每個(gè)先驗(yàn)框的偏移量還原到真實(shí)對(duì)象。其設(shè)計(jì)與分類分支相似,對(duì)于每個(gè)先驗(yàn)框使用tx、ty、tw、th四個(gè)變量輸出預(yù)測(cè)其與真實(shí)框之間的相對(duì)偏移量(其中,tx、ty為先驗(yàn)框的中心點(diǎn)坐標(biāo)(x,y)的相對(duì)偏移量;tw、th為先驗(yàn)框的寬高(w,h)的相對(duì)偏移量)。
圖7 分類與邊界框預(yù)測(cè)分支Fig.7 Classification and bounding box prediction branch
如圖7(b)所示,由于本文提出的模型在特征融合階段已經(jīng)進(jìn)行了高效的卷積,因此本文模型通道數(shù)和過(guò)濾器調(diào)整為96,并進(jìn)行2次3×3卷積和與LeakyReLU激活,減少計(jì)算量和特征冗余。同時(shí)由于本文模型使用了更大的P2層的特征圖,刪除了P7層的特征圖,因此將P2~P6層先驗(yàn)框的面積調(diào)整為162~2562,并針對(duì)露天礦區(qū)障礙物的特殊性將先驗(yàn)框的長(zhǎng)寬比重設(shè)為[0.7∶1.4,1∶1,1.4∶0.7]。
露天礦區(qū)道路障礙檢測(cè)模型的損失函數(shù)包括分類損失和邊界框損失2部分。在分類損失函數(shù)方面,針對(duì)露天礦區(qū)的復(fù)雜背景易導(dǎo)致障礙圖像正負(fù)樣本比例失衡,RetinaNet提出了Focal loss[23]優(yōu)化交叉熵?fù)p失函數(shù)優(yōu)化正負(fù)樣本不均衡問(wèn)題,其數(shù)學(xué)表達(dá)式為
(6)
式中,γ為調(diào)整難、易分類樣本之間的權(quán)重;α為調(diào)整正負(fù)、樣本之間的權(quán)重;p為模型分類后得到的概率。
為應(yīng)對(duì)訓(xùn)練過(guò)程中某些易樣本的過(guò)擬合,導(dǎo)致的難樣本置信度偏低引起的精度下降,本文在分類損失函數(shù)中引入了標(biāo)簽平滑正則化(label smooth regularization)[35],通過(guò)減少易樣本真實(shí)樣本標(biāo)簽的類別在計(jì)算損失函數(shù)時(shí)的權(quán)重,增加難樣本權(quán)重抑制過(guò)擬合。因此本文的分類損失函數(shù)為
(7)
式中,Csmooth為經(jīng)標(biāo)簽平滑處理后的類別數(shù)組;e為平滑因子,本文取e=0.01;δ為標(biāo)簽的真實(shí)類別數(shù)組;δ0為與δ維度相同的全1數(shù)組;S為每層特征圖尺寸;Z為先驗(yàn)框數(shù)量;本文取γ=2。
在邊界框損失方面RetinaNet采用Smooth L1 loss,其數(shù)學(xué)表達(dá)式為
(8)
IoU可用來(lái)衡量2個(gè)邊界框的相似性,IoU的計(jì)算公式為
(9)
其中,A、B分別為預(yù)測(cè)框和真實(shí)框。由于目標(biāo)檢測(cè)任務(wù)以IoU作為是否檢測(cè)到任務(wù)的判定標(biāo)準(zhǔn),因此訓(xùn)練時(shí)使用Smooth L1 loss作為位置回歸損失這2者并不等價(jià),尤其當(dāng)預(yù)測(cè)框與真實(shí)框的L1和L2范數(shù)相近時(shí),與IoU差異過(guò)大。如圖8所示,當(dāng)使用IoU作為損失函數(shù)時(shí),當(dāng)預(yù)測(cè)框與真實(shí)框沒(méi)有重合時(shí),IoU無(wú)法衡量2者之間的差異,這導(dǎo)致?lián)p失函數(shù)梯度為0而無(wú)法優(yōu)化網(wǎng)絡(luò)之間的權(quán)重。
注:紅色表示預(yù)測(cè)框,綠色表示真實(shí)框,黑色表示2者的最小閉合框。圖8 預(yù)測(cè)框與真實(shí)框的不同情況Fig.8 Different cases of prediction frame and real frame
GIoU[36]充分利用了IoU具有尺度不變性的優(yōu)點(diǎn),加入了預(yù)測(cè)框與真實(shí)框之間的最小閉合框作為損失計(jì)算參數(shù),其數(shù)學(xué)表達(dá)式為
(10)
其中,C為包含2者的最小閉合框。如圖8(c)、(d)所示,黑色框范圍即為C的表示區(qū)域。GIoU克服了IoU在預(yù)測(cè)框與真實(shí)框不重合時(shí)的不足之處,能夠更好地反映預(yù)測(cè)框與真實(shí)框的重合情。因此本文模型的邊界框損失函數(shù)為
(11)
綜上所述,本文模型的損失函數(shù)為
(12)
本文中的數(shù)據(jù)采集于2019年2月到2021年4月間在大型露天礦開采現(xiàn)場(chǎng),使用canon EOS 80d 數(shù)字相機(jī)采集,檢測(cè)目標(biāo)包括大型運(yùn)載卡車、行人、挖機(jī)、汽車、道路坑洞、道路積水和尖銳碎石7類。在不同季節(jié)與不同光照條件下,總共采集2 081張圖像數(shù)據(jù)。其中坑洞和積水作為負(fù)向障礙,位于路面下方且尺寸形狀各異,同時(shí)行人和尖銳碎石往往占據(jù)像素面積極少,這導(dǎo)致了本文數(shù)據(jù)集存在大量多尺度特征和小目標(biāo)障礙。隨機(jī)選擇1 581張圖片作為訓(xùn)練集,其余500張圖片作為測(cè)試集,圖像原分辨率是4 032×3 024,在輸入網(wǎng)絡(luò)時(shí)將圖像大小調(diào)整為512×512。
本文數(shù)據(jù)集的訓(xùn)練集過(guò)少,難以使網(wǎng)絡(luò)達(dá)到很好的擬合狀態(tài),因此通過(guò)數(shù)據(jù)擴(kuò)增取進(jìn)一步豐富數(shù)據(jù)集。通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行變換,進(jìn)一步增加數(shù)據(jù)量、豐富數(shù)據(jù)多樣性、提高模型的泛化能力。在傳統(tǒng)擴(kuò)增方法中,本文對(duì)圖片進(jìn)行了90°、180°、270°旋轉(zhuǎn)、改變亮度、灰度化,使樣本擴(kuò)增為原來(lái)的6倍。同時(shí)由于尖銳碎石在圖像中占據(jù)很少的像素比例,處于道路中間,與道路的背景信息差異較小,導(dǎo)致其檢測(cè)難度很大。而在本文數(shù)據(jù)集中尖銳碎石樣本較少,這導(dǎo)致了訓(xùn)練樣本的不均衡,會(huì)進(jìn)一步增加碎石的檢測(cè)難度。為此本文針對(duì)尖銳碎石較小,樣本量較少難以檢測(cè)的問(wèn)題,使用了一種小目標(biāo)增強(qiáng)方法,其具體流程為
(2) 將小目標(biāo)(尖銳碎石)圖像進(jìn)行縮放;
(3) 根據(jù)縮放生成邊界框標(biāo)簽文件,由于小目標(biāo)往往處于路面之中,同時(shí)本文采集的照片,道路信息大多存在于圖片下半部分,因此對(duì)小目標(biāo)的邊界框位置進(jìn)行過(guò)濾,刪除部分位置錯(cuò)誤的標(biāo)簽文件;
(4) 與原始標(biāo)簽文件進(jìn)行交并比計(jì)算,防止尖銳碎石圖片生成的位置與原始圖片中的目標(biāo)重疊;
(5)將生成的小目標(biāo)(尖銳碎石)圖像,使用泊松融合(Poisson blending)[37]方法與原始圖片相融合。泊松融合實(shí)質(zhì)為求取梯度向量場(chǎng)引導(dǎo)下的影像插值,其數(shù)學(xué)表達(dá)如下:
定義二維圖像平面為S(S∈R2)上的閉合區(qū)域?yàn)棣?其邊界為?Ω,V為定義在Ω上的梯度向量場(chǎng),f為定義在S上的標(biāo)量函數(shù),已知f在?Ω上的取值為f*,則f在Ω內(nèi)取V引導(dǎo)下的插值函數(shù),即求解
(13)
其中,?f為f*的梯度,由于其求解構(gòu)成泊松方程,因此可化為
護(hù)理本科生的社會(huì)價(jià)值體現(xiàn),社會(huì)地位要求,薪酬待遇和職稱要求等,不是僅僅靠國(guó)家政策、學(xué)校改革、醫(yī)療體制改革等措施能夠充分滿足和不斷完善,更重要的是,護(hù)理本科生要提高自身素質(zhì),提高專業(yè)知識(shí)和護(hù)理技能水平,提高護(hù)理科研水平,促進(jìn)護(hù)理事業(yè)健康、長(zhǎng)足發(fā)展。這樣,護(hù)理本科生的社會(huì)價(jià)值自然會(huì)得到社會(huì)各界的認(rèn)同,本科護(hù)生自身也會(huì)由內(nèi)而外,提高對(duì)護(hù)理職業(yè)的認(rèn)同感,從而熱愛護(hù)理事業(yè),為護(hù)理事業(yè)的蓬勃發(fā)展貢獻(xiàn)力量。
Δf=divV,f|?Ω=f*|?Ω
(14)
式中,Δ為拉普拉斯算子;div為散度算子;f|?Ω=f*|?Ω為狄利克雷邊界條件。
對(duì)于圖像融合應(yīng)用,式(13)的離散化形式為
(15)
本文使用圖像旋轉(zhuǎn)擴(kuò)增障礙物的多尺度特征,通過(guò)調(diào)整亮度和灰度化增強(qiáng)不同光照條件數(shù)據(jù),使數(shù)據(jù)集擴(kuò)增為原始數(shù)據(jù)集的6倍,同時(shí)針對(duì)尖銳碎石的樣本量偏少,使用了小目標(biāo)增強(qiáng)算法,使其樣本數(shù)量增加到1 028個(gè)(表1)。
本實(shí)驗(yàn)采用的計(jì)算機(jī)配置為Intel? CoreTMi7-7800X CPU,NVIDIA GeForce 3090 (24G) GPU,本實(shí)驗(yàn)的網(wǎng)絡(luò)模型基于Pytorch 1.7,Python3.6,Cuda11.1框架搭建,實(shí)驗(yàn)的各項(xiàng)參數(shù)集合見表2。
由于本文數(shù)據(jù)集較少導(dǎo)致模型難以擬合,因此訓(xùn)練采用了遷移學(xué)習(xí)方式,骨干網(wǎng)絡(luò)RepVGG使用了Imagenet海量數(shù)據(jù)集訓(xùn)練的權(quán)重,本文目標(biāo)檢測(cè)模型作為下游任務(wù),對(duì)骨干網(wǎng)絡(luò)權(quán)重進(jìn)行裁剪,刪除不必要分類分支,并在VOC2007+2012數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,得到遷移學(xué)習(xí)的VOC數(shù)據(jù)集權(quán)重;然后基于VOC數(shù)據(jù)集權(quán)重,對(duì)權(quán)重的分類分支進(jìn)行修改以契合本文類別數(shù)目,并采取分段式訓(xùn)練方法,首先凍結(jié)骨干網(wǎng)絡(luò)權(quán)重進(jìn)行凍結(jié)訓(xùn)練,使網(wǎng)絡(luò)骨干在訓(xùn)練初期只參與特征提取并不對(duì)權(quán)值進(jìn)行更新,防止訓(xùn)練初期網(wǎng)絡(luò)隨機(jī)性過(guò)大破壞初始權(quán)值;訓(xùn)練20個(gè)Epoch后,解凍骨干網(wǎng)絡(luò)權(quán)重參與整個(gè)網(wǎng)絡(luò)訓(xùn)練,并進(jìn)行50個(gè)Epoch的訓(xùn)練。
表1 數(shù)據(jù)增強(qiáng)前后樣本分布
表2 實(shí)驗(yàn)各項(xiàng)參數(shù)設(shè)置
實(shí)驗(yàn)采用精確度(Precision,P)、召回率(Recall,R)、平均精度(Average Precision,Pave)和平均精度均值(Mean Average Precision,Pmap)四個(gè)指標(biāo)作為模型精度評(píng)價(jià)的標(biāo)準(zhǔn):
式中,TP為正確檢測(cè)出的目標(biāo);FP為將背景錯(cuò)誤檢測(cè)為目標(biāo);FN為未能檢測(cè)出的目標(biāo);n為目標(biāo)檢測(cè)的類別;N為檢測(cè)到的障礙物數(shù)量;Pave為衡量模型對(duì)負(fù)障礙目標(biāo)檢測(cè)的準(zhǔn)確性;Pmap為所有Pave的平均值,用來(lái)衡量整個(gè)模型的檢測(cè)準(zhǔn)確度。
在模型的推理速度和計(jì)算量方面采用了參數(shù)量(Pparams)和浮點(diǎn)運(yùn)算數(shù)(Fflops),Fflops作為評(píng)價(jià)指標(biāo),Pparams和Fflops的計(jì)算方法為(以卷積層計(jì)算為例):
Pparams=KhKwCinCout+Cout,
式中,Kh、Kw為卷積核高度和寬度;Cin為輸入通道數(shù);Cout為輸出通道數(shù);H′、W′為輸出特征圖尺寸高度和寬度。
如圖10所示,本文所提出的露天礦區(qū)障礙檢測(cè)模型在密集目標(biāo)、光線不理想、復(fù)雜背景等情況下都有著良好的表現(xiàn)。在大尺寸物體的檢測(cè)上邊界框定位精準(zhǔn),物體置信度均高于0.9,在小目標(biāo)的檢測(cè)中,對(duì)于行人和尖銳碎石的檢測(cè)性能較好,對(duì)于多尺度特征的負(fù)向障礙也能做到更加準(zhǔn)確的檢測(cè)和精確定位,可以滿足露天礦區(qū)無(wú)人礦卡在封閉、低速環(huán)境下的安全駕駛需求。
如表3所示,本文模型與主流的目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行了對(duì)比分析,所有訓(xùn)練均使用遷移學(xué)習(xí)方式,由于網(wǎng)絡(luò)特性不同,SSD,Faster-RCNN,RetinaNet,本文模型均采用了VOC2007+2012作為預(yù)訓(xùn)練數(shù)據(jù)集,YOLO4,YOLOX,EfficintDet使用了COCO2017數(shù)據(jù)集作為預(yù)訓(xùn)練數(shù)據(jù)集。
本文模型達(dá)到了91.76%的Pmap取得了最好的檢測(cè)精度,檢測(cè)速度、參數(shù)量和Fflops分別達(dá)到了56.74 fps、28.2 MB和39.4 GB,有著最好的綜合性能。其中anchor free的代表網(wǎng)絡(luò),YOLOX在面對(duì)多種任務(wù)時(shí)都有著良好的表現(xiàn),取得了87.75%Pmap,anchor base的EfficintDet-d3也取得了88.01%Pmap,由于預(yù)訓(xùn)練時(shí)YOLOX,EfficintDet-d3采用COCO數(shù)據(jù)集對(duì)于小微目標(biāo)中的行人、汽車時(shí)有著良好的檢測(cè)效果,但是YOLOX,EfficintDet-d3在檢測(cè)碎石的Pave分別為59.70%、76.24%。
圖10 露天礦區(qū)障礙物檢測(cè)結(jié)果Fig.10 Obstacle detection results in open pit mine
表3 不同網(wǎng)絡(luò)模型對(duì)比
由于EfficintDet-d3的輸入分辨率為896×896,使得其小目標(biāo)預(yù)測(cè)分支的特征圖尺寸為112×112,這使得它對(duì)于露天礦區(qū)障礙物數(shù)據(jù)集有著極好的精度,由于EfficintDet網(wǎng)絡(luò)使用了大量的深度可分離卷積降低參數(shù)量這導(dǎo)致其參數(shù)量和Fflops僅為11.9 MB、23.15 GB,但其輸入分辨率過(guò)大,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜導(dǎo)致推理速度較慢,難以滿足實(shí)時(shí)性要求。
傳統(tǒng)的網(wǎng)絡(luò)如SSD和Faster-RCNN的檢測(cè)精度均不理想,但是SSD取得了112.96 fps的檢測(cè)速度。而YOLO4由于輸入分辨率僅為416×416對(duì)于小微目標(biāo)難以取得良好效果。
如上文所述,本文提出的目標(biāo)檢測(cè)模型作為分類骨干網(wǎng)絡(luò)的下游任務(wù),使用ImageNet 1K大規(guī)模圖像分類數(shù)據(jù)集進(jìn)行訓(xùn)練的RepVGG權(quán)重,作為遷移學(xué)習(xí)的基礎(chǔ)權(quán)重。ImageNet 1K包含1 000個(gè)對(duì)象類,1 281 167個(gè)訓(xùn)練圖像、50 000個(gè)驗(yàn)證圖像和100 000個(gè)測(cè)試圖像。為了驗(yàn)證遷移學(xué)習(xí)的必要性與骨干網(wǎng)絡(luò)的選擇,分別使用RepVGG、RepVGG+、ResNet三種骨干網(wǎng)絡(luò)在VOC2007和2012數(shù)據(jù)集上進(jìn)行訓(xùn)練,使用權(quán)重隨機(jī)初始化與載入預(yù)訓(xùn)練權(quán)重進(jìn)行對(duì)比。
如圖11所示,通過(guò)對(duì)比網(wǎng)絡(luò)是否使用ImageNet海量數(shù)據(jù)訓(xùn)練的權(quán)重,可以看出網(wǎng)絡(luò)在loss收斂和每個(gè)epoch的Pap中都有著顯著的差異性,圖11(c)中,在不使用骨干權(quán)重時(shí),網(wǎng)絡(luò)在60個(gè)epoch時(shí)漸漸趨于擬合,此時(shí)模型精度僅為60%左右。而使用了預(yù)訓(xùn)練權(quán)重的網(wǎng)絡(luò),在20個(gè)epoch時(shí)網(wǎng)絡(luò)已經(jīng)逐漸趨于擬合,且精度為80%左右。在圖11(d)中RepVGG作為骨干網(wǎng)絡(luò)相較于ResNet有著近似的性能表現(xiàn),可見使用了海量數(shù)據(jù)作為預(yù)訓(xùn)練的權(quán)重,在實(shí)驗(yàn)中,有助于加速模型的收斂,同時(shí)提升模型的精度。同時(shí)如圖11(d)所示,本文所提出的RepVGG+,相較于ResNet和原始結(jié)構(gòu),有著更加優(yōu)異的性能表現(xiàn)。
圖11 RepVGG_A2、RepVGG_A2+、ResNet50骨干網(wǎng)絡(luò)預(yù)訓(xùn)練結(jié)果Fig.11 Pre-training results of RepVGG_A2,RepVGG_A2+,and ResNet50 backbone networks
3.4.1 RepVGG+網(wǎng)絡(luò)性能分析
為驗(yàn)證提出的RepVGG+的有效性,針對(duì)露天礦區(qū)障礙檢測(cè)模型的骨干網(wǎng)絡(luò)消融實(shí)驗(yàn)對(duì)比,并分別在預(yù)訓(xùn)練的VOC數(shù)據(jù)集和本文數(shù)據(jù)集上進(jìn)行測(cè)試。其結(jié)果見表4。
如表4所示,當(dāng)本文按照常規(guī)的網(wǎng)絡(luò)設(shè)計(jì),提取骨干網(wǎng)絡(luò)后3層作為FPN結(jié)構(gòu)的輸入時(shí),由于Res-Net50相較于RepVGG A2的參數(shù)量更多,在VOC數(shù)據(jù)集和本文數(shù)據(jù)集中都比RepVGG A2更加優(yōu)異,但RepVGG由于在推理時(shí)使用了層間融合等方法,推理速度顯著優(yōu)于ResNet50。RepVGG A0作為輕量型骨干網(wǎng)絡(luò)參數(shù)量?jī)H有7.03 MB,但精度也較低,RepVGG B2由于其網(wǎng)絡(luò)更深,能夠提取到更多的特征信息,在預(yù)訓(xùn)練中達(dá)到了82.45%Pmap,但是其參數(shù)量巨大,檢測(cè)速度較慢。本文針對(duì)RepVGG在目標(biāo)檢測(cè)任務(wù)中的缺陷,所提出的RepVGG A2+結(jié)構(gòu),在擴(kuò)增了Stage4的卷積層數(shù)并引入金字塔池化結(jié)構(gòu),使模型更加適應(yīng)于小類別目標(biāo)檢測(cè)。如表4所示,使用RepVGG+骨干網(wǎng)絡(luò)的模型在VOC數(shù)據(jù)集的精度超越了ResNet50,達(dá)到了81.94%的Pmap,同時(shí)增加了少許參數(shù)量,由于RepVGG作為輕量型骨干網(wǎng)絡(luò),其特征提取能力還稍顯不足,在針對(duì)碎石等小目標(biāo)時(shí),難以獲取更加抽象的特征信息,去分離背景特征,導(dǎo)致在本文數(shù)據(jù)集中相較于ResNet50低了0.58%的Pmap。
表4 不同骨干網(wǎng)絡(luò)對(duì)于模型性能影響
3.4.2 注意力機(jī)制影響分析
為了改善模型在上采樣過(guò)程中的特征信息丟失問(wèn)題,在B-FPN中引入了SimAM注意力機(jī)制,見表5,相較于傳統(tǒng)的通道注意力SENet[38]和通道與空間注意力CBAM[39],SimAM在不增加參數(shù)量的基礎(chǔ)上有著更好的性能。
表5 不同注意力機(jī)制對(duì)模型性能影響
如圖12所示,筆者使用GradCAM++[40]方法對(duì)不同注意力機(jī)制進(jìn)行了特征可視化。SENet基于通道維度對(duì)神經(jīng)元進(jìn)行增強(qiáng),其效果并不顯著,而基于通道與空間的注意力機(jī)制CBAM和SimAM都能很好地增強(qiáng)神經(jīng)元信息,從而改善特征丟失問(wèn)題。
3.4.3 消融實(shí)驗(yàn)與分析
為驗(yàn)證針對(duì)小目標(biāo)和多尺度目標(biāo)提出的特征融合機(jī)制、分類預(yù)測(cè)模塊和改進(jìn)Loss函數(shù)的有效性,設(shè)計(jì)了消融實(shí)驗(yàn),針對(duì)露天礦區(qū)道路障礙物數(shù)據(jù)不足問(wèn)題進(jìn)行了數(shù)據(jù)擴(kuò)增,見表6,由于擴(kuò)增前模型處于欠擬合狀態(tài)且訓(xùn)練樣本極不均衡,通過(guò)數(shù)據(jù)集擴(kuò)增后大幅提升了模型精度。對(duì)FPN模塊進(jìn)行了重新設(shè)計(jì),提出了基于通道和空間注意力的SimAM注意力和跨階段連接卷積的雙向特征融合的B-FPN結(jié)構(gòu),針對(duì)小微目標(biāo),在最大尺度的特征圖后加入了SSH卷積模塊,擴(kuò)大感受野,進(jìn)一步提升其檢測(cè)性能。如表6所示,提出的特征融合模塊在加入了SimAM注意力機(jī)制和SSH后檢測(cè)精度均得到了提升。同時(shí)由于雙向FPN結(jié)構(gòu)已經(jīng)提取到大量的特征信息,如果在模型的Head中還是使用連續(xù)的4次卷積+ReLU會(huì)導(dǎo)致特征冗余,因此將Head優(yōu)化為連續(xù)2次3×3卷積+LeakyReLU,使用改進(jìn)的骨干網(wǎng)絡(luò)+FPN+Head取得了更好的精度,在VOC數(shù)據(jù)集和本文數(shù)據(jù)集上分別達(dá)到了83.87%、86.35%的Pmap。
圖12 基于GradCAM++的不同注意力機(jī)制特征Fig.12 Characterization of different attention mechanisms based on GradCAM++
表6 消融實(shí)驗(yàn)
圖13 Loss函數(shù)對(duì)模型檢測(cè)效果影響Fig.13 Effect of Loss function on model detection effect
如圖13(a)所示,在模型的實(shí)際驗(yàn)證過(guò)程中,取置信度為0.05時(shí),發(fā)現(xiàn)同一目標(biāo)有著大量的重合框與定位不準(zhǔn)確問(wèn)題,因此本文在訓(xùn)練過(guò)程中對(duì)Loss進(jìn)行優(yōu)化。
如圖13(b)所示,改進(jìn)后的Loss函數(shù)很好的抑制了這一問(wèn)題,同時(shí)表6也表明,在引入改進(jìn)后Loss函數(shù)模型在2個(gè)數(shù)據(jù)集的精度達(dá)到了84.17%和86.49%的Pmap。
但是本文模型針對(duì)露天礦區(qū)障礙物中的碎石檢測(cè)仍然是個(gè)難點(diǎn),在對(duì)網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)、FPN、Head、Loss函數(shù)優(yōu)化后,碎石的Pap只有63%,因此本文提取骨干網(wǎng)絡(luò)的4層輸出,進(jìn)一步擴(kuò)大網(wǎng)絡(luò)預(yù)測(cè)小目標(biāo)分支的特征圖尺寸,使網(wǎng)絡(luò)預(yù)測(cè)最大特征圖從64×64,提升為128×128,極大地提升了小目標(biāo)的預(yù)測(cè)能力,在本文數(shù)據(jù)集中達(dá)到了91.76%Pmap,其中尖銳碎石的Pap為85.38%。如表6所示,由于小尺寸特征圖主要作用與大尺寸抽象目標(biāo)預(yù)測(cè),導(dǎo)致了本文模型在VOC數(shù)據(jù)集上的精度為83.89%Pmap,相較于3個(gè)骨干網(wǎng)絡(luò)輸出層的模型減少了0.27%。
(1)針對(duì)露天礦區(qū)無(wú)人礦卡行進(jìn)障礙檢測(cè),提出了基于雙向融合機(jī)制的露天礦區(qū)障礙檢測(cè)模型,模型采用了改進(jìn)的RepVGG A2+進(jìn)行障礙特征提取,B-FPN對(duì)多尺度障礙特征進(jìn)行雙向融合,增強(qiáng)不同尺寸特征圖的特征信息,對(duì)小微目標(biāo)檢測(cè)分支額外使用SSH結(jié)構(gòu)增強(qiáng)感受野,提升尖銳碎石等障礙信息表達(dá)能力。
(2)針對(duì)分類預(yù)測(cè)模塊進(jìn)一步調(diào)整,刪除冗余信息提升模型檢測(cè)精度與速度。針對(duì)類別不均衡問(wèn)題使用標(biāo)簽正則化優(yōu)化Fcoal Loss,使用GIoU Loss優(yōu)化邊界框回歸Loss。
(3)實(shí)驗(yàn)表明本文模型在多種情況下都有著良好的檢測(cè)性能,達(dá)到了91.76%Pmap和56.76 fps的檢測(cè)速度,滿足無(wú)人礦卡準(zhǔn)確快速檢測(cè)需求,對(duì)比主流的目標(biāo)檢測(cè)網(wǎng)絡(luò)也處于領(lǐng)先地位。
(4)通過(guò)實(shí)地采集與數(shù)據(jù)擴(kuò)增建立了露天礦區(qū)障礙數(shù)據(jù)集,然而受限于采集數(shù)據(jù)的露天礦區(qū)較少以及規(guī)模較小,本研究仍有不足之處難以覆蓋不同路況的露天礦區(qū)。此外,如何利用大量數(shù)據(jù)缺失標(biāo)注的圖像進(jìn)行自動(dòng)標(biāo)注和對(duì)抗生成圖像,去擴(kuò)增數(shù)據(jù)集也有待進(jìn)一步研究。