程 敏 張 淼 郭永春 唐海健
(億嘉和科技股份有限公司,南京,210012)
機(jī)器人在室外電力作業(yè)場(chǎng)景應(yīng)用越來(lái)越廣泛,可將體力消耗大、技能需求高、危險(xiǎn)性大的操作轉(zhuǎn)變?yōu)榘踩⒑?jiǎn)單的操作,例如剝線和避雷器換取等高危的人工操作改為機(jī)器人自主作業(yè)。但室外場(chǎng)景通常較為復(fù)雜,有逆光、遮擋、強(qiáng)光等挑戰(zhàn),容易丟失目標(biāo),魯棒性較差。這就要求機(jī)器人具備環(huán)境感知、目標(biāo)定位、多模態(tài)融合等感知技術(shù),從而適應(yīng)不同作業(yè)需求及復(fù)雜作業(yè)環(huán)境。綜上,室外電力作業(yè)應(yīng)用對(duì)機(jī)器人的感知能力提出了更高的要求,希望機(jī)器人在復(fù)雜場(chǎng)景中可以檢測(cè)出目標(biāo)物的不同姿態(tài)。因此,在電力行業(yè),機(jī)器人目標(biāo)感知研究有著重要的理論意義和實(shí)用價(jià)值。
目前目標(biāo)檢測(cè)主要有兩種解決方案,一是基于傳統(tǒng)特征提取方法,另一個(gè)是基于深度學(xué)習(xí)的感知方法,兩種各有優(yōu)劣。
基于傳統(tǒng)的手工特征提取方法[1-2]可以充分利用先驗(yàn)知識(shí)來(lái)提取特征,例如:類圓柱體的對(duì)稱性、剛體的幾何特性等。但是受限于目標(biāo)物大小、顏色等因素,傳統(tǒng)方法的應(yīng)用場(chǎng)景單一,并對(duì)于有遮擋、折疊等場(chǎng)景的目標(biāo)物識(shí)別精準(zhǔn)度欠缺、魯棒性較差。此外,其對(duì)新的目標(biāo)物需要重新設(shè)計(jì)特征,泛化性較差。為解決以上問(wèn)題,越來(lái)越多基于深度學(xué)習(xí)的目標(biāo)物位姿檢測(cè)方案被提出[3-5]。
相比于傳統(tǒng)特征提取方法,深度學(xué)習(xí)的優(yōu)勢(shì)在于特征提取環(huán)節(jié)不需要人為設(shè)計(jì)特征,擺脫了對(duì)個(gè)人經(jīng)驗(yàn)的依賴。通過(guò)監(jiān)督學(xué)習(xí)方式,神經(jīng)網(wǎng)絡(luò)模型可自行獲得目標(biāo)物體的位置和姿態(tài)。
最近,隨著RGB-D傳感器的精度提升,在充分利用深度圖信息的前提下,2D檢測(cè)算法可實(shí)現(xiàn)在3D空間的檢測(cè)[6-7]。文獻(xiàn)[7]提出了一種在單張 RGB-D 圖像上利用 3D 關(guān)鍵點(diǎn)估計(jì)物體 6D 位姿的算法,即用兩個(gè)不同的網(wǎng)絡(luò)分別學(xué)習(xí)RGB和深度圖的特征并進(jìn)行融合,然后輸入實(shí)例分割模塊中,得到目標(biāo)物的類別和位置信息,并結(jié)合3D關(guān)鍵點(diǎn)的信息,最后利用投票法獲得目標(biāo)物的6D位姿。但此深度學(xué)習(xí)模型需要大量帶標(biāo)簽的3D數(shù)據(jù)集,費(fèi)時(shí)費(fèi)力;另外,由于對(duì)點(diǎn)云的強(qiáng)依賴,一旦點(diǎn)云殘缺,該算法可能會(huì)精度下降甚至目標(biāo)漏檢。因此,針對(duì)室外復(fù)雜場(chǎng)景,本文提出一種基于深度學(xué)習(xí)與多模態(tài)融合的目標(biāo)檢測(cè)方法:既能利用深度學(xué)習(xí)的強(qiáng)泛化性,又能充分利用傳統(tǒng)方法的先驗(yàn)知識(shí),從而實(shí)現(xiàn)在強(qiáng)光、遮擋、逆光等場(chǎng)景下機(jī)器人對(duì)避雷器的高精度識(shí)別。
本方法以深度學(xué)習(xí)和傳統(tǒng)算法相結(jié)合,進(jìn)行RGB和深度圖等不同模態(tài)信息融合,精確提取目標(biāo)物的3D中軸線。
根據(jù)電力機(jī)器人抓取避雷器等設(shè)備的需求,本算法首先用深度學(xué)習(xí)模型充分結(jié)合圖像目標(biāo)檢測(cè)的連續(xù)性和完整性,獲得目標(biāo)物的2D目標(biāo)分割圖,再利用點(diǎn)云可精確測(cè)量目標(biāo)3D表面形態(tài)和位置的特性,利用圖像提取點(diǎn)云興趣區(qū),最后精確估計(jì)避雷器的主軸位置和方向。
算法的主要步驟如下:
1)首先完成RGB與TOF相機(jī)的標(biāo)定,并拍攝目標(biāo)物。
2)通過(guò)基于深度學(xué)習(xí)的實(shí)例分割模型,對(duì)RGB圖像進(jìn)行目標(biāo)物的目標(biāo)檢測(cè)與分割,獲得目標(biāo)物的2D分割圖。
3)對(duì)圖像進(jìn)行消除鋸齒等后處理。
4)用二維PCA的方法,獲取目標(biāo)物的2D中軸線。
5)利用已獲得的2D中軸線和2D分割圖,獲得深度圖的3D興趣區(qū)。
6)利用三維PCA對(duì)3D興趣區(qū)進(jìn)行中軸線估計(jì),再結(jié)合目標(biāo)物的半徑估計(jì),精確計(jì)算目標(biāo)物的3D中軸線。
隨著深度學(xué)習(xí)模型的快速迭代和算力的普及,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)和實(shí)例分割方法快速普及開來(lái)。其中,最經(jīng)典的Mask R-CNN及其改進(jìn)模型[8-9]是兩階段(two-stage)實(shí)例分割的模型。其基本思路是,采用“先檢測(cè)后分割”的方法,先通過(guò)第一階段的網(wǎng)絡(luò)生成候選框RoI,并進(jìn)行過(guò)濾篩選,再通過(guò)第二階段網(wǎng)絡(luò),預(yù)測(cè)候選框中特征圖的分類和分割,從而實(shí)現(xiàn)高精度的目標(biāo)檢測(cè)與目標(biāo)分割。但是,由于整個(gè)網(wǎng)絡(luò)具有前后時(shí)序,因此很難進(jìn)行并行加速,推理速率較慢。為提升推理速率,單階段(one-stage)的模型設(shè)計(jì)者嘗試把兩階段的步驟并行運(yùn)算,但是一般在網(wǎng)絡(luò)完成定位之后需要大量的后處理,導(dǎo)致很難實(shí)時(shí)推理。
為了解決上述問(wèn)題,YOLACT[10]模型提出,把復(fù)雜的實(shí)例分割任務(wù)分解為兩個(gè)并行的子任務(wù)。第一個(gè)分支充分利用擅長(zhǎng)空間相干的卷積層(Protonet)來(lái)產(chǎn)生一系列的原型掩碼“prototype masks”,其不依賴于任一特定實(shí)例;第二個(gè)分支是給目標(biāo)檢測(cè)分支添加一個(gè)輸出,利用擅長(zhǎng)語(yǔ)義向量的全連接層,來(lái)預(yù)測(cè)各個(gè)錨框(anchor)的位置、類別置信度和掩碼(mask)的掩碼系數(shù),并對(duì)每個(gè)實(shí)例,使用非極大值抑制NMS對(duì)所預(yù)測(cè)的mask進(jìn)行過(guò)濾處理。最后,把兩個(gè)分支得出的原型掩碼與掩碼系數(shù)進(jìn)行線性組合生成masks,得出最終的分割圖,具體如公式(1)所示。
通過(guò)這種網(wǎng)絡(luò)設(shè)計(jì),可以在特征空間中保持空間一致性,同時(shí)仍然是單階段和實(shí)現(xiàn)快速推理的方法。
公式(1)中,P是大小為h×w×h的原型掩碼,C是n×k的掩碼系數(shù),n是經(jīng)過(guò)非極大值抑制過(guò)濾后的預(yù)測(cè)框個(gè)數(shù)。經(jīng)過(guò)(sigmoid函數(shù))激活可生成最終的掩碼圖。
另外,YOLACT模型的損失函數(shù)L包含3種:分類損失Lcls,框回歸損失Lbox和掩碼損失Lmask,其權(quán)重依次為1,1.5和6.125,如公式(2)所示。分類損失和框回歸損失跟SSD相同,掩碼損失使用二元交叉熵?fù)p失。
AI的模型需要大量的內(nèi)存和算力,為了能應(yīng)用在電力機(jī)器人上,需要對(duì)YOLACT模型的單集主干檢測(cè)器進(jìn)行網(wǎng)絡(luò)輕量化設(shè)計(jì)。
筆者通過(guò)引入文獻(xiàn)[11]思想,引入深度可分離卷積,主要列由三部分構(gòu)成:一是使用1×1的卷積核,把低維空間映射到高維空間;二是把3×3卷積改成1×1和3×3,一個(gè)卷積核只負(fù)責(zé)一個(gè)通道,并無(wú)通道間的特征融合,減小了整體的運(yùn)算量;三是使用1×1的卷積核,將低維特征映射到高維空間。
圖2 骨干網(wǎng)絡(luò)結(jié)構(gòu)
此外,為了加速模型推理速度,筆者用OpenVINO框架把模型變量類型從float32改成float16,從而把模型大小進(jìn)一步壓縮為一半,加速模型的推理速率。
對(duì)YOLACT模型進(jìn)行輕量化后,會(huì)有誤檢、漏檢和分割的損失,為提升模型像素級(jí)特征表示的辨別能力,需要提升網(wǎng)絡(luò)中FPN(編碼器-解碼器)模塊融合低維和高維的語(yǔ)義特征的能力。
本算法在backbone與FPN之間,引入注意力網(wǎng)絡(luò)(PAM和CAM)和多尺度池化操作(PspNet)[12-13],進(jìn)行多尺度上下文的融合,捕獲更豐富的全局信息。
注意力機(jī)制(attention)的基本思路是讓模型自身能夠關(guān)注重點(diǎn)信息并且忽略無(wú)關(guān)信息,常用的實(shí)現(xiàn)方式有空間域和通道域注意力機(jī)制,其分別捕獲空間維度和通道維度中的特征依賴關(guān)系,見圖3所示。
圖3 空間域注意力機(jī)制(左圖)和通道域注意力機(jī)制(右圖)
1.4.1 空間域注意力機(jī)制
空間域注意力機(jī)制(Position Attention Module)使用自注意力機(jī)制捕獲特征圖在任意兩個(gè)位置之間的空間依賴關(guān)系,通過(guò)加權(quán)求和,對(duì)所有位置的特征進(jìn)行聚合更新,權(quán)重是由對(duì)應(yīng)兩個(gè)位置的特征相似性決定的。
式(3)中, 度量第i個(gè)位置對(duì)第j個(gè)位置的影響,也就是第i個(gè)位置和第j個(gè)位置之間的關(guān)聯(lián)程度/相關(guān)性,數(shù)值越大越相似。
式(4)中, 表示尺度系數(shù),初始化為0,并通過(guò)逐漸地學(xué)習(xí)分配到更大的權(quán)重。每個(gè)位置的結(jié)果特征E,是所有位置和原始位置的加權(quán)和。
該方法具有全局上下文視圖,并能根據(jù)空間注意力圖有選擇地聚合上下文。
1.4.2 通道域注意力機(jī)制
在通道域注意力機(jī)制(Channel Attention Module)中,每個(gè)高維特征的通道圖都可以看作是一個(gè)特定類的響應(yīng),通過(guò)挖掘通道圖之間的相互依賴關(guān)系,可以突出相互依賴的特征圖,提高特定語(yǔ)義的表征能力。因此,筆者使用通道自注意力機(jī)制來(lái)捕獲任意兩個(gè)通道圖之間的通道依賴關(guān)系,并使用所有通道圖的加權(quán),然后更新每個(gè)通道圖,如公式(5)所示。
式(5)中,Xji度量第i個(gè)通道對(duì)第j個(gè)通道的影響。該方法實(shí)現(xiàn)了對(duì)特征圖之間的長(zhǎng)程語(yǔ)義依賴關(guān)系建模,有助于提高特征的辨別性。
1.4.3 混合域注意力機(jī)制
為了充分利用長(zhǎng)程上下文信息,筆者對(duì)空間域和通道域的特征進(jìn)行了聚合,即混合域注意力機(jī)制(DAnet Module),通過(guò)卷積層對(duì)兩個(gè)注意力模塊的輸出進(jìn)行轉(zhuǎn)換,并執(zhí)行一個(gè)加權(quán)的求和來(lái)實(shí)現(xiàn)特征融合,再連接一個(gè)卷積得到最后的預(yù)測(cè)特征圖。
本部分利用YOLACT模型分割出目標(biāo)物的2D分割圖像,結(jié)合深度圖信息,再通過(guò)一系列點(diǎn)云處理,得出目標(biāo)物的3D中軸線。具體流程細(xì)節(jié)如下。
1)RGB相機(jī)和TOF相機(jī)的標(biāo)定。
該標(biāo)定過(guò)程包含RGB相機(jī)的內(nèi)外參標(biāo)定,RGB相機(jī)與TOF相機(jī)的外參標(biāo)定。其主要目的是解決RGB相機(jī)二、三維精投影變換的參數(shù)問(wèn)題,以及RGB相機(jī)與TOF相機(jī)的對(duì)齊。
2)對(duì)2D分割圖像進(jìn)行后處理。
該步驟是將提取出來(lái)的目標(biāo)進(jìn)行圖像處理,消除鋸齒、細(xì)節(jié)等不穩(wěn)定的成分。
3)圖像2D中軸線提取。
該步驟是通過(guò)二維PCA的方法,提取目標(biāo)的圖像中軸線。
4)深度圖3D興趣區(qū)提取。
利用上一步提取的2D中軸線做引導(dǎo),設(shè)置一定的半徑,在深度圖上截取興趣區(qū),并將該興趣區(qū)的點(diǎn)云轉(zhuǎn)換到3D空間。該興趣區(qū)位于目標(biāo)中心,一般來(lái)說(shuō)數(shù)據(jù)比較穩(wěn)定,噪點(diǎn)較少。
5)PCA估計(jì)3D中軸線。
對(duì)提取的興趣區(qū)點(diǎn)云,利用三維PCA進(jìn)行目標(biāo)中軸線方向和中心點(diǎn)的估計(jì),此時(shí)的中心點(diǎn)位于目標(biāo)表面。
6)避雷器的半徑估計(jì)。
利用圖像計(jì)算避雷器的直徑,利用中心點(diǎn)表面的點(diǎn)云估算尺度,并精確計(jì)算目標(biāo)的半徑。
7)3D中軸線深度修正。
利用上一步計(jì)算出來(lái)的目標(biāo)半徑,對(duì)估算出來(lái)的中軸線進(jìn)行深度修正,將之平移至目標(biāo)中心,從而完成目標(biāo)中軸線的精確提取。
在對(duì)實(shí)例分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),實(shí)驗(yàn)環(huán)境為Ubuntu 系統(tǒng),并使用顯卡 GTX2080Ti 對(duì)訓(xùn)練過(guò)程進(jìn)行加速。
本模型所依賴的深度學(xué)習(xí)框架為PyTorch,模型訓(xùn)練所需的參數(shù)設(shè)置如下:
1)基礎(chǔ)學(xué)習(xí)率( base lr) 為 0.001;
2)學(xué)習(xí)率的衰減策略(lr)為“step”(步),步長(zhǎng)(stepsize)為10000,共衰減3次;
3)學(xué)習(xí)率的變化比率(gamma) 為 0.1;
4)屏幕顯示間隔 (display) 為 20;
5)最大迭代次數(shù)( maxiter) 為 40000;
6)動(dòng)量(momentum) 為 0.9;
7)權(quán)重衰減項(xiàng)( weight decay)為 0.0005。
測(cè)試集由1718張圖組成,覆蓋、遮擋、多目標(biāo)、曝光、陰天、新型避雷器等不同場(chǎng)景均涉及。
網(wǎng)絡(luò)輕量化模型性能測(cè)試數(shù)據(jù)見表1。
表1 模型性能對(duì)比
通過(guò)模型輕量化設(shè)計(jì),筆者設(shè)定基線模型為108M,模型參數(shù)量下降到近30M。從表1可以看出,相比于原模型,輕量化GPU模型的BoxAP和Mask AP值略有下降,基于GPU的推理速率為19.7張/s。
進(jìn)一步通過(guò)OpenVINO框架轉(zhuǎn)化成可以在CPU上推理的輕量化CPU模型,其性能進(jìn)一步下降,尤其是Mask AP值下降到68.25,推理速度在CPU下為2.85張/s。
模型性能對(duì)比見表2。由數(shù)據(jù)可知,對(duì)分割模型進(jìn)行輕量化后,會(huì)有性能上的損失。
表2 模型性能對(duì)比
為針對(duì)性地提升模型表征能力,需要進(jìn)一步研究圖1中骨干網(wǎng)絡(luò)的C3、C4、C5層對(duì)目標(biāo)檢測(cè)(Box)和目標(biāo)分割(Mask)的影響。對(duì)已訓(xùn)練好的模型,本文選擇性失活C3、C4、C5來(lái)組合成五種模型,具體如表2和圖5所示。
圖1 實(shí)例分割模型結(jié)構(gòu)
在模型C中,由于C3、C4、C5全部失活,即中斷backbone與FPN的有效鏈,所以無(wú)論是Box還是Mask的預(yù)測(cè)效果幾乎都為0;在圖5中,也可以看到模型C為推理出的避雷器圖,說(shuō)明模型完全失效。
圖5 不同模型下的推理圖
在模型C5中,C5分支被激活,Box的AP50得分升值83.82,Mask的AP50也上升至15.02;圖5中也可以看到,一個(gè)避雷器被檢測(cè)出來(lái),但是邊緣效果預(yù)測(cè)很差,結(jié)果說(shuō)明,C5的高維語(yǔ)義信息特征圖對(duì)Box的預(yù)測(cè)起決定性的作用,同時(shí)輔助Mask的預(yù)測(cè)。
在模型C45中,C4和C5兩個(gè)分支被激活,可以看到,Mask的AP50值大幅上升80.3;圖5中,檢測(cè)出兩個(gè)避雷器,說(shuō)明C4對(duì)Mask起很重要的預(yù)測(cè)作用。
在模型C35中,C3和C5兩個(gè)分支被激活,Mask的AP值提升到96.39,兩個(gè)避雷器均被檢測(cè)出來(lái),且邊緣預(yù)測(cè)較為完整。因此說(shuō)明,C3分支由于具有較豐富的局部低維信息,對(duì)整個(gè)模型Mask的預(yù)測(cè)起著最重要的作用。
在模型C345中,由于三個(gè)分支完全被激活,通過(guò)高低維信息的有效融合,使Box和Mask都達(dá)到最高值;圖5中,兩個(gè)避雷器均有較高質(zhì)量的預(yù)測(cè)。綜上,C5分支的高維語(yǔ)義信息對(duì)Box起著重要作用,C3和C4的低維信息對(duì)Mask起著重要作用。
由上可知,為進(jìn)一步提升本模型的性能,有兩個(gè)重點(diǎn)研究的方向,一個(gè)是增強(qiáng)C5、C4的高維語(yǔ)義信息來(lái)提升目標(biāo)檢測(cè)(Box),一個(gè)是豐富C3的局部語(yǔ)義信息來(lái)提升目標(biāo)分割(Mask)。因此,本文在backbone與FPN的連接C3、C4、C5三個(gè)分支上,先后引入空間域注意力機(jī)制、通道域注意力機(jī)制以及兩種的融合,來(lái)實(shí)現(xiàn)高低維語(yǔ)義信息的融合。
在表3中,基線模型的Box和Mask的APmean值分別為81.29和75.02。在模型M_P中,對(duì)C3、C4、C5三個(gè)分支都添加空間域PAM模塊,來(lái)捕獲特征圖在任意兩個(gè)位置之間的空間依賴關(guān)系,進(jìn)而提升模型的表征能力,在圖6中可以看到,C5層的PAM粗定位了避雷器的位置信息,C4層精定位了避雷器的位置,并開始粗預(yù)測(cè)邊緣信息,C3層PAM關(guān)注了更多邊緣的細(xì)節(jié)信息。
表3 模型的消融實(shí)驗(yàn)
在模型M_CP中,對(duì)C3、C4、C5三個(gè)分支添加了空間域和通道域的融合注意力機(jī)制,使模型不僅捕獲空間依賴關(guān)系,還獲得任意通道圖之間的通道依賴關(guān)系,進(jìn)一步提升模型性能。在圖6中,CAM和PAM比較,C5層中CAM關(guān)注區(qū)域比PAM更小而且更精確,說(shuō)明CAM更易表征出避雷器的位置信息。在C4層中,可見PAM的關(guān)注區(qū)域更加精確,邊緣表征性能更強(qiáng)。在C3層中,可見PAM的避雷器中軸區(qū)域被割裂成塊狀區(qū)域,而CAM的中軸區(qū)域保留了較為完整的中軸線區(qū)域,這是由于PAM對(duì)特征圖進(jìn)行了空間上的重塑,見公式(4),進(jìn)而導(dǎo)致局部細(xì)節(jié)信息被破壞和丟失。因此,在后續(xù)模型中,筆者在C3層上取消了PAM模塊。 從圖6第三行可知,混合域注意力機(jī)制集合了PAM和CAM的特性,Box和Mask的APmean值也分別提升至83.65和76.48。
圖6 注意力機(jī)制模型的可視化
考慮到C3的局部語(yǔ)義信息對(duì)Mask值有著決定性的作用,而CAM和PAM的引入,雖然豐富了空間域和通道域的依賴關(guān)系,但是由于對(duì)特征圖的重塑,不可避免地導(dǎo)致豐富局部信息的破壞和丟失。因此,筆者在模型M_CP1中直接移除了CAM和PAM,來(lái)提升局部語(yǔ)義信息,可以看到,Mask的APmean直接提升近1.4%,Box也提升0.6%。
在模型M_PCP中,為進(jìn)一步豐富C3的局部信息,引入語(yǔ)義更豐富的C2,并經(jīng)過(guò)多尺度池化處理,再與C3層相融合,表3中可見,Box和Mask的APmean值進(jìn)一步提升至85.18和78.79。
圖7展示了基線模型和模型M_PCP的原型掩碼的對(duì)比圖,可以很明顯看到,基線模型丟失了避雷器的邊緣信息,第一張圖中左上角,避雷器直接變成一個(gè)圓柱體,作為對(duì)比,模型M_PCP很好地保留了避雷器“傘裙部”的邊緣信息,這直接導(dǎo)致第6列中兩者對(duì)遠(yuǎn)端避雷器預(yù)測(cè)的差異,即基線模型避雷器邊緣信息的缺失。此外,從第5列對(duì)比可知,模型M_PCP的近端避雷器的特征亮度高于基線模型,這也是模型M_PCP不易產(chǎn)生漏檢現(xiàn)象的一個(gè)原因。
圖7 基線模型(第一行)和模型M_PCP(第二行)的原型掩碼對(duì)比
綜上,通過(guò)針對(duì)性的模型優(yōu)化,本模型目標(biāo)檢測(cè)和分割性能都得以明顯提升。
3.4.1 3D數(shù)據(jù)集采集與評(píng)價(jià)標(biāo)準(zhǔn)
在獲得避雷器2D分割圖后,依據(jù)圖4的流程,可得出避雷器3D中軸線。本部分測(cè)試由Lucid相機(jī)采集完成,其中室外約50張,并對(duì)數(shù)據(jù)集采集進(jìn)行約束,要求俯仰角在±20°,且避雷器點(diǎn)云損失不大于20%,如圖8所示。
圖4 3d中軸線擬合的流程圖
圖8 點(diǎn)云圖
通過(guò)結(jié)合RGB,把點(diǎn)云圖切割并擬合出3D中軸線,如圖9所示,真值中軸線是由人工標(biāo)注所得。
圖9 3D中軸線的擬合(紅線所示)
同時(shí),為評(píng)價(jià)擬合效果,引入兩個(gè)指標(biāo):中軸線擬合值與中軸線真值的距離誤差和角度誤差。
3.4.2 性能對(duì)比
筆者以傳統(tǒng)的模板匹配法作為基準(zhǔn),與本算法進(jìn)行對(duì)比。
模板匹配法的具體流程如圖10所示,左圖為避雷器的CAD模型,與中圖的點(diǎn)云圖作模板匹配,最后得到右圖的匹配結(jié)果。
圖10 模板匹配法
圖11 和圖12展示了,在室外點(diǎn)云數(shù)據(jù)集中,本文算法和模板匹配法3D中軸線擬合值與真值的距離誤差和角度誤差。從表4可以看出,在平均距離誤差方面,模板匹配法為0.699cm,本方法為0.412cm。在距離誤差在1cm以內(nèi)的樣例占比上,本方法比模板匹配法提升9%,達(dá)到92%。
圖11 3D中軸線擬合值與真值的距離誤差
圖12 3D中軸線擬合值與真值的角度誤差
表4 3D中軸線擬合值與真值的距離和角度誤差
在平均角度誤差方面,模板匹配法為4.538°,本方法為2.382°。在誤差6°以內(nèi)的樣例占比上,模板匹配法為68%,本文算法為93%,提升近25個(gè)百分點(diǎn)。
綜上,本方法的避雷器3D中軸線擬合效果比傳統(tǒng)的模板匹配法精準(zhǔn)度更高。
本文算法將深度學(xué)習(xí)和傳統(tǒng)算法相結(jié)合,進(jìn)行RGB和深度圖等不同模態(tài)信息融合,精確提取避雷器的3D中軸線信息。通過(guò)對(duì)模型進(jìn)行壓縮,在保證精度的前提下提升推理速度,并成功部署在CPU上。再者,分割模型的C5分支的高維語(yǔ)義信息對(duì)Box的預(yù)測(cè)起著重要作用,C3和C4分支的低維信息對(duì)Mask起著重要作用,通過(guò)引入注意力機(jī)制和多尺度融合等方法,提升算法融合高低維語(yǔ)義信息,增強(qiáng)了算法表征能力。此外,通過(guò)有效的3D算法,可以高精度地獲取避雷器中軸線的位姿。
綜上,本文算法方便部署,實(shí)用性較強(qiáng),并有以下幾點(diǎn)創(chuàng)新與優(yōu)勢(shì):
1)本方法提出一種輕量化的圖像分割模型,并成功運(yùn)行在CPU上,減少對(duì)GPU的依賴和運(yùn)行成本,工程價(jià)值較高。
2)本方法通過(guò)引入注意力機(jī)制和多尺度融合,提升AI模型的精度,具有較強(qiáng)的泛化性和穩(wěn)定性。
3)本方法充分融合RGB和深度圖的信息,可精確地獲得避雷器的3D中軸線或位姿信息。
4)本方法可應(yīng)對(duì)復(fù)雜的室外場(chǎng)景,具有強(qiáng)魯棒性。