陳勇,李松,晉偉平,謝珉,楊永昆
(1.云南電網(wǎng)有限責(zé)任公司,昆明 650011;2.云南電網(wǎng)有限責(zé)任公司紅河供電局,云南 紅河州 661100)
近年來,隨著“雙碳”戰(zhàn)略[1]的推行以及數(shù)字經(jīng)濟(jì)的應(yīng)用,構(gòu)建新型電力系統(tǒng)并實(shí)現(xiàn)發(fā)、輸、變、配、用五大環(huán)節(jié)的數(shù)字化轉(zhuǎn)型,挖掘數(shù)字信息的隱性價(jià)值,提升電網(wǎng)的數(shù)字化與智能化水平已成為電力行業(yè)發(fā)展進(jìn)步的迫切需要[2]。其中,伴隨計(jì)算機(jī)視覺[3]與深度學(xué)習(xí)技術(shù)[4]的進(jìn)步,針對輸變電等電力場景,使用包含景深信息的三維圖像數(shù)據(jù)進(jìn)行電力設(shè)備的目標(biāo)檢測對保障作業(yè)安全和實(shí)現(xiàn)電網(wǎng)高效運(yùn)維具有極為重要的意義[5]。
由于三維圖像數(shù)據(jù)非空體積像素的稀疏性和不規(guī)則性,從三維圖像中檢測物體是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。目前,國內(nèi)外已經(jīng)對基于三維圖像的目標(biāo)檢測技術(shù)開展全方位的研究??紤]對圖像特征的表達(dá)方式不同,主流的方法可以被分成兩類:基于體素(三維體積像素)的方法和基于點(diǎn)的方法。基于體素的方法先使用體素化操作將圖像數(shù)據(jù)轉(zhuǎn)化為三維體素網(wǎng)格,之后通過特征編碼層生成基于體素的特征,并將其投射到鳥瞰圖上來生成目標(biāo)邊界框。MV3D(多視點(diǎn)三維網(wǎng)絡(luò))[6]使用稀疏卷積算法從非空體素中提取特征,這極大地提高了基于體素的三維物體檢測算法的推理速度。自此之后,基于體素的方法在學(xué)術(shù)界和工業(yè)界快速發(fā)展。PointPillars[7]沿著縱軸將圖像分割為柱體,顯著提高了圖像特征編碼的速度。這種方法具有簡單的網(wǎng)絡(luò),不使用復(fù)雜的三維卷積,因此在工業(yè)界廣受歡迎。SA-SSD(基于點(diǎn)云的結(jié)構(gòu)感知單階段三維物體檢測)[8]將每個(gè)體素的中心視為一個(gè)點(diǎn),并將預(yù)測的每個(gè)點(diǎn)在三維邊界框中的位置概率作為額外的監(jiān)督信息來訓(xùn)練模型。PVRCNN(基于點(diǎn)和體素的區(qū)域卷積神經(jīng)網(wǎng)絡(luò))[9]使用稀疏卷積從體素中提取特征并生成候選提案,將多尺度體素特征編碼為關(guān)鍵點(diǎn),并通過聚合候選網(wǎng)格周圍的關(guān)鍵點(diǎn)特征來細(xì)化邊界框。這種方法將點(diǎn)信息添加到體素中,從而改善了檢測性能,但推理速度非常低。Voxel-RCNN(基于體素的區(qū)域卷積神經(jīng)網(wǎng)絡(luò))[10]使用稀疏卷積作為骨干網(wǎng)絡(luò)來生成三維候選框,之后在三維候選框內(nèi)分布均勻的網(wǎng)格點(diǎn),并對網(wǎng)格點(diǎn)上的體素特征進(jìn)行編碼。值得注意的是,體素池化模塊不需要點(diǎn)信息,這使得Voxel-RCNN 比PV-RCNN 算法具有更快的目標(biāo)檢測速度。STD(稀疏到密集三維目標(biāo)檢測)[11]通過通道級變換器改進(jìn)了體素池化模塊,可以獲取候選提案的全局信息,這對兩階段中的目標(biāo)細(xì)化非常有用。M3DeTR(通過變換器統(tǒng)一多點(diǎn)云、特征尺度和建模點(diǎn)云相互關(guān)系的三維目標(biāo)檢測)[12]在多表示、多尺度和變換器之間建立了關(guān)系,并在實(shí)驗(yàn)中證明關(guān)聯(lián)信息對檢測性能具有非常重要的作用。
另一方面,基于點(diǎn)的方法也可以用來預(yù)測目標(biāo)的三維邊界框。基于點(diǎn)的方法是對圖像數(shù)據(jù)進(jìn)行直接處理,采用自底而上的方式從圖像中提取點(diǎn)特征,然后將其組合以獲得整個(gè)物體的特征。這種范式可以直接從雜亂且密集的三維圖像場景中進(jìn)行目標(biāo)檢測,但存在模型復(fù)雜度較高的掣肘。PointNet[13]使用多層感知機(jī)和通道最大池化操作從無序的點(diǎn)集中學(xué)習(xí)全局特征,并在KITTI 數(shù)據(jù)集上取得不錯(cuò)的三維目標(biāo)檢測效果。而Point-Net++[14]是一種能夠從圖像中學(xué)習(xí)局部和全局特征的層次化網(wǎng)絡(luò),作為圖像檢測器中的基礎(chǔ)模塊,它廣泛用于各種網(wǎng)絡(luò)中語義特征的提取。Point-RCNN[15]采用兩階段的網(wǎng)絡(luò)設(shè)計(jì)直接在激光雷達(dá)圖像上進(jìn)行目標(biāo)檢測。模型在第一階段生成三維邊界框的候選提議,然后通過投票機(jī)制進(jìn)一步篩選效果出色的邊界框;在第二階段,模型利用PointNet++作為特征提取器,將這些特征與第一階段生成的候選提議進(jìn)行對齊和融合,進(jìn)而精細(xì)化地預(yù)測目標(biāo)的三維邊界框和目標(biāo)類別。
相對于基于點(diǎn)的方法嚴(yán)重依賴耗時(shí)的點(diǎn)算子,基于體素的方法使用稀疏卷積的效率更高。在基于體素的檢測模型中,三維稀疏卷積網(wǎng)絡(luò)是一個(gè)重要組成模塊。盡管三維卷積骨架具有優(yōu)越的效率,但在電力設(shè)備目標(biāo)檢測中,細(xì)長設(shè)備(如電線桿、輸電線路等)通常具有較長的空間結(jié)構(gòu),而感受野有限的卷積神經(jīng)網(wǎng)絡(luò)可能無法捕捉到這些細(xì)長設(shè)備的完整上下文信息,從而影響目標(biāo)檢測的準(zhǔn)確性。需要設(shè)計(jì)一種新的結(jié)構(gòu)來編碼更豐富的上下文信息。
最近在二維目標(biāo)分類[17]、檢測[18]和分割[19]等任務(wù)上的研究進(jìn)展表明,與卷積神經(jīng)網(wǎng)絡(luò)[20]相比,注意力網(wǎng)絡(luò)Transformer[21]架構(gòu)在視覺任務(wù)上更為有效。主要原因是注意力網(wǎng)絡(luò)Transformer 中的注意力機(jī)制可以建立二維像素之間的遠(yuǎn)程聯(lián)系。然而,直接將標(biāo)準(zhǔn)的Transformer 模塊應(yīng)用于三維圖像體素是不合適的,主要存在兩點(diǎn)原因:一是非空體素在體素網(wǎng)格中分布稀疏;二是三維場景中的非空體素雖然稀疏,但數(shù)量仍然較大,例如在Waymo 自動駕駛數(shù)據(jù)集中,每幀通常包含90k 個(gè)非空體素。因此,像標(biāo)準(zhǔn)的Transformer 網(wǎng)絡(luò)一樣應(yīng)用全連接的自注意力機(jī)制在計(jì)算上負(fù)荷巨大,急需新的方法來擴(kuò)大注意力范圍,同時(shí)保證Transformer 中的每個(gè)查詢嵌入所涉及的體素?cái)?shù)量較小來降低計(jì)算復(fù)雜度。
為了實(shí)現(xiàn)這一目標(biāo),本文提出體素注意力網(wǎng)絡(luò)來進(jìn)行三維圖像目標(biāo)檢測。體素注意力網(wǎng)絡(luò)能夠在三維體積像素層面高效應(yīng)用,同時(shí)可以作為主流三維卷積骨干網(wǎng)絡(luò)的更優(yōu)替代。針對非空體素的稀疏特性,本文提出了子流形體素模塊和稀疏體素模塊來作為體素注意力網(wǎng)絡(luò)的基本搭建模塊。子流形體素模塊嚴(yán)格操作在非空體素上來保證原始的三維圖像數(shù)據(jù)的幾何結(jié)構(gòu)不變;而稀疏體素模塊可以在空白體素位置上輸出特征,更加靈活且能進(jìn)一步擴(kuò)大非空體素空間。此外,為了解決非空體素進(jìn)行自注意力計(jì)算復(fù)雜度過高的問題,本文進(jìn)一步提出兩種注意力機(jī)制:局部注意力和空洞注意力來應(yīng)用在子流形體素模塊和稀疏體素模塊上。局部注意力關(guān)注鄰近區(qū)域以保留詳細(xì)特征信息;而空洞注意力通過逐漸增加搜索步長,可以在只涉及少數(shù)參與體素的情況下獲得更大的注意力范圍。為了驗(yàn)證模型的有效性,本文在目標(biāo)檢測通用數(shù)據(jù)集Waymo和KITTI以及云南省某輸變電區(qū)域?qū)嶋H圖像數(shù)據(jù)集上進(jìn)行測試。實(shí)驗(yàn)結(jié)果表明,基于局部注意力和空洞注意力的體素網(wǎng)絡(luò)的三維平均精度比主流的目標(biāo)檢測模型SA-SSD、Point-RCNN 和STD 的精度高,證明了本文所提出算法的優(yōu)越性。
本文面向稀疏圖像數(shù)據(jù)提出一種體素注意力網(wǎng)絡(luò)來求解目標(biāo)檢測任務(wù),該網(wǎng)絡(luò)可以應(yīng)用于所有基于體素的三維目標(biāo)檢測器。一方面,體素注意力網(wǎng)絡(luò)通過構(gòu)建稀疏體素模塊和子流形體素模塊來處理輸入圖像數(shù)據(jù)中的空白體素與非空體素。另一方面,該網(wǎng)絡(luò)利用局部注意力與空洞注意力機(jī)制進(jìn)行多頭注意力計(jì)算,捕獲體素間的近程與遠(yuǎn)程聯(lián)系。下面,本文將介紹體素注意力網(wǎng)絡(luò)的整體架構(gòu)和每個(gè)模塊的具體設(shè)計(jì)。
基于體素的三維目標(biāo)檢測過程如下:首先將三維圖像數(shù)據(jù)進(jìn)行體素化操作,形成稀疏的體素網(wǎng)格數(shù)據(jù);然后使用三維主干網(wǎng)絡(luò)進(jìn)行特征提取獲得豐富的三維信息,并轉(zhuǎn)換形成二維鳥瞰圖;接著利用傳統(tǒng)的二維檢測網(wǎng)絡(luò)和檢測頭在二維圖像上進(jìn)行檢測、定位,對目標(biāo)框進(jìn)行預(yù)測,最后將二維結(jié)果重新投影到三維中得到最終結(jié)果。這種方法相對簡單且易于實(shí)現(xiàn),同時(shí)也可以充分利用已有的二維目標(biāo)檢測算法和技術(shù)。本文針對三維主干網(wǎng)絡(luò),提出采用體素注意力網(wǎng)絡(luò)進(jìn)行高效目標(biāo)提取。主干網(wǎng)絡(luò)包含3個(gè)稀疏體素模塊和6個(gè)子流形體素模塊,如圖1所示。具體而言,稀疏體素模塊針對三維體素?cái)?shù)據(jù)進(jìn)行3倍下采樣,并在不同體素位置輸出特征。每個(gè)稀疏體素模塊后面放置2個(gè)子流形體素模塊,它們在擴(kuò)大感受野的基礎(chǔ)上,通過維持模塊輸入、輸出的非空體素位置相同來保證原始數(shù)據(jù)的三維流形相似。在這些模塊中都進(jìn)行多頭注意力計(jì)算,每個(gè)查詢體素由兩種精心設(shè)計(jì)的注意力機(jī)制確定:局部注意力和空洞注意力。他們用于捕獲體素?cái)?shù)據(jù)中的近程與遠(yuǎn)程聯(lián)系。之后,體素注意力網(wǎng)絡(luò)提取到的體素特征被映射為二維鳥瞰圖以便生成檢測框。值得注意的是,本文所提出的體素注意力主干網(wǎng)絡(luò)是靈活通用的,可以替換所有基于體素的三維檢測器網(wǎng)絡(luò)。
圖1 基于體素注意力網(wǎng)絡(luò)的圖像目標(biāo)檢測模型Fig.1 The image object detection model for power equipment based on SVGA-Net
本節(jié)詳細(xì)描述子流形體素模塊和稀疏體素模塊的設(shè)計(jì)過程。其中,子流形體素模塊與稀疏體素模塊的主要區(qū)別在于:子流形體素模塊嚴(yán)格地對非空體素進(jìn)行操作,即只在非空位置上進(jìn)行特征提取,從而保持三維場景的流形結(jié)構(gòu);而稀疏體素模塊可以在空白體素位置上進(jìn)行特征提取,并且可以根據(jù)需要擴(kuò)展原始的空白體素空間,展現(xiàn)了更強(qiáng)的靈活性。
1.2.1 面向稀疏體素的自注意力機(jī)制
定義一個(gè)包含Ndense個(gè)稠密體素和Nsparse個(gè)稀疏體素的立方網(wǎng)格來表示實(shí)際的三維場景,其中Nsparse遠(yuǎn)小于Ndense。在實(shí)際操作中,網(wǎng)絡(luò)使用Nsparse×3 的整數(shù)索引陣列Υ、Nsparse×d的對應(yīng)特征陣列Ψ來表示非空體素,其中d為所選擇的維度。在每個(gè)子流形體素模塊和稀疏體素模塊中,使用多頭注意力機(jī)制來構(gòu)建非空體素間的近程和遠(yuǎn)程聯(lián)系。給定查詢體素i,注意力范圍Ω(i)?Υ由所提出兩種注意力機(jī)制確定。同時(shí),網(wǎng)絡(luò)對參與注意力計(jì)算的體素j∈Ω(i)使用多頭注意力機(jī)制計(jì)算得到fattendi。定義fi、fj∈Ψ 分別為查詢體素和參與體素的特征,vi、vj∈?分別為查詢體素和參與體素的整數(shù)索引,網(wǎng)絡(luò)首先根據(jù)p=(v+0.5)r將索引vi、vj轉(zhuǎn)換為對應(yīng)真實(shí)體素的中心坐標(biāo)pi、pj,其中r為體素大小。之后,使用注意力機(jī)制計(jì)算得到查詢嵌入Qi、鍵嵌入Kj和值嵌入Vj為:
式中:Wq、Wk、Wv、Wpos表示可學(xué)習(xí)矩陣;Epos表示位置編碼矩陣。
式中:σ(?)表示Softmax 函數(shù);Qi表示查詢嵌入;Kj表示鍵嵌入;Vj表示值嵌入;d表示維度。上述注意力機(jī)制如圖2所示。
圖2 注意力機(jī)制示意圖Fig.2 Schematic diagram of the attention mechanism
1.2.2 子流形體素模塊
子流形體素模塊在輸入的非空體素的位置上進(jìn)行特征輸出,這間接保持了輸入流形的三維結(jié)構(gòu)。在該模塊中,引入兩個(gè)子層來捕獲每個(gè)非空體素的遠(yuǎn)程上下文信息。第一個(gè)子層是自注意力層,它結(jié)合了局部注意力和空洞注意力兩種機(jī)制;第二個(gè)子層使用了簡單的前饋層,并在每個(gè)子層之間進(jìn)行殘差連接。該模塊與標(biāo)準(zhǔn)的Transformer注意力模塊有三點(diǎn)差異:(1)前饋層后附加一個(gè)線性投影用于通道特征調(diào)整;(2)使用批歸一化代替層歸一化;(3)移除所有dropout 單元,因?yàn)閰⑴c注意力計(jì)算的體素?cái)?shù)量不多,隨機(jī)丟棄會妨礙整個(gè)的學(xué)習(xí)過程。
1.2.3 稀疏體素模塊
與子流形體素模塊只在非空體素上進(jìn)行操作不同,稀疏體素模塊在空白體素位置上進(jìn)行特征提取,這導(dǎo)致原始非空體素空間的擴(kuò)張,因而它通常需要降采樣過程。由于空白體素沒有可用的特征fi,因此網(wǎng)絡(luò)無法從特征fi中來獲取Qi。為了解決這個(gè)問題,本文從參與注意力計(jì)算的特征fj中對空白體素位置的查詢嵌入Qi進(jìn)行近似:
式中:Λ(?)為最大池化函數(shù);fi為參入注意力特征。之后,同樣使用式(3)進(jìn)行注意力機(jī)制計(jì)算。
稀疏體素模塊的架構(gòu)類似于子流形體素模塊,區(qū)別在于在前者缺少了自注意力層的一個(gè)殘差連接,如上所述,因?yàn)榇藭r(shí)稀疏體素模塊處理的空白體素沒有可用特征及降采樣等過程,輸入和輸出不再相同,因此刪除殘差連接。
注意力的計(jì)算范圍Ω(i)決定了每個(gè)查詢嵌入的參與體素i,并且是稀疏體素注意力中的關(guān)鍵因素。Ω(i)應(yīng)該滿足以下要求:(1)Ω(i)應(yīng)該覆蓋臨近體素以保證細(xì)粒度的三維結(jié)構(gòu);(2)Ω(i)應(yīng)該盡可能擴(kuò)展范圍來獲得大范圍的上下文信息;(3)Ω(i)中的參與體素應(yīng)該盡可能少以避免重負(fù)荷的計(jì)算開銷。為了滿足上述條件,本文提出兩種注意力機(jī)制:局部注意力機(jī)制和空洞注意力機(jī)制來控制注意力的計(jì)算范圍Ω(i)。
1.3.1 局部注意力
定義函數(shù)Θ(st,ed,se),它輸出閉區(qū)間[st,ed]中以步長se為間隔的非空索引。例如,在三維空間下,函數(shù)Θ((0,0,0),(1,1,1),(1,1,1))表示在集合{(0,0,0),(0,0,1),…,(1,1,1)}中搜索8個(gè)非空索引。在局部注意力機(jī)制中,給定一個(gè)查詢體素i,由Rlocal參數(shù)化的局部注意力范圍Ωlocal(i)可以被表示為:
在本文實(shí)驗(yàn)中Rlocal=(1,1,1)。局部注意力固定步長se為(1,1,1),以便在局部范圍Rlocal內(nèi)利用每個(gè)非空體素來保留整體的細(xì)粒度結(jié)構(gòu)。
1.3.2 空洞注意力
空洞注意力的范圍Ωdilated(i)可以由一組相互無關(guān)的參數(shù)列表:
Ωdilated(i)可以被表示為:
式中:表示集合減法運(yùn)算符;∪表示取所有非空集合的并集。
本節(jié)介紹所提出的體素注意力網(wǎng)絡(luò)在通用數(shù)據(jù)集Waymo和KITTI以及實(shí)際電網(wǎng)輸變電場景數(shù)據(jù)集的應(yīng)用效果。首先,介紹目標(biāo)檢測通用數(shù)據(jù)集和云南省某輸變電區(qū)域的三維圖像數(shù)據(jù)集;之后,介紹實(shí)驗(yàn)設(shè)置及網(wǎng)絡(luò)參數(shù)選擇;最后,將所提出網(wǎng)絡(luò)在以上三種數(shù)據(jù)集上與其他主流的目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn)并對結(jié)果進(jìn)行分析。
Waymo 數(shù)據(jù)集共包含1 000 個(gè)序列,其中訓(xùn)練集包含798 個(gè)序列(約158 000 個(gè)圖像樣本),測試集包含202 個(gè)序列(約40 000 個(gè)圖像樣本)。KITTI 數(shù)據(jù)集包含7 481 個(gè)訓(xùn)練樣本和7 518 個(gè)測試樣本。官方評估指標(biāo)都是使用閾值為0.7的旋轉(zhuǎn)交互比來計(jì)算三維平均精度。
對于實(shí)際電力數(shù)據(jù)集,本文選擇的是云南省某輸變電作業(yè)場景的三維圖像數(shù)據(jù)集。在該場景下,主要使用激光雷達(dá)進(jìn)行數(shù)據(jù)采集。該數(shù)據(jù)集包含斷路器、避雷器、GIS 進(jìn)線套管、電容、電感、電壓互感器、電流互感器、作業(yè)人員共8種對象。每個(gè)對象的圖像實(shí)例數(shù)量如表1所示。
表1 云南省某輸變電場景圖像實(shí)例數(shù)量Table 1 Number of image instances in a transmission and transformation scene in Yunnan province
在Waymo和KITTI數(shù)據(jù)集上,本文隨機(jī)選擇5 000個(gè)圖像樣本用于訓(xùn)練,并在測試集中隨機(jī)選擇1 000 個(gè)圖像樣本用于測試。網(wǎng)絡(luò)的學(xué)習(xí)率取0.01,批大小為32,總共進(jìn)行100輪訓(xùn)練。對于云南省某輸變電場景圖像數(shù)據(jù)集,隨機(jī)選擇90%用于訓(xùn)練,余下10%用于測試。網(wǎng)絡(luò)的學(xué)習(xí)率為0.003,批大小為32,總共進(jìn)行250 次訓(xùn)練。在三種數(shù)據(jù)集上,網(wǎng)絡(luò)均使用Adam 優(yōu)化器進(jìn)行優(yōu)化。本文所有的算法都是基于Pytorch深度學(xué)習(xí)框架使用Python3.8.0 進(jìn)行實(shí)現(xiàn)的,所有實(shí)驗(yàn)都是在Intel Core i7-12700KF 處理器和英偉達(dá)GeForce RTX 3070顯卡上進(jìn)行的。
首先在Waymo公開數(shù)據(jù)集上與主流目標(biāo)檢測方法進(jìn)行對比實(shí)驗(yàn)以評價(jià)所提出注意力網(wǎng)絡(luò)的有效性。根據(jù)Waymo數(shù)據(jù)集官方劃分,分別列出難度為簡單、中等和困難三類測試樣本的三維平均精度,結(jié)果如表2所示。可以看出,在簡單類圖像數(shù)據(jù)上,所提出算法取得89.82%的平均精度,比SA-SSD 高出1.40 個(gè)百分點(diǎn);在中等類圖像數(shù)據(jù)上,所提出算法取得82.06%的平均精度,比經(jīng)典的Point-RCNN 高出6.75 個(gè)百分點(diǎn);在困難類圖像數(shù)據(jù)上,所提出的算法取得79.03%的平均精度,比通用的STD模型高出7.32個(gè)百分點(diǎn)。
表2 本文算法與其他算法在Waymo數(shù)據(jù)集上的三維平均精度Table 2 Three-dimensional average precisions of the proposed algorithm and other algorithms on the Waymo dataset %
其次,在KITTI 公開數(shù)據(jù)集上與主流目標(biāo)檢測算法進(jìn)行對比實(shí)驗(yàn)。同樣地,根據(jù)KITTI 數(shù)據(jù)集中的官方劃分,圖像數(shù)據(jù)按照檢測難度分為簡單類、中等類和困難類共三類。實(shí)驗(yàn)結(jié)果如表3所示。在簡單類圖像數(shù)據(jù)上,本文所提算法的三維平均精度為89.01%,比SA-SSD高出0.71個(gè)百分點(diǎn);在中等類圖像數(shù)據(jù)上,本文所提算法的平均精度為83.98%,比經(jīng)典的Point-RCNN 高出9.16個(gè)百分點(diǎn);在困難類圖像數(shù)據(jù)上,本文所提算法的平均精度為78.49%,比通用的STD 高出7.22個(gè)百分點(diǎn)。這證明了所提出的體素注意力網(wǎng)絡(luò)在求解三維圖像目標(biāo)檢測任務(wù)上的有效性。
表3 本文算法與其他算法在KITTI數(shù)據(jù)集上的三維平均精度Table 3 Three-dimensional average precisions of the proposed algorithm and other algorithms on the KITTI dataset %
最后,在云南省某輸變電作業(yè)場景圖像數(shù)據(jù)集上進(jìn)行實(shí)際目標(biāo)檢測測試,并與SA-SSD、Point-RCNN 和STD 這三種優(yōu)秀算法進(jìn)行比較,結(jié)果如表4所示??梢郧逦闯觯岢龅捏w素注意力網(wǎng)絡(luò)取得最高的平均精度88.06%并占用最小的模型空間25.23 MB,與上述三種模型相比,綜合性能較強(qiáng)。
表4 不同算法綜合性能比較Table 4 Comprehensive performance comparison of different algorithms
同時(shí),針對稀疏體素模塊和子流形體素模塊進(jìn)行消融實(shí)驗(yàn),去除上述模塊后,性能退化為與VoxelNet 相當(dāng),稀疏體素模塊相比較于子流形體素模塊缺少殘差網(wǎng)絡(luò)連接,可以擴(kuò)大原有的非空體素空間特征,具有更強(qiáng)的靈活性,但對特征提取的性能提升影響較弱,子流形體素模塊嚴(yán)格作用于非空體素,是特征提取的主要模塊。
為了更清晰地展示上述四種模型在電網(wǎng)實(shí)際數(shù)據(jù)集上的表現(xiàn),本文展示模型在不同訓(xùn)練階段的三維平均精度,如圖3 所示。50 輪訓(xùn)練后,三維平均精度達(dá)到60%以上;100 輪訓(xùn)練之后,三維平均精度達(dá)到75%以上;200 輪訓(xùn)練之后,三維平均精度穩(wěn)定在80%之上,超過其他三種模型,并在最終達(dá)到88.06%。
圖3 模型精度效果Fig.3 Model accuracy performance
選取輸變電場景的三維圖像數(shù)據(jù)集中的兩個(gè)場景進(jìn)行可視化。如圖4及圖5所示,GIS進(jìn)線套管、避雷器、人員、斷路器、電流互感器等設(shè)備均被檢測出來。證明本文所提出的算法可以有效地應(yīng)用于實(shí)際場景的目標(biāo)檢測中。
圖4 電力設(shè)備及人員目標(biāo)檢測效果圖Fig.4 Illustration of object detection for power equipment and personnel
圖5 電力設(shè)備目標(biāo)檢測效果圖Fig.5 Illustration of object detection for power equipment
本文基于一種體素注意力網(wǎng)絡(luò)對三維圖像數(shù)據(jù)進(jìn)行目標(biāo)檢測。一方面,針對稀疏圖像數(shù)據(jù),網(wǎng)絡(luò)精心設(shè)計(jì)稀疏體素模塊和子流形體素模塊來分別提取稀疏圖像和稠密圖像特征。另一方面,針對傳統(tǒng)注意力網(wǎng)絡(luò)對圖像所有區(qū)域做信息交互而導(dǎo)致計(jì)算復(fù)雜度高的問題,本文所提出網(wǎng)絡(luò)分別基于局部注意力機(jī)制和空洞注意力機(jī)制,使模型捕獲圖像近程和遠(yuǎn)程的特征聯(lián)系,同時(shí)保證較低的計(jì)算量。為驗(yàn)證所提出算法的有效性,本文在公開數(shù)據(jù)集Waymo和KITTI以及輸變電真實(shí)場景圖像數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提出的體素注意力網(wǎng)絡(luò)在各數(shù)據(jù)集上的精度比主流的SA-SSD、Point-RCNN 和STD 高出最少1.40 個(gè)百分點(diǎn)。未來將進(jìn)一步研究本文所提出的目標(biāo)檢測模型在更多電力場景中的應(yīng)用。