楊 軍,李博贊
(1.蘭州交通大學(xué) 測(cè)繪與地理信息學(xué)院,甘肅 蘭州730070;2.蘭州交通大學(xué) 自動(dòng)化與電氣工程學(xué)院,甘肅 蘭州730070)
近年來(lái),3D掃描技術(shù)的發(fā)展促進(jìn)了智能駕駛[1-2]和增強(qiáng)現(xiàn)實(shí)[3]等新技術(shù)的應(yīng)用,對(duì)場(chǎng)景的準(zhǔn)確理解已成為人工智能領(lǐng)域的主要研究方向。為結(jié)合三維模型表面細(xì)節(jié)信息從而提高分割精度,研究人員利用二維圖像分割算法處理規(guī)則數(shù)據(jù)的優(yōu)勢(shì),將一組點(diǎn)云投影為二維圖像便于學(xué)習(xí)點(diǎn)云特征,并將像素級(jí)語(yǔ)義標(biāo)簽反投影到點(diǎn)云獲得分割結(jié)果[4]。但是,多視圖方法會(huì)不可避免地丟失某些具有鑒別力的幾何信息,并且投影視角的選擇也需要豐富的先驗(yàn)知識(shí)。直接處理點(diǎn)云數(shù)據(jù)的方法能夠利用點(diǎn)云固有信息且不增加額外操作,可以充分獲取點(diǎn)云所有信息。然而,原始點(diǎn)云具有不規(guī)則、稀疏和無(wú)序結(jié)構(gòu)等特點(diǎn),需要構(gòu)建局部鄰域圖或轉(zhuǎn)化為規(guī)則結(jié)構(gòu)才能直接利用?;隗w素[5]的方法將點(diǎn)云規(guī)則化為網(wǎng)格結(jié)構(gòu),很大程度上保留了物體的幾何信息,但該結(jié)構(gòu)仍然無(wú)法細(xì)分物體邊界的幾何信息。此外,該結(jié)構(gòu)通常受到存儲(chǔ)器的嚴(yán)格限制,高分辨率會(huì)消耗巨大的計(jì)算和存儲(chǔ)成本,低分辨率則容易出現(xiàn)嚴(yán)重的信息丟失問(wèn)題。稀疏卷積[6]雖然能夠減少內(nèi)存占用,但為了獲得更大的感受野,在低分辨率操作下多個(gè)類(lèi)別會(huì)合并到一個(gè)網(wǎng)格從而影響分割結(jié)果。基于逐點(diǎn)的方法[7-9]雖然便于獲取局部幾何信息,但只有部分幾何信息對(duì)物體整體結(jié)構(gòu)具有判別性,點(diǎn)的絕對(duì)位置信息和點(diǎn)對(duì)間的相對(duì)位置信息缺乏描述物體高級(jí)全局幾何結(jié)構(gòu)的能力,而且網(wǎng)絡(luò)運(yùn)行消耗大量時(shí)間用于構(gòu)建局部點(diǎn)云數(shù)據(jù),導(dǎo)致時(shí)間成本上升。
針對(duì)上述問(wèn)題,本文提出了基于自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)(Self-attention Feature Fusion Group Convolutional Neural Network,SAFFGCNN)的點(diǎn)云細(xì)粒度分析方法。引入Transformer模塊將全局單點(diǎn)特征和局部幾何特征進(jìn)行融合,提高特征的豐富性。提出了一種輕量級(jí)的圖卷積運(yùn)算——代理點(diǎn)圖卷積,獲得深層細(xì)粒度的幾何特征,能夠簡(jiǎn)化邊緣卷積操作降低內(nèi)存消耗,對(duì)語(yǔ)義特征和局部幾何特征進(jìn)行編碼,增強(qiáng)特征局部的上下文信息。通過(guò)多尺度策略不斷擴(kuò)大局部鄰域感受野以學(xué)習(xí)局部幾何特征,增強(qiáng)網(wǎng)絡(luò)泛化能力,有利于捕獲高級(jí)語(yǔ)義的上下文細(xì)粒度特征。此外,多尺度點(diǎn)云特征拼接后輸入到分割模塊,可以提高網(wǎng)絡(luò)分割精度。
目前,三維模型語(yǔ)義分割主要有基于投影、基于體素和基于點(diǎn)云三類(lèi)方法。投影方法利用多視圖表示場(chǎng)景物體表面信息,為提高分割效率,基于距離圖像的球面投影方法被提出。體素方法將點(diǎn)云轉(zhuǎn)化為密集體素網(wǎng)格表示,為了適應(yīng)點(diǎn)云稀疏性和密度變化,用稀疏體素網(wǎng)格表示點(diǎn)云場(chǎng)景。點(diǎn)云方法直接對(duì)點(diǎn)云進(jìn)行卷積操作,可以有效獲取點(diǎn)云數(shù)據(jù)的本征屬性,主要有基于遞歸神經(jīng)網(wǎng)絡(luò)、構(gòu)建點(diǎn)云卷積核和基于圖網(wǎng)絡(luò)三類(lèi)方法。
由于點(diǎn)云的不規(guī)則性,許多研究首先將點(diǎn)云投影為鳥(niǎo)瞰圖像或距離圖像,再用二維卷積操作進(jìn)行學(xué)習(xí)。Lawin等[4]首先從多個(gè)虛擬視角將點(diǎn)云投影到2D平面上,然后使用全連接層進(jìn)行像素級(jí)語(yǔ)義分割,并將每張圖像的分割結(jié)果反投影到點(diǎn)云進(jìn)行融合得到點(diǎn)的語(yǔ)義標(biāo)簽。Milioto等[12]利用球面投影方法將點(diǎn)云轉(zhuǎn)換為距離圖像,并在圖像上進(jìn)行二維全卷積操作;為修正反投影后物體邊緣部位的分割結(jié)果,在點(diǎn)云上利用高效的k近鄰搜索解決遮擋問(wèn)題。徐等[13]在Squeeze-Seg模型[14]結(jié)構(gòu)基礎(chǔ)上設(shè)計(jì)空間自適應(yīng)卷積,它具有空間適應(yīng)性和內(nèi)容感知的能力,解決了標(biāo)準(zhǔn)卷積應(yīng)用于LiDAR圖像導(dǎo)致的網(wǎng)絡(luò)性能下降的問(wèn)題。
基于投影的方法的核心是將點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為規(guī)則的二維圖像,利用現(xiàn)有成熟的二維卷積算法提取三維模型的表面細(xì)節(jié)信息。但該類(lèi)方法主要存在兩點(diǎn)缺陷:一是模型的部分表面細(xì)節(jié)信息會(huì)由于物體遮擋而消失;二是經(jīng)投影后產(chǎn)生的圖像中物體可能會(huì)出現(xiàn)扭曲現(xiàn)象,從而影響模型表面細(xì)節(jié)信息的獲取。
體素化的方法通常將點(diǎn)云轉(zhuǎn)變?yōu)槊芗W(wǎng)格,然后利用標(biāo)準(zhǔn)的3D卷積處理。黃等[5]在網(wǎng)絡(luò)訓(xùn)練時(shí)將點(diǎn)云生成為一組占位體素網(wǎng)格,其標(biāo)簽由周?chē)鷨卧?lèi)別決定,然后將它輸入到3D CNN進(jìn)行體素分割,將推斷的體素結(jié)果映射回原始點(diǎn)云產(chǎn)生逐點(diǎn)標(biāo)簽。Graham等[6]提出了子流形稀疏卷積網(wǎng)絡(luò),通過(guò)哈希表構(gòu)建稀疏矩陣的索引關(guān)系,卷積的輸出只與被占用的體素相關(guān),內(nèi)存占用和計(jì)算成本大大減少,并且能夠確保卷積網(wǎng)絡(luò)的空間稀疏性不會(huì)消失,避免出現(xiàn)子流行膨脹問(wèn)題。Choy等[15]提出一種用于時(shí)空三維點(diǎn)云數(shù)據(jù)的4D稀疏卷積網(wǎng)絡(luò),并創(chuàng)建了稀疏張量自動(dòng)微分的開(kāi)源庫(kù)。所提出的廣義稀疏卷積能夠有效處理高維數(shù)據(jù),顯著降低傳統(tǒng)3D卷積核計(jì)算成本,且該卷積核對(duì)于立方體結(jié)構(gòu)的物體識(shí)別能力更強(qiáng)。
體素表示一定程度上保留了點(diǎn)云的鄰域結(jié)構(gòu),其數(shù)據(jù)格式能夠直接運(yùn)用標(biāo)準(zhǔn)3D卷積進(jìn)行學(xué)習(xí)。然而,體素化不可避免地丟失了細(xì)粒度幾何信息。為了解決信息丟失等問(wèn)題,需要提高體素分辨率,而此操作易導(dǎo)致計(jì)算成本高和內(nèi)存占用大等問(wèn)題。雖然稀疏卷積能夠處理更小的網(wǎng)格結(jié)構(gòu)且具有良好的性能,但是依然需要進(jìn)行計(jì)算效率和體素比例的權(quán)衡。
PointNet[16]和PointNet++[17]開(kāi) 創(chuàng) 了 基 于 多層感知機(jī)對(duì)點(diǎn)云直接進(jìn)行操作的先例。蔣等[18]將編碼-解碼結(jié)構(gòu)引入3D點(diǎn)云分割網(wǎng)絡(luò)中,在解碼器部分建立邊分支以提供上下文信息,通過(guò)分層圖設(shè)計(jì)使特征信息由粗糙到細(xì)致。黨等[19]提出分層并行組卷積,可以同時(shí)捕捉點(diǎn)云的區(qū)分性獨(dú)立單點(diǎn)特征和局部幾何特征,以較少的冗余信息增強(qiáng)特征的豐富性,提高網(wǎng)絡(luò)識(shí)別復(fù)雜類(lèi)別的能力。胡等[20]提出了一種高效、輕量級(jí)的Rand-LA-Net網(wǎng)絡(luò),通過(guò)局部特征聚集模塊擴(kuò)大k近鄰點(diǎn)搜索范圍來(lái)減少信息損失,并利用隨機(jī)采樣降低了存儲(chǔ)成本,提高了計(jì)算效率。Landrieu等[21]將點(diǎn)云通過(guò)一系列相互聯(lián)系的簡(jiǎn)單形狀構(gòu)成超點(diǎn),其屬性有向圖能夠捕獲豐富的上下文信息和幾何信息,同時(shí)超點(diǎn)能夠大大減少點(diǎn)云中點(diǎn)的數(shù)目,使網(wǎng)絡(luò)應(yīng)用于大規(guī)模點(diǎn)云數(shù)據(jù)集。
直接處理和分析點(diǎn)云的方法需要獲取更精細(xì)的點(diǎn)云特征,才能達(dá)到細(xì)粒度點(diǎn)云分割任務(wù)的要求,但現(xiàn)有方法缺乏分辨相似物體幾何特征和局部細(xì)節(jié)結(jié)構(gòu)的能力,對(duì)于具有抽象語(yǔ)義識(shí)別能力的高級(jí)全局結(jié)構(gòu)信息缺乏考慮。此外,沒(méi)有考慮全局單點(diǎn)特征和低級(jí)局部幾何特征的聯(lián)系。
在自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)中,通過(guò)學(xué)習(xí)全局特征和局部幾何特征的深層隱含關(guān)系,獲得具有抽象語(yǔ)義識(shí)別能力的高級(jí)全局單點(diǎn)特征,提高了網(wǎng)絡(luò)在復(fù)雜環(huán)境下的物體分割能力。首先,通過(guò)MLP和代理點(diǎn)圖卷積獲得全局特征和局部幾何特征,加入組卷積操作減少冗余特征信息,獲得具有鑒別性的特征。其次,利用Transformer特征融合模塊增強(qiáng)不同特征間的聯(lián)系,獲得細(xì)粒度上下文信息。最后,通過(guò)多尺度特征融合擴(kuò)大感受野獲得全局高級(jí)單點(diǎn)特征。
本文的全局-局部組卷積由兩部分組成:MLP組卷積和代理點(diǎn)圖組卷積。
MLP組卷積在減少計(jì)算復(fù)雜度和網(wǎng)絡(luò)參數(shù)量的同時(shí),特征豐富性會(huì)因?yàn)榻M卷積產(chǎn)生的分組操作而降低。為了加強(qiáng)組間信息交流,將不同分組特征進(jìn)行融合,以保證MLP組卷積層輸出特征的有效性。
組卷積操作先將每層的MLP分為N組,表示為其中l(wèi)為第l個(gè)卷積層。再對(duì)輸入特征進(jìn)行MLP組卷積提取各個(gè)分組特征。第一組特征是第一組原始特征經(jīng)過(guò)組卷積后的新特征,其余組特征為前一組新特征和自身經(jīng)過(guò)組卷積后的新特征融合得到的結(jié)果。將所有分組的全局特征進(jìn)行拼接操作得到MLP組卷積模塊在該層的輸出。MLP組卷積第l層的輸出結(jié)果如下:式中為第l層各組的全局單點(diǎn)特征為MLP組卷積在第l層輸出的全局單點(diǎn)特征。
MLP組卷積雖然能夠捕獲獨(dú)立的單點(diǎn)特征,但對(duì)幾何信息的獲取存在局限性。局部幾何信息包含點(diǎn)的位置信息以及點(diǎn)的相對(duì)位置,對(duì)于物體細(xì)粒度分割起到至關(guān)重要的作用。
本文以邊緣卷積為出發(fā)點(diǎn)設(shè)計(jì)代理點(diǎn)圖組卷積,將特征空間上的k近鄰搜索轉(zhuǎn)變?yōu)樵谠键c(diǎn)云空間中的k近鄰搜索。原始點(diǎn)云空間中點(diǎn)的位置是固定不變的,k近鄰圖能更好地表征物體的空間結(jié)構(gòu)信息,獲得更具鑒別性的局部幾何特征信息。同時(shí),由于原始點(diǎn)云位置是固定的,在特征空間上構(gòu)造k近鄰圖無(wú)需重新計(jì)算,解決了計(jì)算代價(jià)大的問(wèn)題。k近鄰圖的鄰域點(diǎn)在空間內(nèi)接近,特征的豐富性差異小,為了保留關(guān)鍵幾何特征信息,將k近鄰點(diǎn)特征進(jìn)行平均操作賦值到代理點(diǎn),使用代理點(diǎn)和中心點(diǎn)進(jìn)行幾何信息學(xué)習(xí)。通過(guò)對(duì)全部卷積層共享空間鄰接矩陣以減少內(nèi)存消耗和計(jì)算開(kāi)銷(xiāo),能夠使特征映射的內(nèi)存消耗從O(n×h×d)減少到O(n×d),大大提高了圖卷積提取幾何特征的效率。邊緣卷積與代理點(diǎn)圖組卷積的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 邊緣卷積與代理點(diǎn)圖組卷積網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structures of edge convolution and proxy point graph group convolution
為了在原始點(diǎn)云空間進(jìn)行k近鄰搜索,首先要計(jì)算圖的空間鄰接矩陣G∈RN×N,其元素表示一組點(diǎn)在圖中是否相鄰。為計(jì)算鄰接矩陣G,需要計(jì)算點(diǎn)i和點(diǎn)j之間的歐氏距離D i,j:
式中p i∈R3和p j∈R3是兩個(gè)坐標(biāo)向量。將G中每一行的元素進(jìn)行二值化,k個(gè)最小的元素設(shè)為1,其余元素設(shè)為0,以此得到空間鄰接矩陣G∈RN×N。
其次,通過(guò)矩陣乘法求得局部鄰域的特征平均值,并將該特征值視為代理點(diǎn)特征,公式如下:
式中:y∈RN×d是由MLP組卷積獲得的點(diǎn)云全局特征,k為中心點(diǎn)i的鄰域點(diǎn)數(shù)目,Z為生成的代理點(diǎn)特征,其中Z i為第i個(gè)代理點(diǎn)的特征。
然后,使用中心點(diǎn)和代理點(diǎn)來(lái)計(jì)算局部幾何信息得到新的聚合特征,定義如下:
式中:f i為生成的第i個(gè)點(diǎn)幾何特征,y i為第i個(gè)點(diǎn)的全局單點(diǎn)特征,ReLU為激活函數(shù),gΘ:Rd→Rd是具有可學(xué)習(xí)參數(shù)Θ的非線(xiàn)性函數(shù)。最后,通過(guò)在生成的幾何特征上融合輸入點(diǎn)的全局特征來(lái)定義局部幾何特征,即:
式中Y i為第i個(gè)點(diǎn)最終的局部幾何特征。
經(jīng)過(guò)全局-局部組卷積模塊后,全局上下文特征和局部幾何特征的豐富性得到了增強(qiáng),但是組卷積內(nèi)部同層不同組之間缺乏信息交流,而且不同組卷積模塊之間沒(méi)有信息傳播,缺乏具有高級(jí)語(yǔ)義的局部上下文信息。因此,本文通過(guò)Transformer的自注意力機(jī)制獲得具有高級(jí)語(yǔ)義識(shí)別能力的特征。由于自注意力機(jī)制輸入為離散標(biāo)記組成的序列,各分支特征被視為集合,其中每個(gè)1×1×C維特征等同于集合中的元素,并視為一個(gè)標(biāo)記。分支以不同的關(guān)注方向?qū)?chǎng)景進(jìn)行編碼,根據(jù)特征間的自注意力系數(shù)融合其他組的特征,使更新后的每組特征包含來(lái)自其他組的特征,利用不同特征的互補(bǔ)性促進(jìn)模塊之間的信息交流,加強(qiáng)特征間的語(yǔ)義聯(lián)系。全局-局部特征的Transformer自注意力融合操作如圖2所示。
圖2 全局-局部特征的Transformer自注意力融合Fig.2 Transformer self-attention fusion of global-local features
為了減輕Transformer網(wǎng)絡(luò)計(jì)算代價(jià),將較高分辨率的分支特征做平均池化下采樣處理為H×W×C的三維張量,再將兩者疊加形成維度為(2×H×W)×C的輸入張量,并嵌入一個(gè)維度一致的可訓(xùn)練位置參數(shù),使網(wǎng)絡(luò)在訓(xùn)練時(shí)能夠理解不同標(biāo)記之間的空間位置關(guān)系。自注意力輸出特征根據(jù)輸入張量的位置關(guān)系重新劃分為兩個(gè)H×W×C的特征圖,并通過(guò)雙線(xiàn)性插值上采樣到原始分辨率,再與原始分支特征逐元素求和。多次實(shí)驗(yàn)結(jié)果表明,特征圖分辨率為H=W=8時(shí)效果最佳。
特征圖上的自注意力操作類(lèi)似于將Transformer應(yīng)用于圖像的工作[10-11]。設(shè)輸入序列表示為Fin∈RN×Df,其中N是序列中的標(biāo)記數(shù),每個(gè)標(biāo)記由維數(shù)為D f的特征向量表示。首先,Transformer模塊使用線(xiàn)性投影來(lái)計(jì)算出每個(gè)標(biāo)記的一組查詢(xún)向量Q、關(guān)鍵向量K和值向量V,計(jì)算公式為:
式中:B Q∈RDf×d k,B K∈RDf×d k和B V∈RDf×d v都是權(quán)重矩陣,目的在于將輸入特征映射到不同高維空間,增強(qiáng)模型表達(dá)能力,更好地捕獲Q,K和V之間的語(yǔ)義級(jí)別聯(lián)系。
其次,通過(guò)當(dāng)前查詢(xún)向量Q和所有關(guān)鍵向量K之間的點(diǎn)積計(jì)算自注意力權(quán)重,將所有值向量和相應(yīng)權(quán)重相乘并求和,得到該特征向量標(biāo)記最終的自注意力輸出結(jié)果,計(jì)算公式如下:式中:D K用于在訓(xùn)練過(guò)程中保持梯度值穩(wěn)定,防止Softmax(QKT)結(jié)果過(guò)大,導(dǎo)致梯度變小不利于反向傳播;Softmax函數(shù)用于確保所有自注意力權(quán)重的和為1。
最后,Transformer模塊使用MLP將自注意結(jié)果映射到與Fin同一維度,并計(jì)算輸出特征,即:
輸出特征Fout與輸入特征Fin具有相同的維度。
本文構(gòu)建的自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖3所示,主要由3個(gè)模塊組成:MLP組卷積、代理點(diǎn)圖組卷積和Transformer特征融合模塊。點(diǎn)云輸入到網(wǎng)絡(luò)前進(jìn)行下采樣操作處理保證網(wǎng)絡(luò)訓(xùn)練過(guò)程中能夠收斂,選擇最遠(yuǎn)點(diǎn)采樣(Farthest Point Sampling,F(xiàn)PS)對(duì)場(chǎng)景進(jìn)行均勻采樣,保留點(diǎn)云的原始空間結(jié)構(gòu)。在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中,為了獲取全局單點(diǎn)特征和細(xì)粒度的幾何特征,通過(guò)MLP組卷積和代理點(diǎn)圖組卷積分別提取全局特征和局部幾何特征。然后,通過(guò)Transformer特征融合模塊將全局單點(diǎn)特征和局部幾何特征進(jìn)行融合并增強(qiáng),提高網(wǎng)絡(luò)識(shí)別復(fù)雜形狀物體的能力。為了提高分割準(zhǔn)確率,將上一次下采樣后的特征映射結(jié)果輸入本次下采樣后的點(diǎn)云中來(lái)增加不同尺度局部區(qū)域的感受野,從而獲得具有高級(jí)語(yǔ)義的上下文細(xì)粒度特征。最后,將不同下采樣的特征映射進(jìn)行拼接,對(duì)它進(jìn)行全局平均池化操作加強(qiáng)特征映射和類(lèi)別之間的關(guān)聯(lián),使獲得的形狀級(jí)別的全局特征映射更加接近語(yǔ)義類(lèi)別信息。
圖3 自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)Fig.3 Self-attention feature fusion group convolutional neural network
為了獲取每個(gè)點(diǎn)的點(diǎn)級(jí)別標(biāo)簽,分割模塊需將全局特征映射從形狀級(jí)別傳播到點(diǎn)級(jí)別。通過(guò)第一次插值后的特征與對(duì)應(yīng)點(diǎn)的原始特征相結(jié)合獲得M個(gè)點(diǎn)的點(diǎn)級(jí)特征,將點(diǎn)級(jí)特征輸入到多個(gè)MLP層和SeLU層獲得降維后點(diǎn)級(jí)特征,再通過(guò)第二次插值將M個(gè)點(diǎn)的點(diǎn)級(jí)特征傳播到原始點(diǎn)云,得到原始點(diǎn)云空間中所有點(diǎn)的新特征。使用兩個(gè)疊加的全連接層對(duì)點(diǎn)云特征進(jìn)行分類(lèi),輸出N×B特征矩陣,其中N為原始空間內(nèi)所有的點(diǎn),B為每個(gè)點(diǎn)對(duì)應(yīng)于每個(gè)類(lèi)別的分?jǐn)?shù)。每個(gè)點(diǎn)選取得分最高的類(lèi)別作為其語(yǔ)義標(biāo)簽,由此獲得點(diǎn)云場(chǎng)景的語(yǔ)義分割結(jié)果。
為了測(cè)試SAFFGCNN對(duì)點(diǎn)云的細(xì)粒度形狀分析的有效性,在兩個(gè)大規(guī)模語(yǔ)義分割數(shù)據(jù)集S3DIS[22]和SemantiKITTI[23]上 評(píng) 估 了 網(wǎng) 絡(luò) 模 型性能。實(shí)驗(yàn)中,在32 GB內(nèi)存、Intel i7 8700k CPU和GeForce RTX 2080Ti圖形處理器的工作站上通過(guò)TensorFlow-GPU訓(xùn)練模型,操作系統(tǒng)為L(zhǎng)inux Ubuntu 16.04。SAFFGCNN的訓(xùn)練過(guò)程采用基于動(dòng)量的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化算法,采用Adam優(yōu)化算法更新SGD步長(zhǎng)。
S3DIS[22]數(shù)據(jù)集由來(lái)自3個(gè)不同建筑的6個(gè)大型室內(nèi)區(qū)域共計(jì)271個(gè)房間組成,每個(gè)房間都由一個(gè)中等大小的密集點(diǎn)云組成(約20 m×15 m×5 m),共標(biāo)注了13個(gè)類(lèi)別。實(shí)驗(yàn)中使用標(biāo)準(zhǔn)的6重交叉驗(yàn)證。
SemanticKITTI[23]數(shù)據(jù)集是目前最大的具有點(diǎn)級(jí)注釋的激光雷達(dá)序列數(shù)據(jù)集,包含了復(fù)雜的室外交通場(chǎng)景,由43 552個(gè)密集注釋激光雷達(dá)掃描組成22個(gè)序列,共包含19個(gè)有效類(lèi)別。實(shí)驗(yàn)中,數(shù)據(jù)集中序列00~10作為訓(xùn)練集(其中序列08用作驗(yàn)證集),序列11~21作為測(cè)試集。
平均交并比(mean Intersection over Union,mIoU)作為實(shí)驗(yàn)結(jié)果的主要評(píng)估指標(biāo),其公式如下:
總體準(zhǔn)確率(Overall Accuracy,OA)作為實(shí)驗(yàn)結(jié)果的參考評(píng)估指標(biāo),用正確預(yù)測(cè)分類(lèi)的點(diǎn)數(shù)和總體點(diǎn)數(shù)的比值表示:
4.2.1 S3DIS數(shù)據(jù)集上的評(píng)估分析
為了驗(yàn)證本文算法的有效性,在S3DIS數(shù)據(jù)集上進(jìn)行了分割對(duì)比實(shí)驗(yàn),結(jié)果如表1所示。
表1 S3DIS數(shù)據(jù)集上不同方法的分割精度對(duì)比(六重交叉驗(yàn)證)T ab.1 Comparison of segmentation accuracy of different approaches on S3DIS dataset(6-fold cross-validation)
本文算法在13個(gè)類(lèi)別中的11個(gè)類(lèi)別上獲得了最佳分割精度結(jié)果,尤其在光束、桌子、椅子和雜亂物體等類(lèi)別上具有更好的分割精度。Point Transformer[24]設(shè)計(jì)自注意力層提取點(diǎn)云鄰域特征,能夠獲得充分的全局單點(diǎn)特征,但通過(guò)MLP獲得的位置信息主要用于生成查詢(xún)向量,僅簡(jiǎn)單描述點(diǎn)對(duì)之間的相對(duì)位置關(guān)系,缺乏對(duì)幾何特征的進(jìn)一步提取,網(wǎng)絡(luò)捕獲高級(jí)局部幾何特征信息的能力弱。本文通過(guò)代理點(diǎn)圖組卷積能夠獲得細(xì)粒度的幾何特征信息,引入自注意力機(jī)制探究全局特征和局部幾何特征之間的聯(lián)系,使網(wǎng)絡(luò)具備識(shí)別物體全局結(jié)構(gòu)的能力,mIoU和OA分別提高了5.8%和2.9%。KPConv[25]手工設(shè)計(jì)固定數(shù)目的核心點(diǎn)學(xué)習(xí)局部鄰域點(diǎn)特征,但手工制作的核心點(diǎn)組合并不是最佳的,需要根據(jù)數(shù)據(jù)集或網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化。此外,在網(wǎng)絡(luò)中加入核心點(diǎn)位置偏移訓(xùn)練使球體擬合三維點(diǎn)云局部幾何結(jié)構(gòu),無(wú)法從根本上解決卷積缺乏靈活性的問(wèn)題,不能夠模擬復(fù)雜三維場(chǎng)景中物體的位置變化。本文利用原始點(diǎn)云構(gòu)造圖結(jié)構(gòu),能夠靈活且高效模擬點(diǎn)云的復(fù)雜空間變化和幾何結(jié)構(gòu),而且Transformer模塊能夠通過(guò)特征間關(guān)聯(lián)獲得局部上下文細(xì)粒度的幾何結(jié)構(gòu)信息,mIoU和OA分別提高了8.7%和0.2%。
從圖4分割可視化結(jié)果中可以看出,網(wǎng)絡(luò)增強(qiáng)了識(shí)別細(xì)節(jié)采樣點(diǎn)幾何信息的能力,能夠更加準(zhǔn)確地確定物體的邊界范圍,使本文算法的分割結(jié)果接近于真實(shí)標(biāo)簽。圖4中虛線(xiàn)圓圈標(biāo)記為分割結(jié)果不理想的部分,對(duì)于錯(cuò)分割問(wèn)題,網(wǎng)絡(luò)依舊對(duì)物體幾何結(jié)構(gòu)信息做出比較準(zhǔn)確的判斷;對(duì)于欠分割問(wèn)題,網(wǎng)絡(luò)能夠識(shí)別物體位置范圍,減輕錯(cuò)誤分類(lèi)對(duì)正確結(jié)果的干擾。
圖4 S3DIS數(shù)據(jù)集分割結(jié)果的可視化Fig.4 Visualization of segmentation results on S3DIS dataset
4.2.2 SemanticKITTI數(shù)據(jù)集上的評(píng)估分析
大規(guī)模場(chǎng)景分割是一項(xiàng)具有挑戰(zhàn)性的任務(wù),為了進(jìn)一步驗(yàn)證本文算法對(duì)于細(xì)粒度幾何特征分析的有效性,在大規(guī)模激光雷達(dá)點(diǎn)云數(shù)據(jù)集SemanticKITTI上進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表2所示。
表2 SemanticKITTI數(shù)據(jù)集上不同方法的分割精度對(duì)比Tab.2 Comparison of segmentation accuracy of different approaches on SemanticKITTI dataset
Rand LA-Net[20]采 用 隨 機(jī) 采 樣 高 效 處 理 大 規(guī)模點(diǎn)云,設(shè)計(jì)局部特征聚合模塊逐步增加點(diǎn)的感受野,防止采樣過(guò)程丟失關(guān)鍵信息,但在稀疏性較大的激光雷達(dá)數(shù)據(jù)集不可避免地會(huì)丟失場(chǎng)景邊緣信息。網(wǎng)絡(luò)會(huì)由于邊緣物體信息丟失缺乏對(duì)物體完整結(jié)構(gòu)的學(xué)習(xí),出現(xiàn)錯(cuò)分割或欠分割。本文算法采用最遠(yuǎn)點(diǎn)采樣更能表征場(chǎng)景的整體結(jié)構(gòu)信息,保證網(wǎng)絡(luò)輸入能夠獲得邊緣物體的完整結(jié)構(gòu)信息。而且,本文在原始點(diǎn)云構(gòu)造的k近鄰圖經(jīng)過(guò)最遠(yuǎn)點(diǎn)采樣后,依舊能夠保留場(chǎng)景邊緣物體的整體幾何信息,保證特征的豐富性,在柵欄和其他地面等較稀疏的類(lèi)別上mIoU比Rand-LA-Net分別 提高了9.8%和14.7%。PolarNet[28]設(shè)計(jì)極化鳥(niǎo)瞰圖平衡網(wǎng)格內(nèi)點(diǎn)數(shù),利用簡(jiǎn)易PointNet將點(diǎn)轉(zhuǎn)換為固定長(zhǎng)度表示,將該表示分配到環(huán)矩陣中相應(yīng)的位置,通過(guò)環(huán)形卷積學(xué)習(xí)二維特征。雖然極化鳥(niǎo)瞰圖解決了點(diǎn)云稀疏性問(wèn)題,但自上而下的處理方式破壞了物體的幾何結(jié)構(gòu)信息,缺乏具有抽象語(yǔ)義識(shí)別能力的高級(jí)單點(diǎn)特征。而本文通過(guò)MLP組卷積獲取全局單點(diǎn)特征,再利用代理點(diǎn)圖卷積獲得具有鑒別性的高級(jí)單點(diǎn)特征,引入Transformer模塊學(xué)習(xí)點(diǎn)對(duì)之間的語(yǔ)義關(guān)系,獲得局部上下文細(xì)粒度的幾何信息,增強(qiáng)了網(wǎng)絡(luò)的識(shí)別分割能力,在貨車(chē)、摩托車(chē)和騎自行車(chē)的人等復(fù)雜結(jié)構(gòu)類(lèi)別的mIoU比PolarNet分別提高了15.4%,5%和3.3%。
(續(xù)表2)
從圖5可視化分割結(jié)果可以看出,本文算法具有提取局部上下文幾何信息的能力,在稀疏性較大的大規(guī)模激光雷達(dá)點(diǎn)云數(shù)據(jù)中依然有著良好的分割結(jié)果。復(fù)雜結(jié)構(gòu)類(lèi)別由于點(diǎn)云的稀疏性導(dǎo)致物體信息不充分,加大了網(wǎng)絡(luò)提取特征的難度,但本文對(duì)復(fù)雜類(lèi)別精度相比其他方法有明顯的提升,原因在于特征融合過(guò)程中加強(qiáng)了全局信息和局部信息交流,獲得的上下文細(xì)粒度信息有助于提高網(wǎng)絡(luò)識(shí)別復(fù)雜形狀物體的能力,增強(qiáng)了語(yǔ)義分割的魯棒性。
圖5 SemanticKITTI數(shù)據(jù)集分割結(jié)果的可視化Fig.5 Visualization of segmentation results on SemanticKITTI dataset
S3DIS數(shù)據(jù)集中點(diǎn)云密度一致,物體信息豐富,點(diǎn)云下采樣操作對(duì)輸入信息損失較少,不同配置下的模塊性能都能夠充分發(fā)揮,對(duì)比實(shí)驗(yàn)更具說(shuō)服性。因此,在S3DIS數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)??紤]網(wǎng)絡(luò)模型的各種設(shè)置,比較了模型在k近鄰點(diǎn)數(shù)不同下的性能,以驗(yàn)證本文算法代理點(diǎn)圖組卷積和Transformer特征融合模塊的有效性。
4.3.1k近鄰點(diǎn)
鄰域點(diǎn)的數(shù)目影響網(wǎng)絡(luò)提取到的幾何特征的優(yōu)劣,較小的鄰域點(diǎn)數(shù)目k使網(wǎng)絡(luò)無(wú)法學(xué)習(xí)到有效的幾何特征,導(dǎo)致分割精度較差;而k的數(shù)量過(guò)大又會(huì)引入更多的噪聲,影響網(wǎng)絡(luò)對(duì)幾何特征的學(xué)習(xí)。從表3中可以看出,當(dāng)k為8時(shí),網(wǎng)絡(luò)總參數(shù)量Params和OA都較小,原因在于鄰域圖對(duì)物體幾何信息的描述不完整,網(wǎng)絡(luò)性能無(wú)法充分利用而造成欠分割問(wèn)題。隨著k的增加,鄰域圖能夠更好地表征物體的幾何結(jié)構(gòu),網(wǎng)絡(luò)能夠充分挖掘局部上下文的幾何信息。但當(dāng)k過(guò)大時(shí),對(duì)物體的幾何結(jié)構(gòu)描述無(wú)法帶來(lái)更大的優(yōu)勢(shì),相反會(huì)造成更多冗余的局部幾何結(jié)構(gòu)特征,影響具有區(qū)分性的局部幾何特征的貢獻(xiàn)程度,而且增加網(wǎng)絡(luò)計(jì)算量。
表3 鄰域點(diǎn)數(shù)量對(duì)分割結(jié)果影響的對(duì)比Tab.3 Comparison of influence of number of neighborhood points on segmentation results
4.3.2 P2GConv
為了驗(yàn)證代理點(diǎn)圖組卷積(P2GConv)在保持較少的參數(shù)量的同時(shí)可以獲得與邊緣卷積(EdgeConv)相當(dāng)?shù)慕Y(jié)果,對(duì)網(wǎng)絡(luò)分別使用P2GConv和EdgeConv,定量實(shí)驗(yàn)結(jié)果如表4所示。使用P2GConv的網(wǎng)絡(luò)參數(shù)量更少,原因在于構(gòu)建局部鄰域圖不需要重復(fù)計(jì)算中心點(diǎn)的鄰域點(diǎn),取消了在特征圖上的k近鄰圖構(gòu)建。此外,代理點(diǎn)是手工設(shè)計(jì),計(jì)算邊緣特征時(shí)不會(huì)出現(xiàn)EdgeConv中添加中心點(diǎn)特征的操作。而在分割精度方面,P2GConv接近EdgeConv,原因:一方面在于代理點(diǎn)特征是鄰域點(diǎn)特征的平均值,場(chǎng)景中平面結(jié)構(gòu)多且特征差異性小,代理點(diǎn)特征能夠表征局部鄰域點(diǎn)的特征信息,僅會(huì)損失特征的一小部分豐富性;另一方面,由于在原始空間構(gòu)建的鄰域圖對(duì)物體幾何信息的描述更加準(zhǔn)確,P2GConv網(wǎng)絡(luò)能夠獲得物體細(xì)粒度的幾何結(jié)構(gòu)信息。
表4 邊緣卷積和代理點(diǎn)圖組卷積對(duì)比Tab.4 Comparison of EdgeConv and P2GConv
4.3.3 MLPGConv
MLP組卷積將全局單點(diǎn)特征輸入代理點(diǎn)圖組卷積,獲得有助于識(shí)別物體的高級(jí)全局單點(diǎn)特征,增強(qiáng)了特征的局部上下文信息。當(dāng)刪除MLP組卷積操作后,局部幾何特征只對(duì)自身進(jìn)行自注意力融合操作,融合后的特征依舊能夠充分表達(dá)局部區(qū)域的細(xì)節(jié)信息。但由于忽略每個(gè)點(diǎn)的絕對(duì)位置信息,缺乏從點(diǎn)云空間中學(xué)習(xí)到的全局單點(diǎn)結(jié)構(gòu)特征,從而降低了特征豐富性,無(wú)法獲得具備高級(jí)語(yǔ)義識(shí)別能力的上下文語(yǔ)義信息,導(dǎo)致網(wǎng)絡(luò)識(shí)別能力下降而影響分割精度。雖然參數(shù)量有一定下降,但精度的增長(zhǎng)對(duì)網(wǎng)絡(luò)整體性能的提升更大。實(shí)驗(yàn)結(jié)果如表5所示,其中MLPG-NO表示不引入MLPGConv模塊。
表5 MLPGConv模塊有效性驗(yàn)證Tab.5 Effectiveness verification of MLPGConv module
4.3.4 Transformer
網(wǎng)絡(luò)加入Transformer模塊的自注意力機(jī)制,分割精度和網(wǎng)絡(luò)參數(shù)量都有明顯增長(zhǎng)。實(shí)驗(yàn)結(jié)果如表6所示,其中Transformer-NO表示不引入Transformer模塊。網(wǎng)絡(luò)參數(shù)量增長(zhǎng)在于:對(duì)特征的額外操作增加了網(wǎng)絡(luò)計(jì)算量。分割精度增長(zhǎng)的原因在于點(diǎn)對(duì)之間的語(yǔ)義關(guān)系和局部細(xì)粒度的上下文信息。學(xué)習(xí)點(diǎn)對(duì)之間的語(yǔ)義關(guān)系能夠提高網(wǎng)絡(luò)識(shí)別復(fù)雜環(huán)境中物體的能力,減少錯(cuò)分割現(xiàn)象。全局單點(diǎn)特征和局部幾何特征融合后獲得局部細(xì)粒度的上下文信息,獲得物體局部的幾何結(jié)構(gòu)信息,解決了欠分割或過(guò)分割問(wèn)題,提高了網(wǎng)絡(luò)細(xì)粒度分割精度。
表6 Transformer模塊有效性驗(yàn)證Tab.6 Effectiveness verification of Transformer module
本文提出了一種自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)的三維點(diǎn)云語(yǔ)義分割算法。首先,利用MLP組卷積獲得全局點(diǎn)云特征;其次,通過(guò)代理點(diǎn)圖組卷積獲得細(xì)粒度的幾何特征信息;然后,通過(guò)Transformer特征融合模塊的自注意機(jī)制加強(qiáng)全局和局部幾何特征之間的聯(lián)系,挖掘局部上下文幾何信息;最后,通過(guò)多尺度操作擴(kuò)大局部鄰域感受野,進(jìn)一步增強(qiáng)捕獲細(xì)粒度局部上下文幾何信息的能力。通過(guò)輕量化特征提取網(wǎng)絡(luò),以較少的冗余信息增強(qiáng)了特征的豐富性,實(shí)現(xiàn)了對(duì)點(diǎn)云的高性能處理,在S3DIS數(shù)據(jù)集和SemanticKITTI數(shù)據(jù)集上算法的分割精度分別達(dá)到79.3%和56.6%。
然而,本文算法仍存在一定的局限性,一方面在于網(wǎng)絡(luò)分析復(fù)雜環(huán)境下物體類(lèi)別時(shí)存在不足,具有相似幾何結(jié)構(gòu)特征的物體在空間上接近時(shí),網(wǎng)絡(luò)對(duì)物體邊界點(diǎn)類(lèi)別的判斷不準(zhǔn)確,周?chē)?lèi)別影響網(wǎng)絡(luò)對(duì)物體整體結(jié)構(gòu)的判斷,出現(xiàn)欠分割或錯(cuò)分現(xiàn)象,網(wǎng)絡(luò)抗干擾能力有待提高;另一方面在于網(wǎng)絡(luò)處理稀疏性較強(qiáng)點(diǎn)云數(shù)據(jù)集時(shí)效果不理想,物體遠(yuǎn)離傳感器導(dǎo)致描述同部件幾何信息的點(diǎn)云數(shù)目減少,影響網(wǎng)絡(luò)從采樣后點(diǎn)云學(xué)習(xí)物體的幾何信息。所以,在非常稀疏數(shù)據(jù)集下保留更豐富信息和有效處理場(chǎng)景邊緣物體是未來(lái)研究的重點(diǎn)。