基于自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)的三維點(diǎn)云語(yǔ)義分割

2022-04-27 14:42:10李博贊

光學(xué)精密工程 2022年7期

楊軍，李博贊

（1.蘭州交通大學(xué) 測(cè)繪與地理信息學(xué)院，甘肅蘭州730070；2.蘭州交通大學(xué) 自動(dòng)化與電氣工程學(xué)院，甘肅蘭州730070）

1 引言

近年來(lái)，3D掃描技術(shù)的發(fā)展促進(jìn)了智能駕駛［1-2］和增強(qiáng)現(xiàn)實(shí)［3］等新技術(shù)的應(yīng)用，對(duì)場(chǎng)景的準(zhǔn)確理解已成為人工智能領(lǐng)域的主要研究方向。為結(jié)合三維模型表面細(xì)節(jié)信息從而提高分割精度，研究人員利用二維圖像分割算法處理規(guī)則數(shù)據(jù)的優(yōu)勢(shì)，將一組點(diǎn)云投影為二維圖像便于學(xué)習(xí)點(diǎn)云特征，并將像素級(jí)語(yǔ)義標(biāo)簽反投影到點(diǎn)云獲得分割結(jié)果［4］。但是，多視圖方法會(huì)不可避免地丟失某些具有鑒別力的幾何信息，并且投影視角的選擇也需要豐富的先驗(yàn)知識(shí)。直接處理點(diǎn)云數(shù)據(jù)的方法能夠利用點(diǎn)云固有信息且不增加額外操作，可以充分獲取點(diǎn)云所有信息。然而，原始點(diǎn)云具有不規(guī)則、稀疏和無(wú)序結(jié)構(gòu)等特點(diǎn)，需要構(gòu)建局部鄰域圖或轉(zhuǎn)化為規(guī)則結(jié)構(gòu)才能直接利用?；隗w素［5］的方法將點(diǎn)云規(guī)則化為網(wǎng)格結(jié)構(gòu)，很大程度上保留了物體的幾何信息，但該結(jié)構(gòu)仍然無(wú)法細(xì)分物體邊界的幾何信息。此外，該結(jié)構(gòu)通常受到存儲(chǔ)器的嚴(yán)格限制，高分辨率會(huì)消耗巨大的計(jì)算和存儲(chǔ)成本，低分辨率則容易出現(xiàn)嚴(yán)重的信息丟失問(wèn)題。稀疏卷積［6］雖然能夠減少內(nèi)存占用，但為了獲得更大的感受野，在低分辨率操作下多個(gè)類(lèi)別會(huì)合并到一個(gè)網(wǎng)格從而影響分割結(jié)果。基于逐點(diǎn)的方法［7-9］雖然便于獲取局部幾何信息，但只有部分幾何信息對(duì)物體整體結(jié)構(gòu)具有判別性，點(diǎn)的絕對(duì)位置信息和點(diǎn)對(duì)間的相對(duì)位置信息缺乏描述物體高級(jí)全局幾何結(jié)構(gòu)的能力，而且網(wǎng)絡(luò)運(yùn)行消耗大量時(shí)間用于構(gòu)建局部點(diǎn)云數(shù)據(jù)，導(dǎo)致時(shí)間成本上升。

針對(duì)上述問(wèn)題，本文提出了基于自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)（Self-attention Feature Fusion Group Convolutional Neural Network，SAFFGCNN）的點(diǎn)云細(xì)粒度分析方法。引入Transformer模塊將全局單點(diǎn)特征和局部幾何特征進(jìn)行融合，提高特征的豐富性。提出了一種輕量級(jí)的圖卷積運(yùn)算——代理點(diǎn)圖卷積，獲得深層細(xì)粒度的幾何特征，能夠簡(jiǎn)化邊緣卷積操作降低內(nèi)存消耗，對(duì)語(yǔ)義特征和局部幾何特征進(jìn)行編碼，增強(qiáng)特征局部的上下文信息。通過(guò)多尺度策略不斷擴(kuò)大局部鄰域感受野以學(xué)習(xí)局部幾何特征，增強(qiáng)網(wǎng)絡(luò)泛化能力，有利于捕獲高級(jí)語(yǔ)義的上下文細(xì)粒度特征。此外，多尺度點(diǎn)云特征拼接后輸入到分割模塊，可以提高網(wǎng)絡(luò)分割精度。

2 研究現(xiàn)狀

目前，三維模型語(yǔ)義分割主要有基于投影、基于體素和基于點(diǎn)云三類(lèi)方法。投影方法利用多視圖表示場(chǎng)景物體表面信息，為提高分割效率，基于距離圖像的球面投影方法被提出。體素方法將點(diǎn)云轉(zhuǎn)化為密集體素網(wǎng)格表示，為了適應(yīng)點(diǎn)云稀疏性和密度變化，用稀疏體素網(wǎng)格表示點(diǎn)云場(chǎng)景。點(diǎn)云方法直接對(duì)點(diǎn)云進(jìn)行卷積操作，可以有效獲取點(diǎn)云數(shù)據(jù)的本征屬性，主要有基于遞歸神經(jīng)網(wǎng)絡(luò)、構(gòu)建點(diǎn)云卷積核和基于圖網(wǎng)絡(luò)三類(lèi)方法。

2.1 基于投影的方法

由于點(diǎn)云的不規(guī)則性，許多研究首先將點(diǎn)云投影為鳥(niǎo)瞰圖像或距離圖像，再用二維卷積操作進(jìn)行學(xué)習(xí)。Lawin等［4］首先從多個(gè)虛擬視角將點(diǎn)云投影到2D平面上，然后使用全連接層進(jìn)行像素級(jí)語(yǔ)義分割，并將每張圖像的分割結(jié)果反投影到點(diǎn)云進(jìn)行融合得到點(diǎn)的語(yǔ)義標(biāo)簽。Milioto等［12］利用球面投影方法將點(diǎn)云轉(zhuǎn)換為距離圖像，并在圖像上進(jìn)行二維全卷積操作；為修正反投影后物體邊緣部位的分割結(jié)果，在點(diǎn)云上利用高效的k近鄰搜索解決遮擋問(wèn)題。徐等［13］在Squeeze-Seg模型［14］結(jié)構(gòu)基礎(chǔ)上設(shè)計(jì)空間自適應(yīng)卷積，它具有空間適應(yīng)性和內(nèi)容感知的能力，解決了標(biāo)準(zhǔn)卷積應(yīng)用于LiDAR圖像導(dǎo)致的網(wǎng)絡(luò)性能下降的問(wèn)題。

基于投影的方法的核心是將點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為規(guī)則的二維圖像，利用現(xiàn)有成熟的二維卷積算法提取三維模型的表面細(xì)節(jié)信息。但該類(lèi)方法主要存在兩點(diǎn)缺陷：一是模型的部分表面細(xì)節(jié)信息會(huì)由于物體遮擋而消失；二是經(jīng)投影后產(chǎn)生的圖像中物體可能會(huì)出現(xiàn)扭曲現(xiàn)象，從而影響模型表面細(xì)節(jié)信息的獲取。

2.2 基于體素的方法

體素化的方法通常將點(diǎn)云轉(zhuǎn)變?yōu)槊芗W(wǎng)格，然后利用標(biāo)準(zhǔn)的3D卷積處理。黃等［5］在網(wǎng)絡(luò)訓(xùn)練時(shí)將點(diǎn)云生成為一組占位體素網(wǎng)格，其標(biāo)簽由周?chē)鷨卧?lèi)別決定，然后將它輸入到3D CNN進(jìn)行體素分割，將推斷的體素結(jié)果映射回原始點(diǎn)云產(chǎn)生逐點(diǎn)標(biāo)簽。Graham等［6］提出了子流形稀疏卷積網(wǎng)絡(luò)，通過(guò)哈希表構(gòu)建稀疏矩陣的索引關(guān)系，卷積的輸出只與被占用的體素相關(guān)，內(nèi)存占用和計(jì)算成本大大減少，并且能夠確保卷積網(wǎng)絡(luò)的空間稀疏性不會(huì)消失，避免出現(xiàn)子流行膨脹問(wèn)題。Choy等［15］提出一種用于時(shí)空三維點(diǎn)云數(shù)據(jù)的4D稀疏卷積網(wǎng)絡(luò)，并創(chuàng)建了稀疏張量自動(dòng)微分的開(kāi)源庫(kù)。所提出的廣義稀疏卷積能夠有效處理高維數(shù)據(jù)，顯著降低傳統(tǒng)3D卷積核計(jì)算成本，且該卷積核對(duì)于立方體結(jié)構(gòu)的物體識(shí)別能力更強(qiáng)。

體素表示一定程度上保留了點(diǎn)云的鄰域結(jié)構(gòu)，其數(shù)據(jù)格式能夠直接運(yùn)用標(biāo)準(zhǔn)3D卷積進(jìn)行學(xué)習(xí)。然而，體素化不可避免地丟失了細(xì)粒度幾何信息。為了解決信息丟失等問(wèn)題，需要提高體素分辨率，而此操作易導(dǎo)致計(jì)算成本高和內(nèi)存占用大等問(wèn)題。雖然稀疏卷積能夠處理更小的網(wǎng)格結(jié)構(gòu)且具有良好的性能，但是依然需要進(jìn)行計(jì)算效率和體素比例的權(quán)衡。

2.3 基于點(diǎn)云的方法

PointNet［16］和PointNet++［17］開(kāi) 創(chuàng) 了基于多層感知機(jī)對(duì)點(diǎn)云直接進(jìn)行操作的先例。蔣等［18］將編碼-解碼結(jié)構(gòu)引入3D點(diǎn)云分割網(wǎng)絡(luò)中，在解碼器部分建立邊分支以提供上下文信息，通過(guò)分層圖設(shè)計(jì)使特征信息由粗糙到細(xì)致。黨等［19］提出分層并行組卷積，可以同時(shí)捕捉點(diǎn)云的區(qū)分性獨(dú)立單點(diǎn)特征和局部幾何特征，以較少的冗余信息增強(qiáng)特征的豐富性，提高網(wǎng)絡(luò)識(shí)別復(fù)雜類(lèi)別的能力。胡等［20］提出了一種高效、輕量級(jí)的Rand-LA-Net網(wǎng)絡(luò)，通過(guò)局部特征聚集模塊擴(kuò)大k近鄰點(diǎn)搜索范圍來(lái)減少信息損失，并利用隨機(jī)采樣降低了存儲(chǔ)成本，提高了計(jì)算效率。Landrieu等［21］將點(diǎn)云通過(guò)一系列相互聯(lián)系的簡(jiǎn)單形狀構(gòu)成超點(diǎn)，其屬性有向圖能夠捕獲豐富的上下文信息和幾何信息，同時(shí)超點(diǎn)能夠大大減少點(diǎn)云中點(diǎn)的數(shù)目，使網(wǎng)絡(luò)應(yīng)用于大規(guī)模點(diǎn)云數(shù)據(jù)集。

直接處理和分析點(diǎn)云的方法需要獲取更精細(xì)的點(diǎn)云特征，才能達(dá)到細(xì)粒度點(diǎn)云分割任務(wù)的要求，但現(xiàn)有方法缺乏分辨相似物體幾何特征和局部細(xì)節(jié)結(jié)構(gòu)的能力，對(duì)于具有抽象語(yǔ)義識(shí)別能力的高級(jí)全局結(jié)構(gòu)信息缺乏考慮。此外，沒(méi)有考慮全局單點(diǎn)特征和低級(jí)局部幾何特征的聯(lián)系。

3 自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)

在自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)中，通過(guò)學(xué)習(xí)全局特征和局部幾何特征的深層隱含關(guān)系，獲得具有抽象語(yǔ)義識(shí)別能力的高級(jí)全局單點(diǎn)特征，提高了網(wǎng)絡(luò)在復(fù)雜環(huán)境下的物體分割能力。首先，通過(guò)MLP和代理點(diǎn)圖卷積獲得全局特征和局部幾何特征，加入組卷積操作減少冗余特征信息，獲得具有鑒別性的特征。其次，利用Transformer特征融合模塊增強(qiáng)不同特征間的聯(lián)系，獲得細(xì)粒度上下文信息。最后，通過(guò)多尺度特征融合擴(kuò)大感受野獲得全局高級(jí)單點(diǎn)特征。

3.1 全局-局部組卷積

本文的全局-局部組卷積由兩部分組成：MLP組卷積和代理點(diǎn)圖組卷積。

MLP組卷積在減少計(jì)算復(fù)雜度和網(wǎng)絡(luò)參數(shù)量的同時(shí)，特征豐富性會(huì)因?yàn)榻M卷積產(chǎn)生的分組操作而降低。為了加強(qiáng)組間信息交流，將不同分組特征進(jìn)行融合，以保證MLP組卷積層輸出特征的有效性。

組卷積操作先將每層的MLP分為N組，表示為其中l(wèi)為第l個(gè)卷積層。再對(duì)輸入特征進(jìn)行MLP組卷積提取各個(gè)分組特征。第一組特征是第一組原始特征經(jīng)過(guò)組卷積后的新特征，其余組特征為前一組新特征和自身經(jīng)過(guò)組卷積后的新特征融合得到的結(jié)果。將所有分組的全局特征進(jìn)行拼接操作得到MLP組卷積模塊在該層的輸出。MLP組卷積第l層的輸出結(jié)果如下：式中為第l層各組的全局單點(diǎn)特征為MLP組卷積在第l層輸出的全局單點(diǎn)特征。

MLP組卷積雖然能夠捕獲獨(dú)立的單點(diǎn)特征，但對(duì)幾何信息的獲取存在局限性。局部幾何信息包含點(diǎn)的位置信息以及點(diǎn)的相對(duì)位置，對(duì)于物體細(xì)粒度分割起到至關(guān)重要的作用。

本文以邊緣卷積為出發(fā)點(diǎn)設(shè)計(jì)代理點(diǎn)圖組卷積，將特征空間上的k近鄰搜索轉(zhuǎn)變?yōu)樵谠键c(diǎn)云空間中的k近鄰搜索。原始點(diǎn)云空間中點(diǎn)的位置是固定不變的，k近鄰圖能更好地表征物體的空間結(jié)構(gòu)信息，獲得更具鑒別性的局部幾何特征信息。同時(shí)，由于原始點(diǎn)云位置是固定的，在特征空間上構(gòu)造k近鄰圖無(wú)需重新計(jì)算，解決了計(jì)算代價(jià)大的問(wèn)題。k近鄰圖的鄰域點(diǎn)在空間內(nèi)接近，特征的豐富性差異小，為了保留關(guān)鍵幾何特征信息，將k近鄰點(diǎn)特征進(jìn)行平均操作賦值到代理點(diǎn)，使用代理點(diǎn)和中心點(diǎn)進(jìn)行幾何信息學(xué)習(xí)。通過(guò)對(duì)全部卷積層共享空間鄰接矩陣以減少內(nèi)存消耗和計(jì)算開(kāi)銷(xiāo)，能夠使特征映射的內(nèi)存消耗從O（n×h×d）減少到O（n×d），大大提高了圖卷積提取幾何特征的效率。邊緣卷積與代理點(diǎn)圖組卷積的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 邊緣卷積與代理點(diǎn)圖組卷積網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structures of edge convolution and proxy point graph group convolution

為了在原始點(diǎn)云空間進(jìn)行k近鄰搜索，首先要計(jì)算圖的空間鄰接矩陣G∈RN×N，其元素表示一組點(diǎn)在圖中是否相鄰。為計(jì)算鄰接矩陣G，需要計(jì)算點(diǎn)i和點(diǎn)j之間的歐氏距離D i，j：

式中p i∈R3和p j∈R3是兩個(gè)坐標(biāo)向量。將G中每一行的元素進(jìn)行二值化，k個(gè)最小的元素設(shè)為1，其余元素設(shè)為0，以此得到空間鄰接矩陣G∈RN×N。

其次，通過(guò)矩陣乘法求得局部鄰域的特征平均值，并將該特征值視為代理點(diǎn)特征，公式如下：

式中：y∈RN×d是由MLP組卷積獲得的點(diǎn)云全局特征，k為中心點(diǎn)i的鄰域點(diǎn)數(shù)目，Z為生成的代理點(diǎn)特征，其中Z i為第i個(gè)代理點(diǎn)的特征。

然后，使用中心點(diǎn)和代理點(diǎn)來(lái)計(jì)算局部幾何信息得到新的聚合特征，定義如下：

式中：f i為生成的第i個(gè)點(diǎn)幾何特征，y i為第i個(gè)點(diǎn)的全局單點(diǎn)特征，ReLU為激活函數(shù)，gΘ：Rd→Rd是具有可學(xué)習(xí)參數(shù)Θ的非線(xiàn)性函數(shù)。最后，通過(guò)在生成的幾何特征上融合輸入點(diǎn)的全局特征來(lái)定義局部幾何特征，即：

式中Y i為第i個(gè)點(diǎn)最終的局部幾何特征。

3.2 Transformer特征融合模塊

經(jīng)過(guò)全局-局部組卷積模塊后，全局上下文特征和局部幾何特征的豐富性得到了增強(qiáng)，但是組卷積內(nèi)部同層不同組之間缺乏信息交流，而且不同組卷積模塊之間沒(méi)有信息傳播，缺乏具有高級(jí)語(yǔ)義的局部上下文信息。因此，本文通過(guò)Transformer的自注意力機(jī)制獲得具有高級(jí)語(yǔ)義識(shí)別能力的特征。由于自注意力機(jī)制輸入為離散標(biāo)記組成的序列，各分支特征被視為集合，其中每個(gè)1×1×C維特征等同于集合中的元素，并視為一個(gè)標(biāo)記。分支以不同的關(guān)注方向?qū)?chǎng)景進(jìn)行編碼，根據(jù)特征間的自注意力系數(shù)融合其他組的特征，使更新后的每組特征包含來(lái)自其他組的特征，利用不同特征的互補(bǔ)性促進(jìn)模塊之間的信息交流，加強(qiáng)特征間的語(yǔ)義聯(lián)系。全局-局部特征的Transformer自注意力融合操作如圖2所示。

圖2 全局-局部特征的Transformer自注意力融合Fig.2 Transformer self-attention fusion of global-local features

為了減輕Transformer網(wǎng)絡(luò)計(jì)算代價(jià)，將較高分辨率的分支特征做平均池化下采樣處理為H×W×C的三維張量，再將兩者疊加形成維度為（2×H×W）×C的輸入張量，并嵌入一個(gè)維度一致的可訓(xùn)練位置參數(shù)，使網(wǎng)絡(luò)在訓(xùn)練時(shí)能夠理解不同標(biāo)記之間的空間位置關(guān)系。自注意力輸出特征根據(jù)輸入張量的位置關(guān)系重新劃分為兩個(gè)H×W×C的特征圖，并通過(guò)雙線(xiàn)性插值上采樣到原始分辨率，再與原始分支特征逐元素求和。多次實(shí)驗(yàn)結(jié)果表明，特征圖分辨率為H=W=8時(shí)效果最佳。

特征圖上的自注意力操作類(lèi)似于將Transformer應(yīng)用于圖像的工作［10-11］。設(shè)輸入序列表示為Fin∈RN×Df，其中N是序列中的標(biāo)記數(shù)，每個(gè)標(biāo)記由維數(shù)為D f的特征向量表示。首先，Transformer模塊使用線(xiàn)性投影來(lái)計(jì)算出每個(gè)標(biāo)記的一組查詢(xún)向量Q、關(guān)鍵向量K和值向量V，計(jì)算公式為：

式中：B Q∈RDf×d k，B K∈RDf×d k和B V∈RDf×d v都是權(quán)重矩陣，目的在于將輸入特征映射到不同高維空間，增強(qiáng)模型表達(dá)能力，更好地捕獲Q，K和V之間的語(yǔ)義級(jí)別聯(lián)系。

其次，通過(guò)當(dāng)前查詢(xún)向量Q和所有關(guān)鍵向量K之間的點(diǎn)積計(jì)算自注意力權(quán)重，將所有值向量和相應(yīng)權(quán)重相乘并求和，得到該特征向量標(biāo)記最終的自注意力輸出結(jié)果，計(jì)算公式如下：式中：D K用于在訓(xùn)練過(guò)程中保持梯度值穩(wěn)定，防止Softmax（QKT）結(jié)果過(guò)大，導(dǎo)致梯度變小不利于反向傳播；Softmax函數(shù)用于確保所有自注意力權(quán)重的和為1。

最后，Transformer模塊使用MLP將自注意結(jié)果映射到與Fin同一維度，并計(jì)算輸出特征，即：

輸出特征Fout與輸入特征Fin具有相同的維度。

3.3 自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)

本文構(gòu)建的自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖3所示，主要由3個(gè)模塊組成：MLP組卷積、代理點(diǎn)圖組卷積和Transformer特征融合模塊。點(diǎn)云輸入到網(wǎng)絡(luò)前進(jìn)行下采樣操作處理保證網(wǎng)絡(luò)訓(xùn)練過(guò)程中能夠收斂，選擇最遠(yuǎn)點(diǎn)采樣（Farthest Point Sampling，F(xiàn)PS）對(duì)場(chǎng)景進(jìn)行均勻采樣，保留點(diǎn)云的原始空間結(jié)構(gòu)。在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中，為了獲取全局單點(diǎn)特征和細(xì)粒度的幾何特征，通過(guò)MLP組卷積和代理點(diǎn)圖組卷積分別提取全局特征和局部幾何特征。然后，通過(guò)Transformer特征融合模塊將全局單點(diǎn)特征和局部幾何特征進(jìn)行融合并增強(qiáng)，提高網(wǎng)絡(luò)識(shí)別復(fù)雜形狀物體的能力。為了提高分割準(zhǔn)確率，將上一次下采樣后的特征映射結(jié)果輸入本次下采樣后的點(diǎn)云中來(lái)增加不同尺度局部區(qū)域的感受野，從而獲得具有高級(jí)語(yǔ)義的上下文細(xì)粒度特征。最后，將不同下采樣的特征映射進(jìn)行拼接，對(duì)它進(jìn)行全局平均池化操作加強(qiáng)特征映射和類(lèi)別之間的關(guān)聯(lián)，使獲得的形狀級(jí)別的全局特征映射更加接近語(yǔ)義類(lèi)別信息。

圖3 自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)Fig.3 Self-attention feature fusion group convolutional neural network

為了獲取每個(gè)點(diǎn)的點(diǎn)級(jí)別標(biāo)簽，分割模塊需將全局特征映射從形狀級(jí)別傳播到點(diǎn)級(jí)別。通過(guò)第一次插值后的特征與對(duì)應(yīng)點(diǎn)的原始特征相結(jié)合獲得M個(gè)點(diǎn)的點(diǎn)級(jí)特征，將點(diǎn)級(jí)特征輸入到多個(gè)MLP層和SeLU層獲得降維后點(diǎn)級(jí)特征，再通過(guò)第二次插值將M個(gè)點(diǎn)的點(diǎn)級(jí)特征傳播到原始點(diǎn)云，得到原始點(diǎn)云空間中所有點(diǎn)的新特征。使用兩個(gè)疊加的全連接層對(duì)點(diǎn)云特征進(jìn)行分類(lèi)，輸出N×B特征矩陣，其中N為原始空間內(nèi)所有的點(diǎn)，B為每個(gè)點(diǎn)對(duì)應(yīng)于每個(gè)類(lèi)別的分?jǐn)?shù)。每個(gè)點(diǎn)選取得分最高的類(lèi)別作為其語(yǔ)義標(biāo)簽，由此獲得點(diǎn)云場(chǎng)景的語(yǔ)義分割結(jié)果。

4 實(shí)驗(yàn)結(jié)果與分析

為了測(cè)試SAFFGCNN對(duì)點(diǎn)云的細(xì)粒度形狀分析的有效性，在兩個(gè)大規(guī)模語(yǔ)義分割數(shù)據(jù)集S3DIS［22］和SemantiKITTI［23］上評(píng) 估了網(wǎng) 絡(luò) 模型性能。實(shí)驗(yàn)中，在32 GB內(nèi)存、Intel i7 8700k CPU和GeForce RTX 2080Ti圖形處理器的工作站上通過(guò)TensorFlow-GPU訓(xùn)練模型，操作系統(tǒng)為L(zhǎng)inux Ubuntu 16.04。SAFFGCNN的訓(xùn)練過(guò)程采用基于動(dòng)量的隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）優(yōu)化算法，采用Adam優(yōu)化算法更新SGD步長(zhǎng)。

4.1 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

S3DIS［22］數(shù)據(jù)集由來(lái)自3個(gè)不同建筑的6個(gè)大型室內(nèi)區(qū)域共計(jì)271個(gè)房間組成，每個(gè)房間都由一個(gè)中等大小的密集點(diǎn)云組成（約20 m×15 m×5 m），共標(biāo)注了13個(gè)類(lèi)別。實(shí)驗(yàn)中使用標(biāo)準(zhǔn)的6重交叉驗(yàn)證。

SemanticKITTI［23］數(shù)據(jù)集是目前最大的具有點(diǎn)級(jí)注釋的激光雷達(dá)序列數(shù)據(jù)集，包含了復(fù)雜的室外交通場(chǎng)景，由43 552個(gè)密集注釋激光雷達(dá)掃描組成22個(gè)序列，共包含19個(gè)有效類(lèi)別。實(shí)驗(yàn)中，數(shù)據(jù)集中序列00～10作為訓(xùn)練集（其中序列08用作驗(yàn)證集），序列11～21作為測(cè)試集。

平均交并比（mean Intersection over Union，mIoU）作為實(shí)驗(yàn)結(jié)果的主要評(píng)估指標(biāo)，其公式如下：

總體準(zhǔn)確率（Overall Accuracy，OA）作為實(shí)驗(yàn)結(jié)果的參考評(píng)估指標(biāo)，用正確預(yù)測(cè)分類(lèi)的點(diǎn)數(shù)和總體點(diǎn)數(shù)的比值表示：

4.2 語(yǔ)義分割評(píng)估

4.2.1 S3DIS數(shù)據(jù)集上的評(píng)估分析

為了驗(yàn)證本文算法的有效性，在S3DIS數(shù)據(jù)集上進(jìn)行了分割對(duì)比實(shí)驗(yàn)，結(jié)果如表1所示。

表1 S3DIS數(shù)據(jù)集上不同方法的分割精度對(duì)比（六重交叉驗(yàn)證）T ab.1 Comparison of segmentation accuracy of different approaches on S3DIS dataset（6-fold cross-validation）

本文算法在13個(gè)類(lèi)別中的11個(gè)類(lèi)別上獲得了最佳分割精度結(jié)果，尤其在光束、桌子、椅子和雜亂物體等類(lèi)別上具有更好的分割精度。Point Transformer［24］設(shè)計(jì)自注意力層提取點(diǎn)云鄰域特征，能夠獲得充分的全局單點(diǎn)特征，但通過(guò)MLP獲得的位置信息主要用于生成查詢(xún)向量，僅簡(jiǎn)單描述點(diǎn)對(duì)之間的相對(duì)位置關(guān)系，缺乏對(duì)幾何特征的進(jìn)一步提取，網(wǎng)絡(luò)捕獲高級(jí)局部幾何特征信息的能力弱。本文通過(guò)代理點(diǎn)圖組卷積能夠獲得細(xì)粒度的幾何特征信息，引入自注意力機(jī)制探究全局特征和局部幾何特征之間的聯(lián)系，使網(wǎng)絡(luò)具備識(shí)別物體全局結(jié)構(gòu)的能力，mIoU和OA分別提高了5.8%和2.9%。KPConv［25］手工設(shè)計(jì)固定數(shù)目的核心點(diǎn)學(xué)習(xí)局部鄰域點(diǎn)特征，但手工制作的核心點(diǎn)組合并不是最佳的，需要根據(jù)數(shù)據(jù)集或網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化。此外，在網(wǎng)絡(luò)中加入核心點(diǎn)位置偏移訓(xùn)練使球體擬合三維點(diǎn)云局部幾何結(jié)構(gòu)，無(wú)法從根本上解決卷積缺乏靈活性的問(wèn)題，不能夠模擬復(fù)雜三維場(chǎng)景中物體的位置變化。本文利用原始點(diǎn)云構(gòu)造圖結(jié)構(gòu)，能夠靈活且高效模擬點(diǎn)云的復(fù)雜空間變化和幾何結(jié)構(gòu)，而且Transformer模塊能夠通過(guò)特征間關(guān)聯(lián)獲得局部上下文細(xì)粒度的幾何結(jié)構(gòu)信息，mIoU和OA分別提高了8.7%和0.2%。

從圖4分割可視化結(jié)果中可以看出，網(wǎng)絡(luò)增強(qiáng)了識(shí)別細(xì)節(jié)采樣點(diǎn)幾何信息的能力，能夠更加準(zhǔn)確地確定物體的邊界范圍，使本文算法的分割結(jié)果接近于真實(shí)標(biāo)簽。圖4中虛線(xiàn)圓圈標(biāo)記為分割結(jié)果不理想的部分，對(duì)于錯(cuò)分割問(wèn)題，網(wǎng)絡(luò)依舊對(duì)物體幾何結(jié)構(gòu)信息做出比較準(zhǔn)確的判斷；對(duì)于欠分割問(wèn)題，網(wǎng)絡(luò)能夠識(shí)別物體位置范圍，減輕錯(cuò)誤分類(lèi)對(duì)正確結(jié)果的干擾。

圖4 S3DIS數(shù)據(jù)集分割結(jié)果的可視化Fig.4 Visualization of segmentation results on S3DIS dataset

4.2.2 SemanticKITTI數(shù)據(jù)集上的評(píng)估分析

大規(guī)模場(chǎng)景分割是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，為了進(jìn)一步驗(yàn)證本文算法對(duì)于細(xì)粒度幾何特征分析的有效性，在大規(guī)模激光雷達(dá)點(diǎn)云數(shù)據(jù)集SemanticKITTI上進(jìn)行了對(duì)比實(shí)驗(yàn)，結(jié)果如表2所示。

表2 SemanticKITTI數(shù)據(jù)集上不同方法的分割精度對(duì)比Tab.2 Comparison of segmentation accuracy of different approaches on SemanticKITTI dataset

Rand LA-Net［20］采用隨機(jī) 采樣高效處理大規(guī)模點(diǎn)云，設(shè)計(jì)局部特征聚合模塊逐步增加點(diǎn)的感受野，防止采樣過(guò)程丟失關(guān)鍵信息，但在稀疏性較大的激光雷達(dá)數(shù)據(jù)集不可避免地會(huì)丟失場(chǎng)景邊緣信息。網(wǎng)絡(luò)會(huì)由于邊緣物體信息丟失缺乏對(duì)物體完整結(jié)構(gòu)的學(xué)習(xí)，出現(xiàn)錯(cuò)分割或欠分割。本文算法采用最遠(yuǎn)點(diǎn)采樣更能表征場(chǎng)景的整體結(jié)構(gòu)信息，保證網(wǎng)絡(luò)輸入能夠獲得邊緣物體的完整結(jié)構(gòu)信息。而且，本文在原始點(diǎn)云構(gòu)造的k近鄰圖經(jīng)過(guò)最遠(yuǎn)點(diǎn)采樣后，依舊能夠保留場(chǎng)景邊緣物體的整體幾何信息，保證特征的豐富性，在柵欄和其他地面等較稀疏的類(lèi)別上mIoU比Rand-LA-Net分別提高了9.8%和14.7%。PolarNet［28］設(shè)計(jì)極化鳥(niǎo)瞰圖平衡網(wǎng)格內(nèi)點(diǎn)數(shù)，利用簡(jiǎn)易PointNet將點(diǎn)轉(zhuǎn)換為固定長(zhǎng)度表示，將該表示分配到環(huán)矩陣中相應(yīng)的位置，通過(guò)環(huán)形卷積學(xué)習(xí)二維特征。雖然極化鳥(niǎo)瞰圖解決了點(diǎn)云稀疏性問(wèn)題，但自上而下的處理方式破壞了物體的幾何結(jié)構(gòu)信息，缺乏具有抽象語(yǔ)義識(shí)別能力的高級(jí)單點(diǎn)特征。而本文通過(guò)MLP組卷積獲取全局單點(diǎn)特征，再利用代理點(diǎn)圖卷積獲得具有鑒別性的高級(jí)單點(diǎn)特征，引入Transformer模塊學(xué)習(xí)點(diǎn)對(duì)之間的語(yǔ)義關(guān)系，獲得局部上下文細(xì)粒度的幾何信息，增強(qiáng)了網(wǎng)絡(luò)的識(shí)別分割能力，在貨車(chē)、摩托車(chē)和騎自行車(chē)的人等復(fù)雜結(jié)構(gòu)類(lèi)別的mIoU比PolarNet分別提高了15.4%，5%和3.3%。

（續(xù)表2）

從圖5可視化分割結(jié)果可以看出，本文算法具有提取局部上下文幾何信息的能力，在稀疏性較大的大規(guī)模激光雷達(dá)點(diǎn)云數(shù)據(jù)中依然有著良好的分割結(jié)果。復(fù)雜結(jié)構(gòu)類(lèi)別由于點(diǎn)云的稀疏性導(dǎo)致物體信息不充分，加大了網(wǎng)絡(luò)提取特征的難度，但本文對(duì)復(fù)雜類(lèi)別精度相比其他方法有明顯的提升，原因在于特征融合過(guò)程中加強(qiáng)了全局信息和局部信息交流，獲得的上下文細(xì)粒度信息有助于提高網(wǎng)絡(luò)識(shí)別復(fù)雜形狀物體的能力，增強(qiáng)了語(yǔ)義分割的魯棒性。

圖5 SemanticKITTI數(shù)據(jù)集分割結(jié)果的可視化Fig.5 Visualization of segmentation results on SemanticKITTI dataset

4.3 消融實(shí)驗(yàn)

S3DIS數(shù)據(jù)集中點(diǎn)云密度一致，物體信息豐富，點(diǎn)云下采樣操作對(duì)輸入信息損失較少，不同配置下的模塊性能都能夠充分發(fā)揮，對(duì)比實(shí)驗(yàn)更具說(shuō)服性。因此，在S3DIS數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)?？紤]網(wǎng)絡(luò)模型的各種設(shè)置，比較了模型在k近鄰點(diǎn)數(shù)不同下的性能，以驗(yàn)證本文算法代理點(diǎn)圖組卷積和Transformer特征融合模塊的有效性。

4.3.1k近鄰點(diǎn)

鄰域點(diǎn)的數(shù)目影響網(wǎng)絡(luò)提取到的幾何特征的優(yōu)劣，較小的鄰域點(diǎn)數(shù)目k使網(wǎng)絡(luò)無(wú)法學(xué)習(xí)到有效的幾何特征，導(dǎo)致分割精度較差；而k的數(shù)量過(guò)大又會(huì)引入更多的噪聲，影響網(wǎng)絡(luò)對(duì)幾何特征的學(xué)習(xí)。從表3中可以看出，當(dāng)k為8時(shí)，網(wǎng)絡(luò)總參數(shù)量Params和OA都較小，原因在于鄰域圖對(duì)物體幾何信息的描述不完整，網(wǎng)絡(luò)性能無(wú)法充分利用而造成欠分割問(wèn)題。隨著k的增加，鄰域圖能夠更好地表征物體的幾何結(jié)構(gòu)，網(wǎng)絡(luò)能夠充分挖掘局部上下文的幾何信息。但當(dāng)k過(guò)大時(shí)，對(duì)物體的幾何結(jié)構(gòu)描述無(wú)法帶來(lái)更大的優(yōu)勢(shì)，相反會(huì)造成更多冗余的局部幾何結(jié)構(gòu)特征，影響具有區(qū)分性的局部幾何特征的貢獻(xiàn)程度，而且增加網(wǎng)絡(luò)計(jì)算量。

表3 鄰域點(diǎn)數(shù)量對(duì)分割結(jié)果影響的對(duì)比Tab.3 Comparison of influence of number of neighborhood points on segmentation results

4.3.2 P2GConv

為了驗(yàn)證代理點(diǎn)圖組卷積（P2GConv）在保持較少的參數(shù)量的同時(shí)可以獲得與邊緣卷積（EdgeConv）相當(dāng)?shù)慕Y(jié)果，對(duì)網(wǎng)絡(luò)分別使用P2GConv和EdgeConv，定量實(shí)驗(yàn)結(jié)果如表4所示。使用P2GConv的網(wǎng)絡(luò)參數(shù)量更少，原因在于構(gòu)建局部鄰域圖不需要重復(fù)計(jì)算中心點(diǎn)的鄰域點(diǎn)，取消了在特征圖上的k近鄰圖構(gòu)建。此外，代理點(diǎn)是手工設(shè)計(jì)，計(jì)算邊緣特征時(shí)不會(huì)出現(xiàn)EdgeConv中添加中心點(diǎn)特征的操作。而在分割精度方面，P2GConv接近EdgeConv，原因：一方面在于代理點(diǎn)特征是鄰域點(diǎn)特征的平均值，場(chǎng)景中平面結(jié)構(gòu)多且特征差異性小，代理點(diǎn)特征能夠表征局部鄰域點(diǎn)的特征信息，僅會(huì)損失特征的一小部分豐富性；另一方面，由于在原始空間構(gòu)建的鄰域圖對(duì)物體幾何信息的描述更加準(zhǔn)確，P2GConv網(wǎng)絡(luò)能夠獲得物體細(xì)粒度的幾何結(jié)構(gòu)信息。

表4 邊緣卷積和代理點(diǎn)圖組卷積對(duì)比Tab.4 Comparison of EdgeConv and P2GConv

4.3.3 MLPGConv

MLP組卷積將全局單點(diǎn)特征輸入代理點(diǎn)圖組卷積，獲得有助于識(shí)別物體的高級(jí)全局單點(diǎn)特征，增強(qiáng)了特征的局部上下文信息。當(dāng)刪除MLP組卷積操作后，局部幾何特征只對(duì)自身進(jìn)行自注意力融合操作，融合后的特征依舊能夠充分表達(dá)局部區(qū)域的細(xì)節(jié)信息。但由于忽略每個(gè)點(diǎn)的絕對(duì)位置信息，缺乏從點(diǎn)云空間中學(xué)習(xí)到的全局單點(diǎn)結(jié)構(gòu)特征，從而降低了特征豐富性，無(wú)法獲得具備高級(jí)語(yǔ)義識(shí)別能力的上下文語(yǔ)義信息，導(dǎo)致網(wǎng)絡(luò)識(shí)別能力下降而影響分割精度。雖然參數(shù)量有一定下降，但精度的增長(zhǎng)對(duì)網(wǎng)絡(luò)整體性能的提升更大。實(shí)驗(yàn)結(jié)果如表5所示，其中MLPG-NO表示不引入MLPGConv模塊。

表5 MLPGConv模塊有效性驗(yàn)證Tab.5 Effectiveness verification of MLPGConv module

4.3.4 Transformer

網(wǎng)絡(luò)加入Transformer模塊的自注意力機(jī)制，分割精度和網(wǎng)絡(luò)參數(shù)量都有明顯增長(zhǎng)。實(shí)驗(yàn)結(jié)果如表6所示，其中Transformer-NO表示不引入Transformer模塊。網(wǎng)絡(luò)參數(shù)量增長(zhǎng)在于：對(duì)特征的額外操作增加了網(wǎng)絡(luò)計(jì)算量。分割精度增長(zhǎng)的原因在于點(diǎn)對(duì)之間的語(yǔ)義關(guān)系和局部細(xì)粒度的上下文信息。學(xué)習(xí)點(diǎn)對(duì)之間的語(yǔ)義關(guān)系能夠提高網(wǎng)絡(luò)識(shí)別復(fù)雜環(huán)境中物體的能力，減少錯(cuò)分割現(xiàn)象。全局單點(diǎn)特征和局部幾何特征融合后獲得局部細(xì)粒度的上下文信息，獲得物體局部的幾何結(jié)構(gòu)信息，解決了欠分割或過(guò)分割問(wèn)題，提高了網(wǎng)絡(luò)細(xì)粒度分割精度。

表6 Transformer模塊有效性驗(yàn)證Tab.6 Effectiveness verification of Transformer module

5 結(jié) 論

本文提出了一種自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)的三維點(diǎn)云語(yǔ)義分割算法。首先，利用MLP組卷積獲得全局點(diǎn)云特征；其次，通過(guò)代理點(diǎn)圖組卷積獲得細(xì)粒度的幾何特征信息；然后，通過(guò)Transformer特征融合模塊的自注意機(jī)制加強(qiáng)全局和局部幾何特征之間的聯(lián)系，挖掘局部上下文幾何信息；最后，通過(guò)多尺度操作擴(kuò)大局部鄰域感受野，進(jìn)一步增強(qiáng)捕獲細(xì)粒度局部上下文幾何信息的能力。通過(guò)輕量化特征提取網(wǎng)絡(luò)，以較少的冗余信息增強(qiáng)了特征的豐富性，實(shí)現(xiàn)了對(duì)點(diǎn)云的高性能處理，在S3DIS數(shù)據(jù)集和SemanticKITTI數(shù)據(jù)集上算法的分割精度分別達(dá)到79.3%和56.6%。

然而，本文算法仍存在一定的局限性，一方面在于網(wǎng)絡(luò)分析復(fù)雜環(huán)境下物體類(lèi)別時(shí)存在不足，具有相似幾何結(jié)構(gòu)特征的物體在空間上接近時(shí)，網(wǎng)絡(luò)對(duì)物體邊界點(diǎn)類(lèi)別的判斷不準(zhǔn)確，周?chē)?lèi)別影響網(wǎng)絡(luò)對(duì)物體整體結(jié)構(gòu)的判斷，出現(xiàn)欠分割或錯(cuò)分現(xiàn)象，網(wǎng)絡(luò)抗干擾能力有待提高；另一方面在于網(wǎng)絡(luò)處理稀疏性較強(qiáng)點(diǎn)云數(shù)據(jù)集時(shí)效果不理想，物體遠(yuǎn)離傳感器導(dǎo)致描述同部件幾何信息的點(diǎn)云數(shù)目減少，影響網(wǎng)絡(luò)從采樣后點(diǎn)云學(xué)習(xí)物體的幾何信息。所以，在非常稀疏數(shù)據(jù)集下保留更豐富信息和有效處理場(chǎng)景邊緣物體是未來(lái)研究的重點(diǎn)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看