章益民
摘? 要: 為了高效地實(shí)現(xiàn)大規(guī)模室內(nèi)點(diǎn)云場(chǎng)景語(yǔ)義分割,針對(duì)邊界點(diǎn)云的特征信息難以區(qū)分、場(chǎng)景點(diǎn)云規(guī)模過(guò)于龐大而導(dǎo)致其難以直接進(jìn)行分割網(wǎng)絡(luò)的有效訓(xùn)練等問題,以超面片為數(shù)據(jù)表征,結(jié)合超面片Transformer模塊(SPT)和對(duì)比邊界學(xué)習(xí)模塊(CBL),提出一種基于對(duì)比邊界學(xué)習(xí)的超面片Transformer點(diǎn)云分割網(wǎng)絡(luò)。針對(duì)數(shù)據(jù)集S3DIS進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)在分割精度上比Dgcnn網(wǎng)絡(luò)高3.9%,在訓(xùn)練速度方面比SPGraph網(wǎng)絡(luò)快近100倍,針對(duì)大規(guī)模室內(nèi)點(diǎn)云場(chǎng)景分割效果尤為突出。
關(guān)鍵詞: 點(diǎn)云; 語(yǔ)義分割; 自注意力; 超面片Transformer; 對(duì)比邊界學(xué)習(xí)
中圖分類號(hào):TP391.41? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)09-75-06
Contrastive boundary learning based Transformer network for point cloud segmentation
Zhang Yimin
(School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China)
Abstract: For the issue of semantic segmentation for large-scale indoor point clouds scenes, it is difficult to distinguish the feature information of boundary point clouds and it is challenging to train deep neural networks efficiently due to the vast amount of point clouds data. Taking scene super-patch as data representation, combining the super-patch Transformer (SPT) module and the contrastive boundary learning (CBL) module, a contrastive boundary learning based Transformer network is proposed. The network is trained on public datasets S3DIS. The experimental results show that the overall accuracy of the network is 3.9% higher than the Dgcnn network, and the network training speed is nearly 100 times faster than the SPGraph network. The segmentation effect is outstanding in large-scale indoor point cloud scenes.
Key words: point clouds; semantic segmentation; self-attention; super-patch Transformer; contrastive boundary learning
0 引言
點(diǎn)云語(yǔ)義分割對(duì)于3D環(huán)境理解至關(guān)重要,在機(jī)器人感知[1]、室內(nèi)導(dǎo)航[2]、增強(qiáng)現(xiàn)實(shí)[3]等領(lǐng)域已受到廣泛關(guān)注。為了實(shí)現(xiàn)大規(guī)模室內(nèi)點(diǎn)云場(chǎng)景語(yǔ)義分割,一方面,考慮到點(diǎn)云邊界信息的精確細(xì)分對(duì)于整體分割性能影響非常大。錯(cuò)誤的語(yǔ)義分割不利于建筑工程師更好地理解建筑物的幾何結(jié)構(gòu)。另一方面,場(chǎng)景點(diǎn)云過(guò)于規(guī)模龐大導(dǎo)致其難以直接進(jìn)行分割網(wǎng)絡(luò)的有效訓(xùn)練。因此,不同物體邊界點(diǎn)/非邊界點(diǎn)的有效區(qū)分以及如何構(gòu)建一個(gè)高效的語(yǔ)義分割模型是一個(gè)亟待解決的問題。
近些年,隨著大規(guī)模室內(nèi)場(chǎng)景掃描數(shù)據(jù)集的出現(xiàn)[4],針對(duì)點(diǎn)云處理的PointNet網(wǎng)絡(luò)[5]被提出,使得直接將點(diǎn)云數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入成為可能。隨后的PointNet++網(wǎng)絡(luò)[6]使用多層級(jí)降采樣結(jié)構(gòu)以擴(kuò)大采樣點(diǎn)之間的感受野。Wang等[7]提出了基于動(dòng)態(tài)邊緣卷積EdgeConv模塊的Dgcnn網(wǎng)絡(luò)以有效學(xué)習(xí)鄰域點(diǎn)的關(guān)系。Landrieu等[8]提出了一種基于PointNet和圖卷積的點(diǎn)云分割網(wǎng)絡(luò)SPGraph。Guo等[9]提出了一種新的基于Transformer的點(diǎn)云學(xué)習(xí)框架PCT,通過(guò)偏移注意力可以更好地學(xué)習(xí)點(diǎn)云的上下文特征信息。實(shí)際上,室內(nèi)場(chǎng)景中建筑結(jié)構(gòu)和家具物體都具有超面片形狀,因此采用結(jié)合Transformer結(jié)構(gòu)的場(chǎng)景超面片為數(shù)據(jù)表征,既可以提升模型學(xué)習(xí)能力,又能解決硬件資源不足問題。
考慮到清晰的邊界信息對(duì)整體網(wǎng)絡(luò)分割性能至關(guān)重要,Tang等人[10]提出了一個(gè)新穎的對(duì)比邊界學(xué)習(xí)(CBL)框架,通過(guò)學(xué)習(xí)對(duì)比場(chǎng)景邊界上的點(diǎn)特征,來(lái)改善點(diǎn)云全局特征。實(shí)驗(yàn)證明對(duì)比邊界模塊CBL能有效地改善邊界分割性能。因此,為了更好地優(yōu)化網(wǎng)絡(luò)邊界的性能,本文引入對(duì)比邊界學(xué)習(xí)模塊Contrastive Boundary Learning[10]以解決語(yǔ)義分割中邊界模糊問題。
本文主要貢獻(xiàn)在于:①提出一種適合場(chǎng)景超面片特征提取的Transformer模塊(Super-Patch Transformer),該模塊可以有效學(xué)習(xí)場(chǎng)景超面片之間的特征相似度并從幾何語(yǔ)義角度提升場(chǎng)景分割的有效性;②在Transformer框架中引入對(duì)比邊界學(xué)習(xí)策略,有效地提升了場(chǎng)景物體邊界點(diǎn)云與非邊界點(diǎn)云之間的分割性能;③基于CBL模塊和SPT模塊的超面片網(wǎng)絡(luò)適合于大規(guī)模點(diǎn)云場(chǎng)景的語(yǔ)義分割。
1 本文方法
為了實(shí)現(xiàn)大規(guī)模室內(nèi)場(chǎng)景語(yǔ)義分割,本文提出了基于對(duì)比邊界學(xué)習(xí)的超面片Transformer分割框架。具體如圖1所示。
該網(wǎng)絡(luò)首先以大規(guī)模室內(nèi)場(chǎng)景點(diǎn)云數(shù)據(jù)作為輸入,利用動(dòng)態(tài)區(qū)域增長(zhǎng)算法提取室內(nèi)場(chǎng)景中幾何特征一致的點(diǎn)云作為場(chǎng)景超面片;其次在神經(jīng)網(wǎng)絡(luò)編碼器中借助多尺度結(jié)構(gòu),有效聚合相鄰場(chǎng)景超面片的特征信息,同時(shí)通過(guò)子場(chǎng)景邊界檢測(cè)模塊學(xué)習(xí)下采樣場(chǎng)景的邊界標(biāo)簽;然后借助基于多頭自注意力機(jī)制的超面片Transformer模塊(SPT),學(xué)習(xí)場(chǎng)景超面片全局特征以及超面片之間的特征相似度;最后在神經(jīng)網(wǎng)絡(luò)解碼器中通過(guò)線性插值上采樣操作,給每個(gè)超面片分配語(yǔ)義標(biāo)簽,其中上采樣過(guò)程在邊界超面片標(biāo)簽信息指導(dǎo)下,定義了邊界超面片與非邊界超面片樣本對(duì),結(jié)合對(duì)比邊界學(xué)習(xí)CBL模塊中的對(duì)比學(xué)習(xí)損失函數(shù)增強(qiáng)邊界超面片之間的區(qū)分度,最終實(shí)現(xiàn)大規(guī)模室內(nèi)場(chǎng)景語(yǔ)義分割。
1.1 場(chǎng)景超面片Transformer模塊
本文采用場(chǎng)景超面片作為場(chǎng)景點(diǎn)云的一種數(shù)據(jù)表征,可以解決神經(jīng)網(wǎng)絡(luò)難以直接訓(xùn)練大規(guī)模室內(nèi)場(chǎng)景點(diǎn)云的問題。由于場(chǎng)景超面片比離散場(chǎng)景點(diǎn)云通常具有更強(qiáng)的幾何模型表達(dá)能力,為了更好地提取全局特征信息,該模塊采用了Transformer結(jié)構(gòu)[11]。場(chǎng)景超面片Transformer模塊可以將輸入的場(chǎng)景超面片幾何特征映射到更高維的語(yǔ)義隱空間中,從而能夠在高維隱空間中有效學(xué)習(xí)場(chǎng)景超面片之間的相似度。借助Transformer結(jié)構(gòu)學(xué)習(xí)超面片之間的上下文關(guān)系能高效地實(shí)現(xiàn)場(chǎng)景的語(yǔ)義分割。
1.1.1 場(chǎng)景超面片的生成和特征描述
觀察發(fā)現(xiàn),室內(nèi)場(chǎng)景中的人造物體通常是由具有高度結(jié)構(gòu)化的超面片構(gòu)建而成。受到Mattausch等[12]人工作的啟發(fā),本文通過(guò)聚類方法提取場(chǎng)景超面片。其中區(qū)域增長(zhǎng)策略的核心思想是:首先將曲率最大的采樣點(diǎn)[s]作為種子采樣點(diǎn),然后根據(jù)種子采樣點(diǎn)選擇出超面片[Πi]外的最近鄰采樣點(diǎn)[p]。假如最近鄰采樣點(diǎn)[p]滿足以下條件:
[np?ns>t1] ⑴
[(p-s)?ns<t2] ⑵
[(p-q)?nq<t3] ⑶
[#(Πi)<t4] ⑷
則將最近鄰采樣點(diǎn)[p]添加到超面片[Πi]中,直到超面片中采樣點(diǎn)數(shù)達(dá)到閾值上限[t4]則選擇另外一個(gè)種子采樣點(diǎn)重復(fù)上述操作,直至遍歷完場(chǎng)景中所有點(diǎn)云數(shù)據(jù)為止。其中,[q]表示依次添加至超面片[Πi]中的最后一個(gè)采樣點(diǎn),[n]分別表示相應(yīng)采樣點(diǎn)的法向量,[#]表示點(diǎn)集中采樣點(diǎn)數(shù)目。
為了有效描述場(chǎng)景超面片特征信息,本文首先通過(guò)PCA方法[13]獲取超面片高度、面積、長(zhǎng)寬比等;最后利用超面片邊界框的質(zhì)心代表超面片質(zhì)心。同時(shí),場(chǎng)景超面片特征還可以包括PCA法線、顏色、面積填充比等特征信息。具體描述如表1所示,包含豐富特征信息的超面片將有助于神經(jīng)網(wǎng)絡(luò)更好地學(xué)習(xí)場(chǎng)景超面片之間的語(yǔ)義關(guān)系。
1.1.2 超面片Transformer結(jié)構(gòu)
為了在高維語(yǔ)義隱空間中有效地學(xué)習(xí)場(chǎng)景超面片之間的相似度,本文堆疊了四個(gè)偏移注意力模塊構(gòu)造出超面片Transformer模塊(SPT)用于學(xué)習(xí)超面片的幾何特征。如圖2所示,給定輸入的場(chǎng)景超面片數(shù)據(jù)[Πi∈RNi×(3+di)],其由[Ni]個(gè)包含[di]維特征信息和三維的質(zhì)心坐標(biāo)的場(chǎng)景超面片組成。借助四個(gè)自注意力層得到輸出特征[Fo∈RNo×do],其中[de=da=do/4],公式如下:
[F1=AT1(Fe)] ⑸
[Fi=ATiFi-1, i=2,3,4] ⑹
[Fo=concat(F1,F(xiàn)2,F(xiàn)3,F(xiàn)4)?Wo] ⑺
其中,[ATi]代表第[i]層的注意力層,[Wo]代表線性層權(quán)重。
自注意力機(jī)制的核心思想是首先通過(guò)對(duì)輸入數(shù)據(jù)做線形變換得到查詢矩陣和鍵值矩陣以及值矩陣,接著通過(guò)矩陣點(diǎn)乘運(yùn)算與歸一化操作計(jì)算輸入數(shù)據(jù)之間的相關(guān)性得到注意力矩陣。
如式⑻所示,自注意力層輸出向量[Fsa]是值向量[V]與相應(yīng)的注意力矩陣權(quán)重[A]的加權(quán)和。如式⑼所示,為了加強(qiáng)輸出特征與輸入特征之間的關(guān)聯(lián)性,將經(jīng)過(guò)線性變換的自注意力特征[Fsa]與輸入特征[Fi]進(jìn)行相加得到最終的輸出特征:
[Fsa=A?V] ⑻
[Fo=SAFi=Relu(BNMLPFsa)+Fi] ⑼
如圖3所示,本文采用PCT網(wǎng)絡(luò)[9]中偏移注意力代替自注意力方式加強(qiáng)點(diǎn)云在Transformer中的性能。偏移注意力層通過(guò)矩陣減法計(jì)算自注意力輸出特征與輸入特征之間的偏移量,算式如下:
[Fo=OAFi=Relu(BNMLPFi-Fsa)+Fi] ⑽
偏移注意力采用softmax函數(shù)和歸一化函數(shù)實(shí)現(xiàn),具體公式如下:
[(αo)i,j=softmax(αoi,j)=exp ((αo)i,j)∑exp ((αo)k,j)]? ⑾
[(α)i,j=(αo)i,jk(αo)k,j] ⑿
采用偏移注意力模塊具有以下幾點(diǎn)明顯的優(yōu)勢(shì)。①可以有效地獲取到輸入特征與自注意特征的差異;②支持并行計(jì)算的能力,將更多的算力運(yùn)用到注意力高的特征中,提高了模型的解釋性。
1.2 對(duì)比邊界學(xué)習(xí)模塊
為了改善邊界分割性能,本文采用將邊界信息嵌入到對(duì)比學(xué)習(xí)中。首先在下采樣過(guò)程中采用子場(chǎng)景邊界檢測(cè)模塊學(xué)習(xí)邊界超面片語(yǔ)義標(biāo)簽,然后在各個(gè)階段的超面片語(yǔ)義標(biāo)簽指導(dǎo)下,結(jié)合對(duì)比邊界學(xué)習(xí)模塊(CBL)[10]的損失函數(shù)進(jìn)行模型的優(yōu)化調(diào)整,最后實(shí)現(xiàn)邊界超面片與非邊界點(diǎn)超面片的良好區(qū)分,進(jìn)而改善邊界細(xì)分質(zhì)量。
1.2.1 對(duì)比邊界學(xué)習(xí)模塊
為了確定真實(shí)場(chǎng)景和預(yù)測(cè)場(chǎng)景中邊界超面片。如式⒀,在真實(shí)場(chǎng)景中,假如超面片[Πi]符合其鄰域內(nèi)存在三個(gè)不同語(yǔ)義類別的超面片[Πj],本文將其定義為邊界超面片[Bl];相似地,在預(yù)測(cè)場(chǎng)景中,倘若一個(gè)超面片[Πi]鄰域內(nèi)存在不同語(yǔ)義類別的超面片[Πj],本文將其則定義為邊界預(yù)測(cè)超面片[Bp]。
[Bl={Πi∈Π| ?Πj∈Ni,lj≠li}] ⒀
[Bp={Πi∈Π| ?Πj∈Ni,pj≠pp}] ⒁
其中,[Ni]代表以超面片[Πi]為中心的鄰域超面片。[lj]代表鄰域超面片的真實(shí)標(biāo)簽,而[pj]代表鄰域超面片的預(yù)測(cè)標(biāo)簽。
為了更好地區(qū)分邊界超面片與非邊界超面片,本文采用InfoNCE loss[14]損失函數(shù)進(jìn)行學(xué)習(xí)。其核心思想是通過(guò)計(jì)算超面片之間特征距離表示邊界超面片與非邊界超面片之間的差異性,實(shí)現(xiàn)語(yǔ)義類別相同的鄰域超面片相互靠近,而語(yǔ)義類別不同的鄰域超面片嚴(yán)格區(qū)分。如下面公式所得:
[LCBL=-1|Bl|Πi∈BllogΠj∈Ni?lj=liexp (-d(fi,fj)/τ)Πk∈Niexp (-d(fi,fk)/τ)] ⒂
其中,[fi]代表超面片[Πi]的面片特征,[d]是距離函數(shù),[τ]是對(duì)比學(xué)習(xí)中的溫度系數(shù)。本文將與中心超面片[Πi]的語(yǔ)義標(biāo)簽相同的鄰域超面片[Πj]定義為正樣本,而與[Πi]語(yǔ)義標(biāo)簽不同的鄰域超面片[Πj]則定義為負(fù)樣本。根據(jù)對(duì)比邊界學(xué)習(xí)損失函數(shù),計(jì)算損失以增強(qiáng)場(chǎng)景邊界超面片之間的特征區(qū)分度。這極大地改善了邊界區(qū)域分割效果。
1.2.2 子場(chǎng)景邊界檢測(cè)模塊
針對(duì)點(diǎn)云降采樣過(guò)程中使用最遠(yuǎn)點(diǎn)采樣FPS[15]算法會(huì)導(dǎo)致下采樣超面片的語(yǔ)義標(biāo)簽難以確認(rèn)的問題。本文采用在多尺度結(jié)構(gòu)中嵌入子場(chǎng)景邊界檢測(cè)模塊以確認(rèn)每一個(gè)降采樣階段的真實(shí)的邊界超面片語(yǔ)義標(biāo)簽。該模塊的主要思路是針對(duì)第[n]個(gè)下采樣階段第[i]個(gè)超面片[Πni],其中上標(biāo)表示階段。首先通過(guò)Knn[16]算法為其在[n-1]下采樣階段中獲取鄰域超面片[Nn-1(Πni)] (如圖1中的黑色虛線圓);接著通過(guò)平均池化函數(shù)AVG,聚合鄰域超面片的標(biāo)簽信息;最后通過(guò)迭代方式確定不同子采樣階段的真實(shí)語(yǔ)義標(biāo)簽。具體如下:
[lni=AVG({ln-1j|Πn-1j∈Nn-1(Πni)})] ⒃
本文采用argmax[lni]來(lái)評(píng)估公式13中的邊界點(diǎn)。在子場(chǎng)景邊界檢測(cè)模塊的幫助下,將下采樣超面片[Πni]的特征以及標(biāo)簽信息作為等式15對(duì)比邊界優(yōu)化的輸入?yún)?shù)。將對(duì)比邊界學(xué)習(xí)CBL模塊應(yīng)用到每個(gè)階段中,計(jì)算最終的損失為下列公式所示:
[L=Lcross-entropy+λnLnCBL] ⒄
其中,[Lcross-entropy]是交叉熵?fù)p失函數(shù),而[LnCBL]是第[n]階段中的CBL損失。[λ]是損失權(quán)重,用于表征不同層產(chǎn)生損失的重要性。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 數(shù)據(jù)集
本文采用數(shù)據(jù)集S3DIS[4]中Area2與Area5分別作為測(cè)試集來(lái)驗(yàn)證網(wǎng)絡(luò)框架的性能。該數(shù)據(jù)集中包含六個(gè)大規(guī)模的室內(nèi)區(qū)域,共含272個(gè)房間,每個(gè)房間都包含真實(shí)語(yǔ)義標(biāo)注的3D點(diǎn)云,共13種語(yǔ)義類別。其中Area2中包含千萬(wàn)規(guī)模級(jí)別的大劇院場(chǎng)景,每個(gè)劇院場(chǎng)景中具有較多重復(fù)結(jié)構(gòu)的建筑元素。
2.2 本文網(wǎng)絡(luò)的分割效果
本文網(wǎng)絡(luò)高效地實(shí)現(xiàn)了大規(guī)模場(chǎng)景語(yǔ)義分割效果。如圖4給出Area2中劇院場(chǎng)景的語(yǔ)義分割效果。點(diǎn)云分割結(jié)果既保持場(chǎng)景的完整結(jié)構(gòu),又能保持不同物體形狀的邊界較清晰(詳見橢圓處),如墻與地板、門與墻、墻與天花板之間的分割效果。尤其對(duì)于大量重復(fù)結(jié)構(gòu)的椅子和墻以及天花板分割效果最佳。從走廊場(chǎng)景效果圖中可以看出,絕大部分建筑元素均能被精確分割并能保證其結(jié)構(gòu)信息的完整性。尤其對(duì)墻元素,在受到柱子和梁強(qiáng)干擾的情況下仍然能有效地分割出來(lái),表現(xiàn)出網(wǎng)絡(luò)強(qiáng)干擾性。同時(shí)(如圖5),對(duì)于會(huì)議室、辦公室、大廳等小規(guī)模點(diǎn)云場(chǎng)景點(diǎn)云場(chǎng)景,本文網(wǎng)絡(luò)表現(xiàn)出較強(qiáng)的邊界區(qū)分能力,分割效果呈現(xiàn)比較明顯的邊界輪廓。實(shí)驗(yàn)表明,本文網(wǎng)絡(luò)具有較強(qiáng)的魯棒性。
2.3 與不同點(diǎn)云分割方法的比較
為了突出本文網(wǎng)絡(luò)的高效性和邊界區(qū)分性能,本文采用相同數(shù)據(jù)集和相同硬件環(huán)境分別采用不同網(wǎng)絡(luò)進(jìn)行場(chǎng)景語(yǔ)義分割效果的驗(yàn)證實(shí)驗(yàn)。
2.3.1 定性分析
圖5分別給出了在S3DIS數(shù)據(jù)集中Area5的不同方法的分割效果。其中黑色橢圓代表利用不同網(wǎng)絡(luò)具有語(yǔ)義分割差異的場(chǎng)景區(qū)域。實(shí)驗(yàn)結(jié)果表明,Dgcnn網(wǎng)絡(luò)對(duì)于椅子,門框類別分割效果較差。而PointNet++網(wǎng)絡(luò)[6]存在邊界模糊現(xiàn)象,并且難以識(shí)別門、雜物以及書架。
對(duì)比PointNet++網(wǎng)絡(luò),本文網(wǎng)絡(luò)的邊界區(qū)分能力和保結(jié)構(gòu)性更好,比如在辦公室場(chǎng)景中椅子與桌子的相交處邊界劃分清晰、椅子劃分不會(huì)受到桌子的影響。在會(huì)議室場(chǎng)景中墻和黑板以及墻和門的邊界劃分更鮮明。這體現(xiàn)出對(duì)比邊界學(xué)習(xí)(CBL)模塊可以增強(qiáng)邊界超面片與非邊界超面片的區(qū)分度。對(duì)比Dgcnn網(wǎng)絡(luò),本文網(wǎng)絡(luò)對(duì)于黑板、墻、書架以及雜物的分割效果均優(yōu)于Dgcnn網(wǎng)絡(luò),從會(huì)議室場(chǎng)景中可以看出,本文網(wǎng)絡(luò)對(duì)黑板和門的邊界分割能力更強(qiáng),并且墻和地板黑板之間不存在模糊邊界現(xiàn)象。體現(xiàn)超面片Transformer(SPT)模塊在高層語(yǔ)義空間中捕捉了超面片局部特征和全局特征從而擁有較強(qiáng)的學(xué)習(xí)能力。對(duì)比邊界學(xué)習(xí)(CBL)模塊通過(guò)損失函數(shù)優(yōu)化調(diào)整網(wǎng)絡(luò)模型,增強(qiáng)網(wǎng)絡(luò)模型邊界區(qū)分能力。綜上所述,本文網(wǎng)絡(luò)的分割效果優(yōu)于Dgcnn網(wǎng)絡(luò),略優(yōu)于PointNet++網(wǎng)絡(luò)。
2.3.2 定量比較
如表2中各項(xiàng)指標(biāo)統(tǒng)計(jì)所示。與PointNet網(wǎng)絡(luò)和Dgcnn網(wǎng)絡(luò)[7]相比,由于梁類別特征不夠明顯分割效果較差,本文網(wǎng)絡(luò)中其余類別的各項(xiàng)指標(biāo)均有較明顯優(yōu)勢(shì);與PointCNN點(diǎn)云分割網(wǎng)絡(luò)[17]相比,本文網(wǎng)絡(luò)對(duì)天花板、地板、墻、黑板、書架等場(chǎng)景類別的分割交并比高于PointCNN網(wǎng)絡(luò),可以看出上述類別在邊界性能的表現(xiàn)都比較出眾,這說(shuō)明對(duì)比邊界學(xué)習(xí)CBL模塊在網(wǎng)絡(luò)訓(xùn)練中起著重要作用。綜上所述,SPT模塊因?yàn)槌浞挚紤]到不同場(chǎng)景超面片的幾何特征之間的相似度,從而提升了模型的學(xué)習(xí)能力。另一方面,CBL模塊既可以解決邊界模糊問題,也可以提升整體模型的精度。從表3的網(wǎng)絡(luò)訓(xùn)練速度指標(biāo)看,本文以場(chǎng)景超面片作為表征語(yǔ)義分割網(wǎng)絡(luò)訓(xùn)練效率比SPGraph網(wǎng)絡(luò)接近快100倍。本文方法在保證場(chǎng)景高效分割的前提下,其能有效保持場(chǎng)景點(diǎn)云的結(jié)構(gòu)信息并增強(qiáng)模型對(duì)邊界點(diǎn)云的區(qū)分能力。
2.3.3 場(chǎng)景分割效率比較
如表3所示,PointNet網(wǎng)絡(luò)與PointNet++網(wǎng)絡(luò)以及Dgcnn網(wǎng)絡(luò)的訓(xùn)練時(shí)間分別為105min、557min和175min;然而SPGraph網(wǎng)絡(luò)因結(jié)合了圖卷積和PointNet網(wǎng)絡(luò),其訓(xùn)練時(shí)間為2471min。相反地,本文網(wǎng)絡(luò)的訓(xùn)練時(shí)間僅需25min,均快于上述網(wǎng)絡(luò)。相比于SPGraph網(wǎng)絡(luò),本文網(wǎng)絡(luò)達(dá)到了近100倍的運(yùn)行效率優(yōu)勢(shì)。究其原因在于本文網(wǎng)絡(luò)采用超面片作為場(chǎng)景數(shù)據(jù)表征,由于場(chǎng)景超面片數(shù)量遠(yuǎn)小于場(chǎng)景點(diǎn)云數(shù)目,采用場(chǎng)景超面片作為神經(jīng)網(wǎng)絡(luò)輸入可以大大加快分割網(wǎng)絡(luò)的訓(xùn)練時(shí)間和運(yùn)行速度。
3 結(jié)束語(yǔ)
針對(duì)大規(guī)模室內(nèi)點(diǎn)云場(chǎng)景的語(yǔ)義分割問題,本文提出了基于對(duì)比邊界學(xué)習(xí)的超面片Transformer分割網(wǎng)絡(luò)。其中基于多頭注意力機(jī)制的SPT模塊在高層語(yǔ)義空間中學(xué)習(xí)超面片之間的特征相似度,對(duì)比邊界學(xué)習(xí)模塊CBL借助子場(chǎng)景邊界檢測(cè)策略增強(qiáng)跨邊界點(diǎn)云之間的區(qū)分能力。實(shí)驗(yàn)證明,該網(wǎng)絡(luò)可以準(zhǔn)確地、高效地分割大規(guī)模室內(nèi)點(diǎn)云場(chǎng)景。
然而針對(duì)復(fù)雜場(chǎng)景,由于面片的幾何特征比較相似,難以明顯地區(qū)分開。同時(shí)只考慮邊界點(diǎn)難以滿足現(xiàn)實(shí)情況,需要對(duì)邊界內(nèi)點(diǎn)云做進(jìn)一步的探索,通過(guò)學(xué)習(xí)邊界點(diǎn)與其內(nèi)部點(diǎn)云之間的上下文關(guān)系,可以實(shí)現(xiàn)更高效地場(chǎng)景語(yǔ)義分割。
參考文獻(xiàn)(References):
[1] Rusu R B, Marton Z C, Blodow N, et al. Towards 3D point
cloud based object maps for household environments[J]. Robotics and Autonomous Systems,2008,56(11):927-941.
[2] Zhu Y, Mottaghi R, Kolve E, et al. Target-driven visual
navigation in indoor scenes using deep reinforcement learning[C]//Proceedings of IEEE International Conference on Robotics and Automation (ICRA),2017:3357-3364.
[3] Wirth F, Quehl J, Ota J, et al. Pointatme: efficient 3d point
cloud labeling in virtual reality[C]//Proceedings of IEEE Intelligent Vehicles Symposium,2019:1693-1698.
[4] Armeni I, Sener O, Zamir A R, et al. 3d semantic parsing
of large-scale indoor spaces[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,2016:1534-1543.
[5] Qi C R, Su H, Mo K, et al. Pointnet: Deep learning on
point sets for 3d classification and segmentation[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,2017:652-660.
[6] Qi C R, Yi L, Su H, et al. Pointnet++: Deep hierarchical
feature learning on point sets in a metric space[J]. Advances in Neural Information Processing Systems,2017:30.
[7] Wang Y, Sun Y, Liu Z, et al. Dynamic graph cnn for
learning on point clouds[J]. ACM Transactions on Graphics,2019,38(5):1-12.
[8] Landrieu L, Simonovsky M. Large-scale point cloud
semantic segmentation with superpoint graphs[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,2018:4558-4567.
[9] Guo M H, Cai J X, Liu Z N, et al. PCT: Point cloud
transformer[J]. Computational Visual Media,2021,7(2): 187-199.
[10] Tang L, Zhan Y, Chen Z, et al. Contrastive boundary
learning for point cloud segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022:8489-8499.
[11] Vaswani A, Shazeer N, Parmar N, et al. Attention is all
you need[J]. Advances in Neural Information Processing Systems,2017:30.
[12] O. Mattausch, D. Panozzo, C. Mura, O. Sorkine-
Hornung, and R. Pajarola. Object detection and classification from large-scale cluttered indoor scans. Computer Graphics Forum,2014,33(2):11-21.
[13] Ma?kiewicz A, Ratajczak W. Principal components
analysis[J]. Computers & Geosciences,1993,19(3):303-342.
[14] Oord A, Li Y, Vinyals O. Representation learning with
contrastive predictive coding[J]. arXiv preprint arXiv:1807.03748,2018.
[15] Moenning C, Dodgson N A. Fast marching farthest point
sampling for implicit surfaces and point clouds[J]. Computer Laboratory Technical Report,2003,565:1-12.
[16] Guo G, Wang H, Bell D, et al. KNN model-based
approach in classification[J]. Lecture Notes in Computer Science,2003:986-996.
[17] Li Y, Bu R, Sun M, et al. Pointcnn: Convolution on x-
transformed points[J]. Advances in neural information processing systems,2018,31.
[18] Tchapmi L, Choy C, Armeni I, et al. Segcloud: Semantic
segmentation of 3d point clouds[C] //Proceedings of IEEE International Conference on 3D vision,2017:537-547.