張 蕊,孟曉曼,曾志遠(yuǎn),金 瑋,武益超
華北水利水電大學(xué) 信息工程學(xué)院,鄭州 450046
近年來,隨著三維成像技術(shù)的快速發(fā)展與激光掃描設(shè)備的日益普及,3D點(diǎn)云數(shù)據(jù)[1-2]的獲取變得越發(fā)便捷。點(diǎn)云是由一系列點(diǎn)組成的具有顯著空間幾何特征信息的點(diǎn)集。相較于二維圖像數(shù)據(jù)[3-4],點(diǎn)云數(shù)據(jù)具有豐富的深度信息和空間信息等優(yōu)勢(shì),能夠有效地表達(dá)空間中物體的大小、結(jié)構(gòu)、位置和方向,故其空間信息利用程度更高。但其稀疏性、隨機(jī)性和非結(jié)構(gòu)化的特點(diǎn)使得基于點(diǎn)云的語(yǔ)義分割[5-7]充滿挑戰(zhàn)。點(diǎn)云語(yǔ)義分割是將每一個(gè)點(diǎn)歸類為其所屬對(duì)象的語(yǔ)義類別的技術(shù)。它作為點(diǎn)云數(shù)據(jù)處理和分析的基礎(chǔ)技術(shù),在地圖地理信息、導(dǎo)航定位、計(jì)算機(jī)視覺、模式識(shí)別等領(lǐng)域中都有著廣泛的應(yīng)用。在計(jì)算機(jī)視覺中的自動(dòng)駕駛技術(shù),自動(dòng)駕駛技術(shù)的關(guān)鍵內(nèi)容是環(huán)境辨別和路況檢測(cè),構(gòu)建網(wǎng)絡(luò)模型實(shí)現(xiàn)點(diǎn)云語(yǔ)義分割是環(huán)境辨別和路況檢測(cè)的基礎(chǔ),模型分割精度越高,環(huán)境辨別和路況檢測(cè)越精準(zhǔn),自動(dòng)駕駛技術(shù)越成熟。在地理地圖信息領(lǐng)域,由于地理面積龐大,地形復(fù)雜,人工處理需要消耗更多的人力物力,且效率較低,點(diǎn)云語(yǔ)義分割可以高效地識(shí)別并分割山川、河流、樹木等目標(biāo),減少人力物力的使用,且處理效率高。在導(dǎo)航定位領(lǐng)域,點(diǎn)云語(yǔ)義分割技術(shù)的成熟程度決定導(dǎo)航技術(shù)的準(zhǔn)確度,分割精度越高,導(dǎo)航準(zhǔn)確度越高。
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)[8-9](convolutional neural net‐work,CNN)在二維圖像語(yǔ)義分割[10-12]上取得了很好的分割效果。這類網(wǎng)絡(luò)能很好地處理圖像、文本和語(yǔ)音等這類歐氏空間數(shù)據(jù),但其卻很難直接對(duì)點(diǎn)云等不規(guī)則數(shù)據(jù)進(jìn)行處理。在二維圖像領(lǐng)域,一張圖片可以表示為分布均勻的像素點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)通過卷積核在局部進(jìn)行特征學(xué)習(xí),從而獲取圖片的特征信息;而在三維數(shù)據(jù)領(lǐng)域,一個(gè)場(chǎng)景是由一系列點(diǎn)組成的,這些點(diǎn)(點(diǎn)云)具有非結(jié)構(gòu)化、分布不均勻和數(shù)據(jù)量大等特點(diǎn),傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)很難直接對(duì)其進(jìn)行處理。為了使點(diǎn)云數(shù)據(jù)適用于卷積神經(jīng)網(wǎng)絡(luò),研究者們將其轉(zhuǎn)換為規(guī)則的結(jié)構(gòu)(即多視圖、體素和網(wǎng)格),作為網(wǎng)絡(luò)模型的輸入,但這種轉(zhuǎn)換會(huì)丟失大量空間幾何信息,因此研究者們開始廣泛關(guān)注如何直接對(duì)點(diǎn)云數(shù)據(jù)構(gòu)造深度學(xué)習(xí)模型。目前已有一些綜述性論文[13-15]對(duì)基于深度學(xué)習(xí)的點(diǎn)云語(yǔ)義分割研究進(jìn)行了總結(jié)和分析。它們將基于深度學(xué)習(xí)的點(diǎn)云語(yǔ)義分割方法按照間接法和直接法進(jìn)行分類,并對(duì)這兩類方法進(jìn)行了詳細(xì)劃分。圖卷積神經(jīng)網(wǎng)絡(luò)[16-17](graph convolutional neural network,GCN)直接在圖結(jié)構(gòu)上進(jìn)行操作,根據(jù)節(jié)點(diǎn)之間的依賴關(guān)系,提取特征。由于其獨(dú)特的特征提取方式特別適合對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行建模,近些年成為學(xué)者研究的重要課題之一?;趫D卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)云語(yǔ)義分割方法研究屬于直接法中的一類,雖然在上述幾篇綜述性文章中有所體現(xiàn),但這些文章中對(duì)其介紹相對(duì)粗略,沒有對(duì)其進(jìn)一步詳細(xì)劃分。因此,本文對(duì)基于圖卷積神經(jīng)網(wǎng)絡(luò)的三維點(diǎn)云語(yǔ)義分割方法進(jìn)行分類整理,在算法內(nèi)容上,添加了最近提出的新方法,總結(jié)了近幾年多種三維點(diǎn)云語(yǔ)義分割算法,并且按照?qǐng)D卷積網(wǎng)絡(luò)的類型對(duì)其進(jìn)行分類。此外,介紹一些常用的點(diǎn)云數(shù)據(jù)集以及評(píng)價(jià)指標(biāo)。最后對(duì)點(diǎn)云語(yǔ)義分割面臨的挑戰(zhàn)做出總結(jié)并進(jìn)行展望。
隨著卷積神經(jīng)網(wǎng)絡(luò)[18-19]技術(shù)的迅速出現(xiàn),基于深度學(xué)習(xí)[20-21]的語(yǔ)義分割的精度得到了大幅度提高。深度學(xué)習(xí)已經(jīng)廣泛應(yīng)用于二維圖像的處理中,但由于3D點(diǎn)云數(shù)據(jù)的不規(guī)則性、無序性等特點(diǎn),使其在點(diǎn)云語(yǔ)義分割上的應(yīng)用仍面臨著諸多挑戰(zhàn)。
目前基于深度學(xué)習(xí)的點(diǎn)云語(yǔ)義分割方法可以分為間接方法和直接方法兩大類,如圖1所示。其中間接方法包括基于投影[22-24]、基于體素[25-27]、基于多視圖[28-30]等方法?;谕队暗姆椒ㄍㄟ^投影能夠縮小點(diǎn)云的維度和計(jì)算成本,但其存在離散化誤差和遮擋等問題,會(huì)造成空間信息的丟失;基于體素的方法將點(diǎn)云轉(zhuǎn)化為體素格式,與投影方法相比信息丟失得少,但是會(huì)引起體素的粒度以及邊界的模糊等問題,使分割精度降低;基于多視圖的方法利用多視角下的每個(gè)視圖來表示三維模型,解決了點(diǎn)云數(shù)據(jù)的結(jié)構(gòu)化問題,但這些算法空間信息損失較為嚴(yán)重,分割精度不高。直接方法包括基于點(diǎn)處理[31-33]、基于優(yōu)化CNN[34-36]、基于RNN[37-39]、基于無監(jiān)督[40-42]、基于圖卷積[43-97]等方法。這類方法直接對(duì)點(diǎn)云進(jìn)行操作,充分利用點(diǎn)云數(shù)據(jù)的特點(diǎn),能夠有效降低空間信息損失。本文主要介紹直接方法中的基于圖卷積的方法。
圖1 基于深度學(xué)習(xí)的點(diǎn)云語(yǔ)義分割方法分類Fig.1 Point cloud semantic segmentation method classification based on deep learning
根據(jù)圖卷積網(wǎng)絡(luò)的類型,本文將基于圖卷積的方法分為標(biāo)準(zhǔn)圖卷積方法、圖注意力卷積方法、深度圖卷積方法、全方位圖卷積方法、擴(kuò)張圖卷積方法和其他方法,并在圖2中依次列舉了近幾年的網(wǎng)絡(luò)模型。根據(jù)收集到的點(diǎn)云語(yǔ)義分割網(wǎng)絡(luò)模型,圖3統(tǒng)計(jì)了近年來基于圖卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)云語(yǔ)義分割方法的發(fā)展時(shí)間線。接下來,本文將依次對(duì)每一類方法進(jìn)行詳細(xì)介紹。
圖2 基于圖卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)云語(yǔ)義分割方法Fig.2 Semantic segmentation method of point cloud based on graph convolutional neural network
圖3 基于圖卷積的點(diǎn)云語(yǔ)義分割方法時(shí)間線Fig.3 Timeline of point cloud semantic segmentation method based on graph convolution
1.1.1 空間域
在圖結(jié)構(gòu)中,節(jié)點(diǎn)包含豐富的特征信息,邊代表各個(gè)節(jié)點(diǎn)之間的依賴關(guān)系。基于空間域的圖卷積方法利用點(diǎn)云中的每個(gè)點(diǎn)及其相鄰點(diǎn)構(gòu)成圖結(jié)構(gòu),直接對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行卷積,充分利用點(diǎn)云數(shù)據(jù)的特點(diǎn),能夠有效降低空間信息損失。下面將介紹一些基于該類方法的網(wǎng)絡(luò)模型,并在表1中對(duì)該類方法的網(wǎng)絡(luò)模型進(jìn)行了對(duì)比分析。
表1 基于空間域的方法模型的對(duì)比分析表Table 1 Comparative analysis table of method models based on spatial domain
Wang等人[43]首先將圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到點(diǎn)云處理的過程中,并將其與PointNet[31]相結(jié)合,提出了動(dòng)態(tài)圖卷積(dynamic graph CNN,DGCNN)網(wǎng)絡(luò),實(shí)現(xiàn)了對(duì)點(diǎn)云的直接語(yǔ)義分割。PointNet網(wǎng)絡(luò)忽略了點(diǎn)之間的幾何關(guān)系,無法提取點(diǎn)云的局部特征。為了解決這一問題,DGCNN網(wǎng)絡(luò)用邊緣卷積運(yùn)算(EdgeConv)替換了PointNet網(wǎng)絡(luò)中疊加的多層感知機(jī)(multilayer perceptron,MLP),EdgeConv可以在提取點(diǎn)云的局部幾何特征的同時(shí)保持置換不變性。DGCNN網(wǎng)絡(luò)所構(gòu)建的圖是動(dòng)態(tài)的,在網(wǎng)絡(luò)的每一層之后進(jìn)行更新,構(gòu)建新的圖結(jié)構(gòu)。該網(wǎng)絡(luò)提高了分割性能,但空間變換網(wǎng)絡(luò)的引入使得網(wǎng)絡(luò)中可訓(xùn)練參數(shù)相應(yīng)增加,從而增加模型的優(yōu)化難度。DGCNN網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示[43]。
圖4 DGCNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 DGCNN network structure
為了減小網(wǎng)絡(luò)模型的優(yōu)化難度,Zhang等人[44]采用DenseNet[45]的思想,在DGCNN網(wǎng)絡(luò)的基礎(chǔ)上提出鏈接動(dòng)態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)(linked dynamic graph CNN,LDGCNN)模型來處理上述問題。該網(wǎng)絡(luò)將不同動(dòng)態(tài)圖的層次特征連接起來,計(jì)算出信息邊緣向量,有效地避免了梯度消失的問題,減小了網(wǎng)絡(luò)的規(guī)模,在Shape-Net數(shù)據(jù)集上獲得了較好的語(yǔ)義分割結(jié)果。Xiu等人[46]對(duì)DGCNN網(wǎng)絡(luò)進(jìn)行擴(kuò)展,提出了一種動(dòng)態(tài)尺度圖卷積神經(jīng)網(wǎng)絡(luò)(dynamic-scale GCN),旨在通過結(jié)合動(dòng)態(tài)尺度采樣和多尺度鄰域圖對(duì)多尺度局部結(jié)構(gòu)信息進(jìn)行建模。該網(wǎng)絡(luò)采樣和近鄰圖構(gòu)造都是動(dòng)態(tài)實(shí)現(xiàn)的,因此在訓(xùn)練前不需要對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充或預(yù)處理。
點(diǎn)云特征的提取大都通過分層體系結(jié)構(gòu)實(shí)現(xiàn)了優(yōu)異的性能,然而以往的點(diǎn)聚集策略只是在原有的歐幾里德空間中以固定的方式進(jìn)行點(diǎn)采樣和分組,不能適應(yīng)更多不同的場(chǎng)景。為此,Liu等人[47]提出了一種新的分層點(diǎn)集學(xué)習(xí)體系網(wǎng)絡(luò)結(jié)構(gòu)(dynamic points agglomeration,DPAM)。DPAM網(wǎng)絡(luò)具有動(dòng)態(tài)點(diǎn)聚集的特點(diǎn),在網(wǎng)絡(luò)層次結(jié)構(gòu)的每一層,根據(jù)訓(xùn)練點(diǎn)的基本分布對(duì)點(diǎn)進(jìn)行采樣、分組和池化,并對(duì)點(diǎn)的特征進(jìn)行自適應(yīng)權(quán)重聚合。該網(wǎng)絡(luò)基于圖神經(jīng)網(wǎng)絡(luò),以點(diǎn)相似圖為輸入,在點(diǎn)之間進(jìn)行消息傳遞,學(xué)習(xí)聚集矩陣。點(diǎn)聚集(采樣、分組和池化)是一個(gè)輕量級(jí)模塊,可以插入到大多數(shù)現(xiàn)有的體系結(jié)構(gòu)中。此外,該網(wǎng)絡(luò)還提出了一種參數(shù)共享方案,減少內(nèi)存的使用并且減小計(jì)算量。
Liang等人[48]提出了一種分層深度圖卷積神經(jīng)網(wǎng)絡(luò)(hierarchical depthwise graph convolutional neural net‐work,HDGCN)。HDGCN網(wǎng)絡(luò)包含一個(gè)DGConv塊,DGConv塊具有從鄰近點(diǎn)聚集特征和向鄰近點(diǎn)傳輸特征的能力,可以有效地提取局部特征。為了減少內(nèi)存消耗,HDGCN網(wǎng)絡(luò)用1×1的卷積作為逐點(diǎn)卷積來取代空間圖卷積。受層次結(jié)構(gòu)在圖像語(yǔ)義分割和點(diǎn)云語(yǔ)義分割中成功應(yīng)用的啟發(fā),HDGCN網(wǎng)絡(luò)將層次結(jié)構(gòu)與DGConv塊相結(jié)合,分層提取點(diǎn)云的局部和全局特征。層次結(jié)構(gòu)增加了感受野,在不同層次提供不同尺度的形狀信息。該網(wǎng)絡(luò)在一致性方面存在局限性,點(diǎn)云分割精度有待進(jìn)一步提升。
Khan等人[49]提出了新的點(diǎn)云語(yǔ)義分割網(wǎng)絡(luò)(featurebased graph convolutional network,F(xiàn)GCN)。FGCN網(wǎng)絡(luò)使用圖卷積網(wǎng)絡(luò)(GCN)將空間信息或局部鄰域特征編碼為對(duì)稱圖結(jié)構(gòu),對(duì)無向?qū)ΨQ圖中相鄰點(diǎn)的空間排列進(jìn)行編碼,并將其與從2D CNN提取的特征一起傳遞到包含三層局部圖卷積的圖卷積網(wǎng)絡(luò),利用局部和全局特征對(duì)3D點(diǎn)云進(jìn)行語(yǔ)義分割,以生成完整的分割圖。該網(wǎng)絡(luò)能夠有效提高分割任務(wù)的整體性能,但與現(xiàn)有架構(gòu)相比,需要占用更多的內(nèi)存。
為了能夠從局部結(jié)構(gòu)中學(xué)習(xí)特征,以及將局部和全局信息進(jìn)行聚合,Luo等人[50]提出了K-近鄰搜索(KNN)和VLAD(vector of locally aggregated descriptor)[51]結(jié)合的圖卷積網(wǎng)絡(luò)(KNN searching and VLAD combined graph convolutional network,KVGCN),該網(wǎng)絡(luò)通過多個(gè)MLP對(duì)KNN構(gòu)造圖的邊緣進(jìn)行卷積,提取具有代表性的局部特征,然后在特征編碼塊中嵌入VLAD層,聚合局部和全局上下文特征,并且多次重復(fù)使用特征編碼塊,將提取的特征采用跳躍連接的方式進(jìn)行連接,增強(qiáng)網(wǎng)絡(luò)的性能,從而提高語(yǔ)義分割的準(zhǔn)確性。該網(wǎng)絡(luò)中提出的特征合并編碼器中引入了強(qiáng)大的池化機(jī)制,該機(jī)制具有可學(xué)習(xí)的參數(shù),可以通過反向傳播進(jìn)行訓(xùn)練,從局部特征聚合全局表示,但其在KNN構(gòu)造圖中的參數(shù)K和VLAD中的參數(shù)D均為固定值,限制了密集區(qū)域特征學(xué)習(xí)的能力。KVGCN的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖5所示[50]。
圖5 KVGCN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 KVGCN network structure
Lin等人[52]提出了一種用于點(diǎn)云分析的圖卷積網(wǎng)絡(luò)(3D-GCN)。3D-GCN網(wǎng)絡(luò)可以提取任意形狀和大小的無序點(diǎn)云信息,且具有平移不變性、縮放不變性和旋轉(zhuǎn)不變性,對(duì)三維點(diǎn)云數(shù)據(jù)的識(shí)別和分割具有足夠的魯棒性。受圖像卷積和池化技術(shù)的啟發(fā),Li等人[53]提出了一種新型網(wǎng)絡(luò),即PointVGG,該網(wǎng)絡(luò)包含點(diǎn)卷積Pconv、點(diǎn)池化Ppool和用于點(diǎn)云特征學(xué)習(xí)的圖結(jié)構(gòu),通過逐層連接學(xué)習(xí)豐富的高級(jí)特征。Wang等人[54]將圖卷積網(wǎng)絡(luò)(GCN)和多層感知機(jī)(multilayer perceotron,MLP)融合為一個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu)(GCN-MLP),并結(jié)合注意力池化操作,建立了一個(gè)高效的點(diǎn)云特征提取模塊。GCNMLP網(wǎng)絡(luò)將語(yǔ)義和實(shí)例分割整合到一個(gè)統(tǒng)一的模型中,高效地實(shí)現(xiàn)了室內(nèi)場(chǎng)景的分割結(jié)果。
借助圖卷積神經(jīng)網(wǎng)絡(luò)的思想,Chen等人[55]提出了基于方向和距離的圖卷積網(wǎng)絡(luò)(graph convolutional network based on direction and distance,DDGCN)。DDGCN網(wǎng)絡(luò)將方向和距離結(jié)合起來,進(jìn)一步獲取點(diǎn)云中的局部特征。首先,該網(wǎng)絡(luò)以鄰接矩陣的形式獲取點(diǎn)云中的采樣點(diǎn),其次,通過計(jì)算每個(gè)點(diǎn)之間的余弦相似度,得到點(diǎn)云的相似度矩陣,然后選擇KNN算法來提取最相似的點(diǎn),形成局部鄰域圖,最后,對(duì)鄰域圖進(jìn)行動(dòng)態(tài)圖卷積,得到點(diǎn)云的局部特征。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)在分類和語(yǔ)義分割任務(wù)中具有最佳的性能效果。
基于空間域的標(biāo)準(zhǔn)圖卷積方法主要根據(jù)每個(gè)點(diǎn)與其鄰節(jié)點(diǎn)之間的關(guān)系構(gòu)成圖結(jié)構(gòu),在圖上進(jìn)行卷積等操作。與直接基于點(diǎn)的方法相比,考慮了點(diǎn)之間的幾何關(guān)系,能更好地捕獲局部特征。但由于特征的各向同性,標(biāo)準(zhǔn)卷積在點(diǎn)云語(yǔ)義分割中存在固有的局限性,忽略了物體的結(jié)構(gòu),導(dǎo)致分割結(jié)果中物體輪廓差,雜散區(qū)域小。
1.1.2 頻譜域
圖的非歐幾里德特性(如不規(guī)則的結(jié)構(gòu))使得對(duì)圖的卷積和濾波相對(duì)圖像的卷積和濾波較為困難。因此,研究人員從頻譜的角度定義圖卷積,譜圖卷積的介紹[56]中定義了傅里葉域的卷積,這種方式在特征向量計(jì)算的基礎(chǔ)上以矩陣-向量積的形式構(gòu)造卷積,然而,使用特征向量會(huì)導(dǎo)致縮放問題。ChebyNet[57]利用Chebyshev多項(xiàng)式逼近譜卷積,直接使用拉普拉斯算子作為濾波器,提取局部特征,并且提高了測(cè)試精度。由于譜圖卷積的計(jì)算復(fù)雜性,目前基于該類方法的網(wǎng)絡(luò)模型較少,下面將介紹一些基于譜域卷積的網(wǎng)絡(luò)模型,并在表2中對(duì)該類方法的網(wǎng)絡(luò)模型進(jìn)行了對(duì)比分析。
表2 基于頻譜域的方法模型的對(duì)比分析表Table 2 Comparative analysis table of method models based on spectral domain
Wang等人[58]提出了一種新的網(wǎng)絡(luò)模型(local spec‐tral graph convolutional network,LSGCN)。LSGCN網(wǎng)絡(luò)在PointNet++[32]框架的基礎(chǔ)上利用譜圖卷積,并采取不同的池化策略能夠有效解決現(xiàn)有點(diǎn)云深度學(xué)習(xí)方法的局限性。該網(wǎng)絡(luò)將局部譜特征學(xué)習(xí)與遞歸聚類和池化相結(jié)合,為從無序點(diǎn)云中提取點(diǎn)集特征提供了一種新的體系結(jié)構(gòu),具體操作為:在點(diǎn)集特征學(xué)習(xí)中使用局部譜圖卷積,在每個(gè)點(diǎn)的鄰域中加入結(jié)構(gòu)信息,動(dòng)態(tài)構(gòu)建圖結(jié)構(gòu),以端到端的方式進(jìn)行訓(xùn)練,并實(shí)時(shí)計(jì)算拉普拉斯算子和池化層次結(jié)構(gòu)。該網(wǎng)絡(luò)具有處理各種數(shù)據(jù)集和任務(wù)的多功能性,具有很大的使用價(jià)值。
Te等人[59]提出了一種用于點(diǎn)云語(yǔ)義分割的網(wǎng)絡(luò)模型(regularized graph convolutional network,RGCNN)。RGCNN網(wǎng)絡(luò)由三個(gè)圖卷積層組成,每個(gè)層包含圖的構(gòu)造、圖的卷積和特征濾波。該網(wǎng)絡(luò)利用圖譜論,將點(diǎn)云中的點(diǎn)特征視為圖上的信號(hào),并將不規(guī)則點(diǎn)云的特征矩陣和鄰接矩陣作為輸入,然后通過Chebyshev多項(xiàng)式逼近定義圖上的卷積,通過設(shè)計(jì)層間特征關(guān)系的圖拉普拉斯矩陣,實(shí)現(xiàn)了動(dòng)態(tài)圖結(jié)構(gòu)的自適應(yīng)捕獲。同時(shí),根據(jù)所學(xué)到的相關(guān)特征,不斷更新矩陣。RGCNN網(wǎng)絡(luò)不僅解決了點(diǎn)云的置換不變性問題,而且對(duì)點(diǎn)云中的噪聲和密度具有較強(qiáng)的魯棒性,但由于其邊界劃分不清晰,在一定程度上限制了分割性能。
Lu等人[60]提出了一種基于鄰域圖過濾器的深度學(xué)習(xí)網(wǎng)絡(luò)模型(point neighborhood graph convolutional network,PointNGCNN)。PointNGCNN網(wǎng)絡(luò)選擇每個(gè)中心點(diǎn)周圍的K個(gè)最近鄰,并將其轉(zhuǎn)換為基于中心點(diǎn)的局部坐標(biāo),將這些點(diǎn)的特征作為圖信號(hào),然后計(jì)算每個(gè)鄰域的拉普拉斯矩陣,使用Chebyshev多項(xiàng)式作為提取鄰域特征的圖濾波器,將每個(gè)鄰域的特征矩陣和拉普拉斯矩陣加入到網(wǎng)絡(luò)中,使用最大池化操作得到每個(gè)中心點(diǎn)的特征。在鄰域中使用圖過濾器比使用多層感知機(jī)能更有效地提取鄰域點(diǎn)之間的結(jié)構(gòu)信息。
Li等人[61]提出了一種將點(diǎn)云轉(zhuǎn)化為圖數(shù)據(jù)的網(wǎng)絡(luò)(double filter graph convolutional network,DFGCN),DFGCN網(wǎng)絡(luò)首先過濾原始點(diǎn)云,去除噪聲和異常值,并減少圖合成的計(jì)算量。然后,使用點(diǎn)云中每個(gè)點(diǎn)的坐標(biāo)和法向量將這些點(diǎn)轉(zhuǎn)換為圖中的節(jié)點(diǎn),從而構(gòu)建一個(gè)全連通圖。最后,將數(shù)據(jù)視為一個(gè)信號(hào),用低階Chebyshev多項(xiàng)式逼近卷積運(yùn)算,并采用低通道濾波思想減少計(jì)算量。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)模型具有較強(qiáng)的魯棒性和通用性,但其擴(kuò)展性較差,圖結(jié)構(gòu)發(fā)生變化時(shí),需要重構(gòu)拉普拉斯矩陣。
基于頻譜域的標(biāo)準(zhǔn)圖卷積方法使用依賴于拉普拉斯矩陣特征分解的圖的頻譜表示,相應(yīng)的特征向量可以看作是譜圖論諧波分析中的傅里葉基,譜卷積可以定義圖上兩個(gè)信號(hào)的傅里葉變換的元素乘積,這種譜卷積不能保證濾波器的空間定位,因此需要昂貴的計(jì)算,此外,由于譜方法與其相應(yīng)的拉普拉斯矩陣相關(guān)聯(lián),因此,在一個(gè)圖上學(xué)習(xí)的譜CNN模型不能轉(zhuǎn)移到具有不同拉普拉斯矩陣的另一個(gè)圖上,泛化能力較差。
注意力機(jī)制的基本思想是使系統(tǒng)忽略無關(guān)信息而關(guān)注重要信息。注意力機(jī)制通過神經(jīng)網(wǎng)絡(luò)算出梯度并且通過前向傳播和后向反饋來學(xué)習(xí)得到注意力的權(quán)重。為了進(jìn)一步提高精度,研究人員提出了將注意力機(jī)制引入到點(diǎn)云語(yǔ)義分割中。下面將介紹一些基于圖注意力卷積方法的網(wǎng)絡(luò)模型,并在表3中對(duì)該類方法的網(wǎng)絡(luò)模型進(jìn)行了對(duì)比分析。
表3 基于圖注意力卷積方法模型的對(duì)比分析表Table 3 Comparative analysis table of standard graph convolutional method models based on graph attention convolution
Chen等人[62]將自注意力機(jī)制(self-attention)與GCN結(jié)合,提出了一種用于點(diǎn)云分割的網(wǎng)絡(luò)(graph atten‐tion based point neural network,GAPNet)。GAPNet網(wǎng)絡(luò)中的GAPLayer通過突出顯示鄰域中不同的注意力權(quán)重來學(xué)習(xí)每個(gè)點(diǎn)的注意力特征。此外,為了充分提取特征,該網(wǎng)絡(luò)還采用了一種多頭注意力機(jī)制用來聚合從不同的GAPLayer層獲取的特征;為了增強(qiáng)網(wǎng)絡(luò)的魯棒性,該網(wǎng)絡(luò)提出基于鄰節(jié)點(diǎn)的注意力池化層來捕獲局部信息。該網(wǎng)絡(luò)模型最先在點(diǎn)云分割中加入人眼視覺系統(tǒng)中的注意力機(jī)制,但其對(duì)點(diǎn)云數(shù)據(jù)的泛化能力較差,不能高效、穩(wěn)健地處理大規(guī)模的點(diǎn)云數(shù)據(jù)。GAPNet網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示[62]。
圖6 GAPNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 GAPNet network structure
Li等人[63]提出了新的網(wǎng)絡(luò)(graph attention neural network,GANN)。該網(wǎng)絡(luò)利用注意力機(jī)制計(jì)算鄰域內(nèi)不同節(jié)點(diǎn)的關(guān)系,以構(gòu)建圖結(jié)構(gòu)。Wang等人[64]提出了一種新的具有可學(xué)習(xí)內(nèi)核形狀的圖注意力卷積神經(jīng)網(wǎng)絡(luò)(graph attention convolutional network,GACNet)。其中,GAC是一個(gè)通用的、簡(jiǎn)單的模塊,保持了標(biāo)準(zhǔn)卷積的權(quán)值共享特性,可以有效地在圖數(shù)據(jù)上實(shí)現(xiàn),GACNet網(wǎng)絡(luò)在分割目標(biāo)的邊緣部分取得了較好的效果。
Chen等人[65]提出了一種新的分層注意池化圖網(wǎng)絡(luò)(hierarchical attentive pooling graph network,HAPGN)。HAPGN網(wǎng)絡(luò)利用門控圖注意網(wǎng)絡(luò)(gated graph atten‐tion network,GGAN)和分層圖池化模塊(hierarchical graph pooling,HiGPool)作為點(diǎn)云分割的構(gòu)建塊,直接處理原始點(diǎn)云。GGAN不僅可以突出不同鄰域點(diǎn)的重要性,為不同鄰域點(diǎn)指定不同的權(quán)重,還可以突出不同表示子空間的重要性,以增強(qiáng)局部特征提取。HiGPool是一個(gè)新穎的池化模塊,它可以捕獲點(diǎn)的空間布局,從而充分學(xué)習(xí)層次特征,且其在對(duì)噪聲和低點(diǎn)云密度的魯棒性實(shí)驗(yàn)中有較好的效果。
全局上下文相關(guān)性對(duì)三維點(diǎn)云語(yǔ)義分割具有重要的意義。Ma等人[66]提出了一個(gè)點(diǎn)全局上下文推理(point global context reasoning,PointGCR)網(wǎng)絡(luò)模型,沿著通道維度捕獲全局上下文信息。PointGCR網(wǎng)絡(luò)使用圖結(jié)構(gòu)和自注意力機(jī)制來建模通道間的上下文依賴關(guān)系。PointGCR是一個(gè)即插即用、端到端的可訓(xùn)練模塊。Jiang等人[67]提出了一種改進(jìn)的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),該網(wǎng)絡(luò)將基于組提議的多尺度點(diǎn)云圖與基于注意力機(jī)制的自適應(yīng)圖卷積核相結(jié)合,從而提高了標(biāo)記精度。實(shí)驗(yàn)結(jié)果驗(yàn)證了該模型的有效性,表明該模型能夠提高整體性能,但其重要模塊的集成、嵌入能力有待提升。
為了充分提取點(diǎn)云的局部信息,Hu等人[68]提出了一種雙通道多尺度局部信息聚合網(wǎng)絡(luò)模型(a vector attention graph convolutional network,VA-GCN),該網(wǎng)絡(luò)中包含一種高效的向量注意力模塊(vector attention convolution,VAConv)。VAConv模塊利用中心點(diǎn)與其相鄰點(diǎn)之間向量的仰角和方位角關(guān)系構(gòu)建邊緣特征的注意力權(quán)重矩陣,同時(shí),在局部信息中加入受相對(duì)向量約束的全局信息,豐富輸出特征的語(yǔ)義。之后,VA-GCN網(wǎng)絡(luò)通過疊加EdgeConv和VAConv,融合加權(quán)邊緣特征和全局特征,并在全局語(yǔ)義中添加了低維和高維的相對(duì)幾何關(guān)系。Kang等人[69]提出了一種端到端的網(wǎng)絡(luò)結(jié)構(gòu)——金字塔網(wǎng)絡(luò)(pyramid attention network,PyramNet)。PyramNet網(wǎng)絡(luò)中設(shè)計(jì)了兩種新的算子——金字塔注意網(wǎng)絡(luò)(PAN)和GEM。在增加接受野的同時(shí),PAN不僅可以為每個(gè)點(diǎn)分配一些較強(qiáng)的語(yǔ)義特征,而且盡可能地保留了幾何信息。GEM將點(diǎn)云結(jié)構(gòu)和圖關(guān)聯(lián)起來,利用協(xié)方差矩陣探索點(diǎn)之間的關(guān)系,增強(qiáng)網(wǎng)絡(luò)的局部特征表達(dá)能力。
Xie等人[70]提出了基于注意力的圖卷積網(wǎng)絡(luò)(atten‐tion-based graph convolutional network,AGCN)。AGCN網(wǎng)絡(luò)充分學(xué)習(xí)和聚合局部結(jié)構(gòu)信息,具有較低的計(jì)算開銷和更快的訓(xùn)練速度。Du等人[71]提出了局部-全局圖卷積方法(local-global graph convolutional method,LGGCM),LGGCM框架是包含LSA Conv(local spa‐tial attention convolution)和GSA(global spatial atten‐tion)兩大模塊。LSA Conv模塊包括兩個(gè)部分:生成由鄰節(jié)點(diǎn)組成的局部圖的加權(quán)鄰接矩陣,以及更新和聚合節(jié)點(diǎn)特征以獲得局部點(diǎn)云的空間幾何特征。此外,LSA Conv模塊中嵌入的中心點(diǎn)平滑模塊,通過自適應(yīng)地調(diào)整中心點(diǎn)的位置坐標(biāo),增強(qiáng)了卷積操作對(duì)噪聲干擾的魯棒性。帶有門控單元(gated unit)的GSA模塊旨在計(jì)算局部結(jié)構(gòu)之間的相關(guān)性并學(xué)習(xí)點(diǎn)之間的依賴關(guān)系。AGCN網(wǎng)絡(luò)可以進(jìn)一步提高區(qū)分目標(biāo)邊界的能力,但其對(duì)點(diǎn)較稀疏的類別(如立柱、沙發(fā)等),分割性能有待提升。LGGCM的網(wǎng)絡(luò)模型如圖7所示[71]。
圖7 LGGCM網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 LGGCM network structure
基于圖注意力卷積的方法通過給不同的相鄰點(diǎn)分配特定的注意力權(quán)重,從而忽略無關(guān)信息,關(guān)注重點(diǎn)信息,與標(biāo)準(zhǔn)圖卷積方法相比,該類方法考慮物體結(jié)構(gòu),能更進(jìn)一步提取點(diǎn)云特征,在一定程度上有效提升點(diǎn)云分割精度,但三維點(diǎn)云語(yǔ)義分割中類不平衡問題仍是一個(gè)具有挑戰(zhàn)性的問題。對(duì)于點(diǎn)較多的區(qū)域(如天花板、墻壁等)分割精度通常較高,而對(duì)于點(diǎn)少的類別(如立柱、沙發(fā)等),分割效果還有待提升。
卷積神經(jīng)網(wǎng)絡(luò)中存在的梯度消失問題限制了網(wǎng)絡(luò)的深度。ResNet[72]中引入輸入和輸出層之間的殘差連接,極大地緩解了梯度消失的問題。目前為止,ResNets可以達(dá)到152層甚至更多,DenseNet提供了進(jìn)一步的擴(kuò)展,在跨層中引入了更多的連接。深層網(wǎng)絡(luò)可能由于池化導(dǎo)致空間信息丟失的問題也通過擴(kuò)展卷積[73]得到了解決。于是,研究者們將深度網(wǎng)絡(luò)這一概念應(yīng)用到GCN中。下面將介紹一些基于深度圖卷積方法的網(wǎng)絡(luò)模型,并在表4中對(duì)該類方法的網(wǎng)絡(luò)模型進(jìn)行了對(duì)比分析。
表4 基于深度圖卷積方法模型的對(duì)比分析表Table 4 Comparative analysis table of models based on depth graph convolutional method
Li等人[74]提出了一種深度圖卷積(deep graph con‐volutional networks,DeepGCNs)。DeepGCNs網(wǎng)絡(luò)將殘余連接、密集連接和擴(kuò)張卷積進(jìn)行融合,訓(xùn)練深層GCNs。并且在GCNs中添加跳躍連接,解決阻礙GCNs層數(shù)更深的問題。此外,擴(kuò)張卷積有助于在不損失分辨率的情況下獲得更大的接受域。即使在點(diǎn)的最近鄰數(shù)很少的情況下構(gòu)造圖結(jié)構(gòu)時(shí),也能實(shí)現(xiàn)高性能的點(diǎn)云語(yǔ)義分割,但該網(wǎng)絡(luò)的擴(kuò)展能力較弱,不能轉(zhuǎn)換到其他網(wǎng)絡(luò)架構(gòu)。DeepGCNS網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示[74]。
圖8 DeepGCNs網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.8 DeepGCNs network structure
DeeperGCN[75]網(wǎng)絡(luò)能夠訓(xùn)練深層GCN,定義了可微的廣義聚合函數(shù),并提出了新的歸一化層。Deep‐erGCN網(wǎng)絡(luò)在節(jié)點(diǎn)屬性預(yù)測(cè)和圖屬性預(yù)測(cè)的大規(guī)模圖學(xué)習(xí)任務(wù)上的性能有了明顯提升,但該網(wǎng)絡(luò)層次深度較深,需要更多內(nèi)存資源且消耗更多時(shí)間,訓(xùn)練模型會(huì)增加能源消耗。Li等人[76]將殘差連接、密集連接和擴(kuò)張卷積整合到一個(gè)圖框架中,提出了深度GCN架構(gòu)(Deep‐GCNs)。該網(wǎng)絡(luò)成功訓(xùn)練112層的GCN網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)在分類和分割任務(wù)中取得了不錯(cuò)的結(jié)果。
Chai等人[77]提出的深度圖注意力網(wǎng)絡(luò)(deep graph attention convolutional network,DeepGAC)將圖注意力卷積GAC與DeepGCNs結(jié)合,通過殘差連接來加深圖卷積網(wǎng)絡(luò)層數(shù),可以有效解決網(wǎng)絡(luò)過深所導(dǎo)致的梯度消失和網(wǎng)絡(luò)退化的問題。采用注意力機(jī)制可以使網(wǎng)絡(luò)有選擇地關(guān)注最相關(guān)的鄰域點(diǎn)并為其分配不同的注意力權(quán)重,并且通過動(dòng)態(tài)圖卷積來生成更好的圖結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)在窗戶、沙發(fā)和桌子這類形狀相似以及難以區(qū)分的目標(biāo)物上效果良好,但對(duì)于柱體和雜物等這類特征信息不夠明顯的物體,測(cè)試結(jié)果略差。
由于DeepGCNs算法不能充分利用點(diǎn)云的全局特征進(jìn)行語(yǔ)義分割,因此,Wang等人[78]提出了一種稱為DeepGCNs-Att的新型網(wǎng)絡(luò)結(jié)構(gòu)來有效地聚合全局上下文特征。該網(wǎng)絡(luò)使用ResGCN作為GCN主干塊,在網(wǎng)絡(luò)的輸出層使用多層感知機(jī)進(jìn)行降維,然后使用空間注意力和通道注意力,自適應(yīng)地聚合全局特征。在相同的GCN層數(shù)下,該網(wǎng)絡(luò)模型比其他模型具有更高的精度和更快的計(jì)算速度。實(shí)驗(yàn)表明,DeepGCNs-Att網(wǎng)絡(luò)對(duì)采樣密度變化具有很強(qiáng)的魯棒性,并且具有很好的正確率。
基于深度圖卷積的方法主要使用殘差/密集連接和擴(kuò)張卷積來解決深層網(wǎng)絡(luò)存在的梯度消失問題,并且在一定程度上提升了網(wǎng)絡(luò)分割性能,但該類方法網(wǎng)絡(luò)設(shè)計(jì)和算法使用上面還有一定的進(jìn)步空間,而且選擇更合適的抽樣方法能進(jìn)一步提高分割性能。
PointSIFT[80]等最近的研究表明,空間結(jié)構(gòu)信息可以提高語(yǔ)義分割的性能。現(xiàn)有的很多網(wǎng)絡(luò)大多使用KNN搜索算法來生成圖結(jié)構(gòu),這種方法會(huì)忽略某些空間結(jié)構(gòu)信息,因此,一些研究者提出了多方位搜索圖卷積網(wǎng)絡(luò)。下面將介紹一些基于多方位搜索圖卷積方法的網(wǎng)絡(luò)模型,并在表5中對(duì)該類方法的網(wǎng)絡(luò)模型進(jìn)行了對(duì)比分析。
表5 基于多方位搜索圖卷積方法模型的對(duì)比分析表Table 5 Comparative analysis table based on multi-directional search graph convolution method model
Cai等人[81]提出了用于點(diǎn)云語(yǔ)義分割的空間聚合網(wǎng)絡(luò)(spatial aggregation net,SAN)。SAN網(wǎng)絡(luò)首先,采用八角搜索法來捕捉每個(gè)采樣點(diǎn)周圍的鄰近點(diǎn),其次,使用多方向卷積來提取不同方向的采樣點(diǎn)的信息,最后,使用最大池化來聚合來自不同方向的信息。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)對(duì)小物體在分割精度和時(shí)間復(fù)雜度方面都有良好的效果,但由于該網(wǎng)絡(luò)處理大規(guī)模點(diǎn)云數(shù)據(jù)時(shí)訓(xùn)練時(shí)間較長(zhǎng),且大規(guī)模點(diǎn)云作為輸入進(jìn)行二次采樣的過程會(huì)導(dǎo)致嚴(yán)重的信息丟失,而不能直接用于大規(guī)模的點(diǎn)云分割任務(wù)。
Zhang等人[82]通過在全方位圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中提出局部KNNs模式,以捕獲全局和局部空間布局,稱為L(zhǎng)KPO-GNN,該網(wǎng)絡(luò)將無序的三維點(diǎn)云轉(zhuǎn)化為有序的一維序列,以便將原始數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)和降低計(jì)算復(fù)雜度。LKPO-GNN網(wǎng)絡(luò)選擇全方位KNNs來形成質(zhì)心的局部拓?fù)浣Y(jié)構(gòu),用來描述點(diǎn)云中的局部形狀,然后,使用GNN聚合局部空間結(jié)構(gòu),并將無序點(diǎn)云表示為全局圖。該模型可以獲得更深層次的特征表示,從而提高分類和分割性能,實(shí)驗(yàn)結(jié)果表明了該模型的簡(jiǎn)單性和有效性。
Feng等人[83]提出了一個(gè)局部注意力邊卷積網(wǎng)絡(luò)(local attention-edge convolution,LAE-Conv)來構(gòu)造基于多方向搜索的鄰域點(diǎn)的局部圖。LAE-Conv網(wǎng)絡(luò)將注意力系數(shù)分配給每條邊,然后將中心點(diǎn)特征聚合為其鄰域的加權(quán)和。該網(wǎng)絡(luò)提出了一種新穎的逐點(diǎn)空間注意力模塊,用來學(xué)習(xí)遠(yuǎn)程上下文信息并通過提高從LAEConv層獲取的局部特征的表征能力來顯著改善分割結(jié)果。該網(wǎng)絡(luò)將LAE-Conv層與逐點(diǎn)注意力模塊結(jié)合起來,可以學(xué)習(xí)豐富的局部特征及其上下文相關(guān)性,實(shí)驗(yàn)結(jié)果表明,該方法能有效提高分割結(jié)果,但網(wǎng)絡(luò)參數(shù)還有待進(jìn)一步降低,同時(shí)網(wǎng)絡(luò)分割結(jié)果有待進(jìn)一步提高。LAE-Conv網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示[83]。
圖9 LAE-Conv網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.9 LAE-Conv network structure
Du等人[84]提出了一種基于多尺度特征融合框架的點(diǎn)云語(yǔ)義分割網(wǎng)絡(luò)(semantic segmentation network based on multi-scale feature fusion,MSSCN),以聚合不同密度的點(diǎn)云特征,提高語(yǔ)義分割性能。MSSCN網(wǎng)絡(luò)首先使用隨機(jī)下采樣獲得不同密度的點(diǎn)云,其次利用空間聚合網(wǎng)絡(luò)(spatial aggregation net,SAN)作為骨干網(wǎng)絡(luò)從點(diǎn)云數(shù)據(jù)中提取局部特征,然后將提取的特征描述符在不同尺度上進(jìn)行拼接,最后,利用損失函數(shù)結(jié)合不同密度點(diǎn)云的不同語(yǔ)義信息進(jìn)行網(wǎng)絡(luò)優(yōu)化。該網(wǎng)絡(luò)不僅對(duì)容易分離的物體(如天花板、地板等)分割效果較好,而且對(duì)很難分離的物體(如梁、柱等)也能達(dá)到良好的分割精度,且抗干擾性和魯棒性較好,但該網(wǎng)絡(luò)依賴于用于特征提取的骨干網(wǎng),而且通過直接映射,在特征融合過程中仍然會(huì)丟失部分預(yù)測(cè)的點(diǎn)信息。
基于多方位圖卷積的方法從多個(gè)方向搜索鄰域點(diǎn)構(gòu)造局部圖,提取多方向空間結(jié)構(gòu)信息,與標(biāo)準(zhǔn)圖卷積方法以及圖注意力卷積方法相比,該類方法能更充分地利用局部鄰域點(diǎn)的幾何相關(guān)性。但如何對(duì)整個(gè)點(diǎn)云場(chǎng)景進(jìn)行預(yù)處理,并在不丟失幾何信息的前提下提取出足夠的點(diǎn)來滿足有限存儲(chǔ)空間仍是一個(gè)非常具有挑戰(zhàn)性的問題,且該類方法在處理更復(fù)雜的場(chǎng)景分割任務(wù)中還有待探究。
點(diǎn)云的特征提取是三維場(chǎng)景點(diǎn)云分析和處理的重要內(nèi)容,然而由于點(diǎn)云數(shù)據(jù)在三維空間中具有不規(guī)則無序的結(jié)構(gòu),如何充分利用點(diǎn)云數(shù)據(jù)的局部細(xì)粒度特征仍然存在挑戰(zhàn),Engelmann等人[85]評(píng)估了目前使用點(diǎn)卷積的方法中最常用的提高感受野的策略,提出了擴(kuò)張點(diǎn)卷積(DPC)網(wǎng)絡(luò)來顯著增加感受野的大小。下面將介紹一些基于擴(kuò)張圖卷積方法的網(wǎng)絡(luò)模型,并在表6中對(duì)該類方法的網(wǎng)絡(luò)模型進(jìn)行了對(duì)比分析。
表6 基于擴(kuò)張圖卷積方法模型的對(duì)比分析表Table 6 Comparative analysis table of convolutional method model based on dilated graph
Wan等人[86]提出了一種具有一定學(xué)習(xí)能力特征的基于擴(kuò)張圖注意力的網(wǎng)絡(luò)(dilated graph attentionbased network,DGANet)用于點(diǎn)云局部特征的提取。DGANet網(wǎng)絡(luò)利用改進(jìn)的K近鄰搜索算法為每個(gè)點(diǎn)構(gòu)建局部擴(kuò)張圖,該圖對(duì)每個(gè)點(diǎn)與其鄰接點(diǎn)之間的幾何關(guān)系進(jìn)行建模,使得網(wǎng)絡(luò)在進(jìn)行卷積操作時(shí)以最大的感受野學(xué)習(xí)每個(gè)點(diǎn)的局部特征。DGANet網(wǎng)絡(luò)中的擴(kuò)張圖注意模塊(dilated graph attention module,DGAM)可以在構(gòu)建的擴(kuò)張圖上動(dòng)態(tài)地學(xué)習(xí)局部判別性注意力特征,并采用圖注意力池化來聚合重要特征。DGANet網(wǎng)絡(luò)能夠充分提取點(diǎn)云上的局部特征,在三維物體分類和分割任務(wù)中都取得了可觀的性能,但該網(wǎng)絡(luò)架構(gòu)對(duì)點(diǎn)云局部特征提取還有待進(jìn)一步細(xì)化。DGANet網(wǎng)絡(luò)結(jié)構(gòu)如圖10所示。
圖10 DGANet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.10 DGANet network structure
為了學(xué)習(xí)更多的三維幾何信息,Wang等人[87]設(shè)計(jì)了一個(gè)基于隨機(jī)采樣和擴(kuò)張近鄰編碼的端到端框架,引入了一種擴(kuò)張的最近鄰編碼模塊,擴(kuò)大網(wǎng)絡(luò)的感受野。該網(wǎng)絡(luò)基于KNN算法,找到每個(gè)點(diǎn)的2K(K值是KNN算法中的一個(gè)超參數(shù))個(gè)近鄰點(diǎn),隨機(jī)選取50%作為關(guān)鍵點(diǎn)進(jìn)行后續(xù)計(jì)算。在不增加網(wǎng)絡(luò)參數(shù)的情況下,該網(wǎng)絡(luò)模型對(duì)大規(guī)模點(diǎn)云的計(jì)算和存儲(chǔ)都是高效的,并且在兩個(gè)不同的網(wǎng)絡(luò)(RandLA-Net[88]、Point Transformer[89])中評(píng)估了擴(kuò)張近鄰編碼,驗(yàn)證了擴(kuò)張近鄰編碼的有效性。
點(diǎn)云的語(yǔ)義分割通過密集地預(yù)測(cè)每個(gè)點(diǎn)的類別來產(chǎn)生對(duì)場(chǎng)景的全面理解。由于感受野的單一性,點(diǎn)云的語(yǔ)義分割對(duì)于多感受野特征的表達(dá)仍然存在挑戰(zhàn)性,這個(gè)問題導(dǎo)致了對(duì)具有類似空間結(jié)構(gòu)的實(shí)例的錯(cuò)誤分類。因此,Mao等人[90]提出了一種基于擴(kuò)張圖特征聚合(di‐lated graph feature aggregation,DGFA)的圖卷積網(wǎng)絡(luò)DGFA-Net。為了提取多感受野特征,DGFA以擴(kuò)張圖卷積(DGConv)作為其基本構(gòu)建塊,旨在通過捕獲具有各種感受區(qū)域的擴(kuò)張圖來聚合多尺度特征表示。實(shí)驗(yàn)結(jié)果表明,DGFA-Net網(wǎng)絡(luò)優(yōu)于基線方法,實(shí)現(xiàn)了不錯(cuò)的分割性能。
基于擴(kuò)張圖卷積方法主要擴(kuò)大網(wǎng)絡(luò)的感受野,從而更充分地提取點(diǎn)云特征,與前幾種方法相比,該類方法能夠?qū)W習(xí)更多的三維幾何信息,該類方法對(duì)大規(guī)模點(diǎn)云具有較高的計(jì)算效率和存儲(chǔ)效率,也是目前主流方法之一。但該類網(wǎng)絡(luò)在點(diǎn)云局部特征提取方面還有待細(xì)化,如何將二維圖像特征與三維點(diǎn)特征融合,進(jìn)一步增強(qiáng)局部點(diǎn)的特征表示也將是研究的重點(diǎn)。
Landrieu等人[91]提出了一種新的基于深度學(xué)習(xí)的框架來解決數(shù)百萬(wàn)點(diǎn)的大規(guī)模點(diǎn)云的語(yǔ)義分割問題,點(diǎn)云特征可以被超點(diǎn)圖(super point graph,SPG)有效捕獲,SPG提供了物體之間上下文關(guān)系的特征表示,但SPG的分割結(jié)果對(duì)局部點(diǎn)密度非常敏感。在此基礎(chǔ)上,Landrieu等人[92]又提出了一種用于三維點(diǎn)云重疊分割的監(jiān)督學(xué)習(xí)框架,引入了圖結(jié)構(gòu)對(duì)比損失函數(shù),和一個(gè)輕量級(jí)的架構(gòu)——局部點(diǎn)嵌入器。Li等人[93]提出了泰勒-高斯混合模型(Taylor Gaussian network,TGNet),以有效地從點(diǎn)云中學(xué)習(xí)局部聚合特征。TGNet網(wǎng)絡(luò)由基本幾何單元TGConv組成,TGConv對(duì)不規(guī)則點(diǎn)集進(jìn)行局部卷積。TGNet網(wǎng)絡(luò)在多尺度鄰域上使用TGConv提取從粗到細(xì)的語(yǔ)義深度特征,同時(shí)提高其尺度不變性。此外,該網(wǎng)絡(luò)在輸出層內(nèi)采用條件隨機(jī)場(chǎng)(conditional ran‐dom field,CRF)進(jìn)一步改善分割結(jié)果。實(shí)驗(yàn)結(jié)果證明了該方法的有效性。
Bazazian等人[94]提出了新的網(wǎng)絡(luò)(dynamic capsule graph convolutional network,DCG-Net)對(duì)點(diǎn)云進(jìn)行分析,完成分類和分割任務(wù)。DCG-Net網(wǎng)絡(luò)根據(jù)卷積網(wǎng)絡(luò)每層的封裝塊網(wǎng)絡(luò)的動(dòng)態(tài)路由機(jī)制,聚合點(diǎn)云的特征來構(gòu)建和更新圖。Lei等人[95]提出了一種球形核來實(shí)現(xiàn)3D點(diǎn)云的高效圖卷積。球形核保持平移不變性和不對(duì)稱性,有助于精細(xì)的幾何學(xué)習(xí)。標(biāo)準(zhǔn)卷積在3D點(diǎn)之間的特征關(guān)系進(jìn)行了無差別的描述,呈現(xiàn)出較差的特征學(xué)習(xí)的內(nèi)在局限性。因此,Zhou等人[96]提出了自適應(yīng)圖卷積(adaptive graph convolution,AdaptConv),根據(jù)點(diǎn)的動(dòng)態(tài)學(xué)習(xí)特征生成自適應(yīng)核。與使用固定/各向同性內(nèi)核相比,AdaptConv提高了點(diǎn)云卷積的靈活性,有效且精確地捕獲了來自不同語(yǔ)義部分的點(diǎn)之間的不同關(guān)系。
由于網(wǎng)絡(luò)結(jié)構(gòu)和局部特征聚合方法的粗糙性,目前很多網(wǎng)絡(luò)都存在分割精度低、復(fù)雜度高等問題。為了克服這些問題,Kim等人[97]提出了一種用于三維點(diǎn)云分割的對(duì)抗圖卷積網(wǎng)絡(luò)(adversarial graph convolutional network,AGCN)。該網(wǎng)絡(luò)訓(xùn)練了兩個(gè)網(wǎng)絡(luò),一個(gè)分割網(wǎng)絡(luò)和一個(gè)鑒別器網(wǎng)絡(luò)。鑒別器網(wǎng)絡(luò)在最后一個(gè)卷積層中計(jì)算來自分割網(wǎng)絡(luò)的真實(shí)圖和預(yù)測(cè)標(biāo)簽圖的兩個(gè)各自嵌入特征之間的差異,以訓(xùn)練分割網(wǎng)絡(luò)。這種對(duì)抗性訓(xùn)練有助于提高分割網(wǎng)絡(luò)的分割精度和訓(xùn)練穩(wěn)定性,使網(wǎng)絡(luò)能夠?qū)W習(xí)平滑一致的真實(shí)標(biāo)簽的高級(jí)特征。Sun等人[98]使用曲面片作為更有效地表示,并提出了一種新的室內(nèi)場(chǎng)景分割框架,稱為曲面片圖卷積網(wǎng)絡(luò)(patch graph convolutional network,PGCNet)。為了更好地提取局部特征和聚集相鄰信息,PGCNet網(wǎng)絡(luò)構(gòu)造了場(chǎng)景面片圖(scene patch graph,SPG)和動(dòng)態(tài)圖U-Net(DGU)模塊。在SPG中,將曲面片視為節(jié)點(diǎn),其空間關(guān)系視為邊,構(gòu)造圖結(jié)構(gòu)。DGU模塊在U形編碼器-解碼器中集成了動(dòng)態(tài)邊緣卷積操作,在DGU模塊的每一層,通過動(dòng)態(tài)邊緣層更新圖結(jié)構(gòu)。但目前該網(wǎng)絡(luò)的擴(kuò)展性有限,還不能擴(kuò)展到其他室內(nèi)任務(wù)。表7中對(duì)這些網(wǎng)絡(luò)模型進(jìn)行了對(duì)比分析。
表7 基于其他圖卷積方法模型的對(duì)比分析表Table 7 Comparative analysis table based on other graph convolutional method models
基于文章中1.1節(jié)至1.5節(jié)的內(nèi)容,總結(jié)出各類點(diǎn)云語(yǔ)義分割方法的優(yōu)點(diǎn)、缺點(diǎn)、適用范圍和應(yīng)用場(chǎng)景,以便更直觀地對(duì)基于標(biāo)準(zhǔn)圖卷積、圖注意力卷積、深度圖卷積、多方位搜索圖卷積方法以及基于擴(kuò)張圖卷積方法進(jìn)行比較,具體內(nèi)容如表8所示。
為了驗(yàn)證所提出的算法對(duì)點(diǎn)云語(yǔ)義分割的效果,有效的數(shù)據(jù)集尤為重要。復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,需要大量的訓(xùn)練數(shù)據(jù)才能使模型有效,因此,含有豐富數(shù)據(jù)的數(shù)據(jù)集在模型訓(xùn)練中起著不可或缺的作用。一些研究機(jī)構(gòu)提供了可靠的開源3D點(diǎn)云數(shù)據(jù)集。表9展示了這些數(shù)據(jù)集的年份、類別個(gè)數(shù)、訓(xùn)練集、測(cè)試集以及驗(yàn)證集。
表9 常見的3D點(diǎn)云數(shù)據(jù)集Table 9 Common 3D point cloud datasets
(1)PartNet數(shù)據(jù)集[99]2019年由英特爾人工智能研究人員與加州大學(xué)圣地亞哥分校和斯坦福大學(xué)合作開發(fā),該數(shù)據(jù)集包含24種類別,573 585個(gè)零部件實(shí)例和26 671個(gè)3D模型,可用于形狀分析、動(dòng)態(tài)3D場(chǎng)景建模和可行性分析等任務(wù)。
(2)ShapeNet Part數(shù)據(jù)集[100]2016年由斯坦福大學(xué)、普林斯頓大學(xué)、Adobe研究人員、UT奧斯汀研究人員和TTIC的研究人員共同制作而成,該數(shù)據(jù)集包含16種類別,16 881個(gè)形狀,共有50個(gè)物體零部件,其中每個(gè)形狀通常包含2~5個(gè)零部件,可應(yīng)用于物體零部件分割任務(wù)。
(3)S3DIS數(shù)據(jù)集[101]2016年由斯坦福的大學(xué)開發(fā),該數(shù)據(jù)集包含6個(gè)區(qū)域,共272個(gè)3D空間場(chǎng)景,13種類別,用于室內(nèi)場(chǎng)景語(yǔ)義分割任務(wù)。
(4)ScanNet數(shù)據(jù)集[102]2017年由斯坦福大學(xué)普林斯頓大學(xué)慕尼黑工業(yè)大學(xué)共同開發(fā),該數(shù)據(jù)集是一個(gè)RGB-D視頻數(shù)據(jù)集,共1 513個(gè)采集場(chǎng)景數(shù)據(jù),包含21個(gè)語(yǔ)義類別,應(yīng)用于3D對(duì)象分類、語(yǔ)義體素標(biāo)簽和CAD模型檢索等。
(5)Semantic3D數(shù)據(jù)集[103]2017年由瑞士蘇黎世聯(lián)邦理工大學(xué)開發(fā),該數(shù)據(jù)集包含8個(gè)語(yǔ)義類別,掃描范圍包括各種城市戶外場(chǎng)景,如教堂、街道、鐵路、廣場(chǎng)、村莊、足球場(chǎng)和城堡等,應(yīng)用于自動(dòng)駕駛等任務(wù)。
(6)vKITTI數(shù)據(jù)集[104]2016年由法國(guó)歐洲施樂研究中心計(jì)算機(jī)視覺小組和美國(guó)亞利桑那州大學(xué)研究小組共同開發(fā),是一個(gè)大型戶外數(shù)據(jù)集,由KITTI數(shù)據(jù)集模擬而成,具有真實(shí)世界場(chǎng)景,其中包含城市場(chǎng)景中的13個(gè)語(yǔ)義類別,應(yīng)用于對(duì)象檢測(cè)和多對(duì)象跟蹤、場(chǎng)景級(jí)和實(shí)例級(jí)語(yǔ)義分割等。
(7)Paris-Lille-3D數(shù)據(jù)集[105]2018年由巴黎高等礦業(yè)學(xué)院的研究小組開發(fā),是一個(gè)城市MLS數(shù)據(jù)集,包含1 431萬(wàn)個(gè)標(biāo)記點(diǎn),涵蓋50個(gè)不同的城市對(duì)象類別。整個(gè)數(shù)據(jù)集由3個(gè)子集組成,分別為713萬(wàn)、268萬(wàn)和457萬(wàn)個(gè)點(diǎn),可以用于自動(dòng)駕駛等任務(wù)。
點(diǎn)云語(yǔ)義分割的評(píng)價(jià)指標(biāo)主要有總體精準(zhǔn)度(overall accuracy,OA)、平均精準(zhǔn)度(mean accuracy,MA)、平均交并比(mean intersection over Union,MIoU)和加權(quán)交并比(frequency weighted intersection over union,F(xiàn)WIoU)等。
OA表示計(jì)算每一個(gè)隨機(jī)樣本的語(yǔ)義標(biāo)簽和預(yù)測(cè)值相一致的概率。OA的計(jì)算公式為:
MA表示對(duì)每個(gè)類別中隨機(jī)樣本的語(yǔ)義標(biāo)簽和預(yù)測(cè)值相一致的概率進(jìn)行求和并取平均。MA的計(jì)算公式為:
IoU表示真實(shí)區(qū)域與預(yù)測(cè)區(qū)域這兩個(gè)集合的交集和并集的比率,MIoU表示計(jì)算每個(gè)類別的IoU,然后求和再取平均。MIoU的計(jì)算公式為:
FWIoU是在MIoU的基礎(chǔ)上,根據(jù)每一類出現(xiàn)的頻率為其設(shè)置權(quán)重。FWIoU的計(jì)算公式為:
其中,k代表一共有k個(gè)類別,VTi代表每個(gè)類別的真實(shí)樣本數(shù),VPi代表每個(gè)類別的預(yù)測(cè)的真樣本數(shù),pi代表每個(gè)類別所占權(quán)重。
點(diǎn)云語(yǔ)義分割作為3D場(chǎng)景理解的基礎(chǔ),一直以來都是研究的核心之一。圖卷積神經(jīng)網(wǎng)絡(luò)獨(dú)特的特征提取方式特別適合對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行建模。本文對(duì)基于圖卷積神經(jīng)網(wǎng)絡(luò)的三維點(diǎn)云語(yǔ)義分割方法進(jìn)行了分類整理。針對(duì)1.1節(jié)至1.5節(jié)中不同類型的圖卷積點(diǎn)云語(yǔ)義分割方法,逐一分析其面臨的問題并進(jìn)行展望:
(1)文中將1.1節(jié)中的標(biāo)準(zhǔn)圖卷積的方法分為基于空間域的方法和基于頻譜域的方法?;诳臻g域的方法考慮了點(diǎn)之間的幾何關(guān)系,能更好提取點(diǎn)云局部特征,但其忽略了物體的結(jié)構(gòu),導(dǎo)致分割結(jié)果中物體輪廓較差,這一問題在1.2節(jié)介紹的方法中已經(jīng)得到有效解決。為了進(jìn)一步提高網(wǎng)絡(luò)模型分割精度,未來需要在參數(shù)設(shè)置、網(wǎng)絡(luò)架構(gòu)等方面進(jìn)一步優(yōu)化?;陬l譜域的方法使用依賴于拉普拉斯矩陣特征分解的圖的頻譜表示,需要昂貴的計(jì)算代價(jià),且在一個(gè)圖上學(xué)習(xí)的譜卷積神經(jīng)網(wǎng)絡(luò)模型不能轉(zhuǎn)移到具有不同拉普拉斯矩陣的另一個(gè)圖上,泛化能力較差,未來需要對(duì)該類方法網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,盡可能減少計(jì)算代價(jià)并且提高網(wǎng)絡(luò)的泛化能力。
(2)1.2節(jié)中圖注意力卷積的方法引入了注意力機(jī)制,解決了標(biāo)準(zhǔn)圖卷積方法中存在的忽略物體結(jié)構(gòu)問題,但三維點(diǎn)云語(yǔ)義分割中類不平衡問題仍是一個(gè)具有挑戰(zhàn)性的問題。針對(duì)稀疏點(diǎn)云導(dǎo)致的分割精度不高的問題,是該類方法所需要研究的一個(gè)重點(diǎn)內(nèi)容。此外,該類方法對(duì)點(diǎn)云數(shù)據(jù)的泛化能力較差,不能高效、穩(wěn)健地處理大規(guī)模的點(diǎn)云數(shù)據(jù),且重要模塊的集成、嵌入能力有待提升,未來需要提高該類網(wǎng)絡(luò)模型的泛化能力。
(3)1.3節(jié)中深度圖卷積的方法引入了殘差連接、密集連接和擴(kuò)張卷積,解決了深層網(wǎng)絡(luò)中存在的梯度消失問題,但分割精度還有待更進(jìn)一步的提升。網(wǎng)絡(luò)的擴(kuò)展性較差,且由于網(wǎng)絡(luò)層次深度較深,需要更多內(nèi)存資源且消耗更多時(shí)間,訓(xùn)練網(wǎng)絡(luò)模型會(huì)增加能源消耗。未來,該類方法在網(wǎng)絡(luò)設(shè)計(jì)、模型優(yōu)化、算法使用和網(wǎng)絡(luò)擴(kuò)展性等方面還有一定的進(jìn)步空間。
(4)1.4節(jié)中多方位圖卷積的方法,采用多方位搜索法來捕捉每個(gè)采樣點(diǎn)周圍的鄰近點(diǎn),能更充分地利用局部鄰域點(diǎn)的幾何相關(guān)性,但如何對(duì)整個(gè)點(diǎn)云場(chǎng)景進(jìn)行預(yù)處理,并在不丟失幾何信息的前提下提取出足夠的點(diǎn)來滿足有限存儲(chǔ)空間仍是一個(gè)非常具有挑戰(zhàn)性的問題,且該類方法在處理更復(fù)雜、更大規(guī)模的場(chǎng)景分割任務(wù)中還有待探究。未來,該類方法需要進(jìn)一步優(yōu)化網(wǎng)絡(luò)模型,處理更復(fù)雜的點(diǎn)云場(chǎng)景數(shù)據(jù),為人工智能等技術(shù)提供更好的模型支持。
(5)大規(guī)模場(chǎng)景的點(diǎn)云語(yǔ)義分割一直是重要的研究方向之一,1.5節(jié)中擴(kuò)張圖卷積方法擴(kuò)大了網(wǎng)絡(luò)的感受野,對(duì)大規(guī)模點(diǎn)云具有較高的計(jì)算效率和存儲(chǔ)效率,但該類網(wǎng)絡(luò)在點(diǎn)云局部特征提取方面還有待細(xì)化。由于場(chǎng)景信息的限制,單一的表示方法限制了分割精度,使用多模態(tài)(例如投影、體素和點(diǎn)云)進(jìn)行語(yǔ)義分割可能會(huì)獲得更高的精度。如何將二維圖像特征與三維點(diǎn)特征融合,進(jìn)一步增強(qiáng)局部點(diǎn)的特征表示也將是研究的重點(diǎn)。
(6)數(shù)據(jù)集的選定對(duì)網(wǎng)絡(luò)模型的訓(xùn)練效果的好壞至關(guān)重要,訓(xùn)練網(wǎng)絡(luò)模型需要大量的數(shù)據(jù),現(xiàn)有的數(shù)據(jù)集并不能滿足點(diǎn)云語(yǔ)義分割發(fā)展的需求。因此,收集一些數(shù)據(jù)豐富且高效的數(shù)據(jù)集是進(jìn)行點(diǎn)云語(yǔ)義分割的首要條件?,F(xiàn)有的戶外數(shù)據(jù)集相對(duì)室內(nèi)數(shù)據(jù)集而言較少,所以收集整理這類數(shù)據(jù)集對(duì)點(diǎn)云語(yǔ)義分割的發(fā)展至關(guān)重要。
目前,基于圖卷積的方法是直接基于點(diǎn)云語(yǔ)義分割方法的研究熱點(diǎn)。以上這些方法致力于全面探索逐點(diǎn)特征以及點(diǎn)/特征之間的聯(lián)系。然而,其使用的鄰域搜索機(jī)制,例如KNN、ball query和分層架構(gòu),容易忽略局部區(qū)域之間的低級(jí)特征,進(jìn)一步增加了全局上下文特征提取的難度。因此,在算法設(shè)計(jì)和使用上還有待進(jìn)步。
本文以圖卷積技術(shù)為核心,對(duì)近幾年的點(diǎn)云語(yǔ)義分割方法進(jìn)行了綜述。首先,按照網(wǎng)絡(luò)的類型將這些方法分為了標(biāo)準(zhǔn)圖卷積方法、圖注意力方法、深度圖方法、多方位圖卷積方法、擴(kuò)張圖卷積方法和其他方法。其次,分別詳細(xì)介紹了這六大類對(duì)應(yīng)的網(wǎng)絡(luò)模型,在表1至表7中對(duì)每類方法的網(wǎng)絡(luò)模型在一些數(shù)據(jù)集上的性能表現(xiàn)進(jìn)行了對(duì)比分析,并且在表8中對(duì)各類點(diǎn)云語(yǔ)義分割方法的優(yōu)缺點(diǎn)、適用范圍、應(yīng)用場(chǎng)景進(jìn)行了比較。然后,描述了部分常用的點(diǎn)云數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。最后,討論了不同類型的點(diǎn)云語(yǔ)義分割方法所面臨的問題,并進(jìn)行了展望。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,圖卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于點(diǎn)云來完成語(yǔ)義分割,并取得了很好的分割結(jié)果。與其他方法相比,基于圖卷積神經(jīng)網(wǎng)絡(luò)的方法不僅可以檢測(cè)點(diǎn)之間的關(guān)系,還可以得到邊界特征。圖卷積神經(jīng)網(wǎng)絡(luò)在點(diǎn)云分割方面有諸多優(yōu)勢(shì),但仍存在有待改進(jìn)的問題,點(diǎn)云語(yǔ)義分割在圖卷積神經(jīng)網(wǎng)絡(luò)上的研究仍然還有很大的進(jìn)步空間。