一種改進(jìn)的點(diǎn)云Transformer深度學(xué)習(xí)模型

2022-01-13 06:11:02高金金李潞洋

中北大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年6期

高金金，李潞洋

(1. 山西財(cái)經(jīng)大學(xué) 實(shí)驗(yàn)中心，山西太原 030006； 2. 中北大學(xué) 大數(shù)據(jù)學(xué)院，山西太原 030051)

0 引言

點(diǎn)云已成為最常見的三維形狀描述數(shù)據(jù)結(jié)構(gòu)之一，它能夠表示豐富的三維信息而不依賴于復(fù)雜的數(shù)據(jù)結(jié)構(gòu)，因此在三維任務(wù)中得到了廣泛的應(yīng)用. 隨著深度學(xué)習(xí)被廣泛應(yīng)用在二維計(jì)算機(jī)視覺中，一些基于三維計(jì)算機(jī)視覺深度學(xué)習(xí)模型的點(diǎn)云分析方法也逐漸被提出.

由于點(diǎn)云的稀疏性與無(wú)序性，二維卷積無(wú)法直接用于點(diǎn)云分析. 因此，早期的點(diǎn)云深度學(xué)習(xí)模型依賴于數(shù)據(jù)轉(zhuǎn)化，且主要分為兩種方式：多視角圖像渲染和體素化方法[1-7]. 多視角圖像渲染將三維數(shù)據(jù)渲染為多個(gè)視角下觀察到的平面圖像，巧妙地解決了模型自遮擋的問題，但依然無(wú)法保證三維模型的全部細(xì)節(jié)不被遮擋，且計(jì)算量較大. 體素化方法將點(diǎn)云轉(zhuǎn)換為致密的三維體素模型，并對(duì)其應(yīng)用三維卷積，以模仿和復(fù)制卷積神經(jīng)網(wǎng)絡(luò)在平面圖像分析上的成功. 然而三維卷積的計(jì)算量過(guò)大，這限制了處理模型的分辨率，使得在數(shù)據(jù)轉(zhuǎn)換過(guò)程中損失了大量的模型細(xì)節(jié).

PointNet[8]中提出使用深度學(xué)習(xí)分析直接分析點(diǎn)云的思路，使用MLP對(duì)點(diǎn)的特征進(jìn)行逐點(diǎn)變換并聚合，解決了點(diǎn)云的無(wú)序性問題. PointNet++[9]是PointNet的分層局部特征聚合改進(jìn)，有效地保留了局部信息并降低了參數(shù)量. 隨后提出的一些方法在局部特征抽象方面進(jìn)行了多種改進(jìn)，以提升局部特征提取的有效性. PointCNN[10]與A-CNN[11]是通過(guò)一致的局部排序來(lái)保證卷積的一致性，然而排序限制了特征抽象的魯棒性. PointConv[12]， RS-CNN[13]， EdgeConv[14]， GAC-Net[15]等方法利用空間位置關(guān)系來(lái)生成局部點(diǎn)對(duì)應(yīng)的卷積權(quán)重，但是它們更多考慮的是中心點(diǎn)與鄰域點(diǎn)之間的關(guān)系，而放棄了鄰域點(diǎn)之間可能存在的聯(lián)系. PointGCN[16]， RGCNN[17]等方法在局部構(gòu)建了圖，利用圖卷積進(jìn)行特征抽象. 這些方法大體上遵循了PointNet++的分層局部特征提取后聚合的架構(gòu)，它們?cè)谑褂脤?duì)稱函數(shù)進(jìn)行特征聚合時(shí)可能損失了非主要特征的消息傳遞，造成了信息損失.

Transformer[18]最早是針對(duì)自然語(yǔ)言處理提出的方法，它利用自注意力機(jī)制評(píng)估了單詞之間的關(guān)聯(lián)性. Transformer及其各種變種已經(jīng)在自然語(yǔ)言處理方面取得了優(yōu)秀的成果. 考慮到自注意力機(jī)制的優(yōu)勢(shì)，一些工作將Transformer在計(jì)算機(jī)視覺領(lǐng)域進(jìn)行了推廣，并取得了不錯(cuò)的效果. DETR[19]是一種使用Transformer進(jìn)行二維目標(biāo)檢測(cè)的模型，巧妙設(shè)計(jì)的解碼器輸入解決了檢測(cè)目標(biāo)查詢的問題. ViT[20]是一種在圖像分類任務(wù)上直接應(yīng)用Transformer的模型.

應(yīng)用于三維計(jì)算機(jī)視覺的Transformer依然處于摸索階段，一些工作的提出，也僅僅是將Transformer初步引入了點(diǎn)云深度學(xué)習(xí)中，并未進(jìn)行太多的優(yōu)化和改進(jìn). Transformer與點(diǎn)云深度學(xué)習(xí)是高度契合的，尤其是在Transformer天然擅長(zhǎng)處理無(wú)序數(shù)據(jù)方面. 除此之外，自注意力機(jī)制也充分考慮了不同局部的點(diǎn)之間的關(guān)聯(lián)性問題.

本文在先前工作[21]的基礎(chǔ)上進(jìn)行了一系列改進(jìn)，以優(yōu)化Transformer在點(diǎn)云深度學(xué)習(xí)任務(wù)上的性能. 具體來(lái)說(shuō)，在點(diǎn)的特征嵌入時(shí)，改進(jìn)了多尺度鄰域編碼，并增加了基于學(xué)習(xí)的位置編碼嵌入，以提升嵌入特征的描述力. 在編碼器方面，使用了多頭自注意力機(jī)制以保證從不同的方面捕捉點(diǎn)之間的注意力關(guān)系. 除此之外，還改進(jìn)了注意力權(quán)重的歸一化方式. 三種點(diǎn)云深度學(xué)習(xí)任務(wù)的實(shí)驗(yàn)表明，本文提出的針對(duì)Transformer的改進(jìn)是有效的. 本文的實(shí)現(xiàn)已經(jīng)在GitHub開放了源代碼： https://github.com/gaojinjin608/transformer_pointcloud.

1 PointNet與Transformer簡(jiǎn)介

PointNet的提出為點(diǎn)云分析提供了一種新的思路，即直接使用點(diǎn)云數(shù)據(jù)輸入模型并進(jìn)行訓(xùn)練. 早期的工作沒有直接訓(xùn)練點(diǎn)云數(shù)據(jù)，最大的障礙源自于點(diǎn)云的無(wú)序性，即：點(diǎn)的順序改變時(shí)，點(diǎn)云三維模型沒有發(fā)生變化，深度學(xué)習(xí)模型的輸出卻發(fā)生了改變. PointNet使用共享的MLP對(duì)每一個(gè)點(diǎn)的特征進(jìn)行變換，這樣可以保證每一個(gè)點(diǎn)特征提取的一致性；在全局特征聚合時(shí)，對(duì)稱的聚合函數(shù)保證了無(wú)論點(diǎn)云順序如何改變，全局特征輸出時(shí)是一致的.

PointNet++[9]是PointNet的分層局部特征聚合改進(jìn). PointNet++將點(diǎn)云均勻地劃分為多個(gè)局部區(qū)域，在每一個(gè)局部區(qū)域使用PointNet提取特征，有效地保留了局部特征. 通過(guò)堆疊多個(gè)編碼器實(shí)現(xiàn)了分層局部特征變換，并使用最大池化聚合局部特征. 由于每一層都降低了點(diǎn)云的分辨率，這樣使得高輸出維度的較深編碼器層的輸入分辨率較低，顯著地降低了參數(shù)量和計(jì)算量.

Transformer最早被應(yīng)用于自然語(yǔ)言處理，它使用了一種編碼器-解碼器的架構(gòu). 編碼器和解碼器將輸入的特征轉(zhuǎn)換為查詢(Query)、關(guān)鍵信息(Key)與特征值(Value)(簡(jiǎn)稱QKV)三個(gè)矩陣，并在Q與K上使用點(diǎn)積來(lái)計(jì)算每個(gè)輸入單詞的注意力權(quán)重，這個(gè)過(guò)程被稱為自注意力計(jì)算，也是Transformer的核心所在. 使用自注意力權(quán)重對(duì)特征進(jìn)行加權(quán)求和，即可得到帶有單詞之間特殊關(guān)聯(lián)性的特征輸出. 二維計(jì)算機(jī)視覺借鑒了這個(gè)思想，將圖像分割成多個(gè)區(qū)域，每個(gè)區(qū)域被視為一個(gè)“單詞”，通過(guò)位置編碼維持區(qū)域的位置或順序特征.

先前的一些在點(diǎn)云上的Transformer工作[21]與二維計(jì)算機(jī)視覺的思路非常相似，它們將每一個(gè)輸入點(diǎn)視為自然語(yǔ)言處理中的單詞，并將它們轉(zhuǎn)換為QKV矩陣，然后輸入到編碼器中.計(jì)算特征之間的查詢(Q)與關(guān)鍵信息(K)的點(diǎn)積，可以得到每一點(diǎn)之間的關(guān)聯(lián)性，使用softmax對(duì)關(guān)聯(lián)性矩陣進(jìn)行歸一化，可以得到注意力權(quán)重矩陣，即

A=softmax(Q×KT)，

(1)

矩陣乘法計(jì)算有助于快速計(jì)算全部特征之間的點(diǎn)積注意力.最后對(duì)V進(jìn)行加權(quán)求和，以獲取附帶有點(diǎn)與點(diǎn)之間關(guān)聯(lián)性的輸出特征

Fsa=A×V.

(2)

這些工作除了借鑒了Transformer的自注意力計(jì)算之外，還針對(duì)點(diǎn)云的特性，對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了適應(yīng)性改造：由于單個(gè)點(diǎn)包含的形狀信息是有限的，因此在點(diǎn)的特征嵌入階段進(jìn)行了鄰域編碼，以豐富點(diǎn)包含的局部形狀信息；考慮到點(diǎn)云自身包含有一些空間位置特征，以及點(diǎn)云的無(wú)序性，原始Transformer中的位置編碼嵌入被舍棄.

先前的點(diǎn)云Transformer工作，僅是將Transformer初步引入點(diǎn)云分析應(yīng)用中，針對(duì)點(diǎn)云的簡(jiǎn)易適應(yīng)性修改，難以使得Transformer充分有效地提取點(diǎn)云特征，在點(diǎn)云鄰域編碼嵌入、位置編碼嵌入與注意力權(quán)重計(jì)算等方面，先前的工作存在著一些欠缺.

2 改進(jìn)的點(diǎn)云Transformer

2.1 點(diǎn)云的多頭注意力

自注意力機(jī)制是Transformer的核心部分，它評(píng)估了點(diǎn)的特征之間的相關(guān)性. 過(guò)去的點(diǎn)云Transformer方法的編碼器雖然借鑒了自然語(yǔ)言處理中的QKV的輸入模式，但是在計(jì)算注意力權(quán)重時(shí)，僅考慮了一種查詢與關(guān)鍵信息之間的相關(guān)性. 點(diǎn)云能夠表示各種復(fù)雜的三維形狀，這意味著點(diǎn)的特征之間可能存在多種不同的相關(guān)性，而僅考慮一種相關(guān)性的情況，可能過(guò)造成編碼器對(duì)某一類空間關(guān)系特征的過(guò)擬合.

本文從自然語(yǔ)言處理的Transformer中受到啟發(fā)，將多頭注意力機(jī)制(Multi-Head Attention)引入點(diǎn)云Transformer，用以提升編碼器對(duì)不同空間關(guān)系的魯棒性. 多頭注意力機(jī)制將特征轉(zhuǎn)換為多組QKV來(lái)計(jì)算注意力特征，產(chǎn)生多組注意力特征，并將這些特征連接在一起組成多頭注意力特征.

假定：在編碼器的某一層，輸入的特征Fin的分辨率為n，特征的維度為dv，多頭注意力分組數(shù)為h(注意力共有h個(gè)頭)，多頭注意力的編碼器的計(jì)算過(guò)程如下：

首先，使用線性變換WQ,WK：Rdv→Rda，WV：Rdv→Rdv將輸入特征Fin變換為查詢Query，關(guān)鍵信息Key與特征值Value，注意，為了使后續(xù)的張量計(jì)算在維度上對(duì)齊，da與dv必須能夠被h整除.

(3)

其次，分別將Query，Key與Value的維度拆分為數(shù)量相同的h個(gè)子矩陣，即

(4)

式中：Q1,Q2,…,Qh,K1,K2,…,Kh∈Rn×da/m,V1,V2,…,Vh∈Rn×dv/m. 具有相同索引的QKV子矩陣被視為同一分組.

然后，按照分組計(jì)算每個(gè)頭的注意力權(quán)重，本文采用的是計(jì)算點(diǎn)積注意力.

(5)

(6)

在行之間使用softmax函數(shù)不僅可以將注意力進(jìn)行標(biāo)準(zhǔn)化，而且能夠?qū)⒚總€(gè)點(diǎn)的注意力權(quán)重差異在不同的輸入特征之間加以凸顯.在列之間使用softmax函數(shù)進(jìn)行標(biāo)準(zhǔn)化能夠使注意力權(quán)重之和變?yōu)?，統(tǒng)一了每個(gè)點(diǎn)加權(quán)求和的總比重.

再次，使用注意力權(quán)重對(duì)Value進(jìn)行加權(quán)求和，即可得到每一個(gè)頭的自注意力(self-Attention)特征

Fsa1,…,Fsah=A1×V1,…,Ah×Vh,

(7)

式中：Fsa1,Fsa2,…,Fsah∈Rn×dv/h.

最后，將多個(gè)自注意力特征按照維度進(jìn)行連接，即可得到多頭自注意力編碼器的輸出.

Fout=concat(Fsa1,Fsa2,…,Fsam) ,

(8)

式中：Fsa∈Rn×dv為本層多頭點(diǎn)積自注意力編碼器的n個(gè)輸出特征. 這個(gè)計(jì)算過(guò)程如圖 1 所示.

圖 1 多頭注意力編碼器

2.2 多尺度鄰域編碼嵌入

自注意力機(jī)制可以有效地捕獲模型全局范圍內(nèi)的特征信息，但是對(duì)于局部信息的關(guān)注度較低. 本文考慮將局部信息添加到編碼器的輸入特征中以提升網(wǎng)絡(luò)對(duì)局部特征的感知能力，這個(gè)過(guò)程被稱為鄰域編碼嵌入(Neighbor Encoding Embedding). 文獻(xiàn)[21]中提到了一種類似于PointNet的簡(jiǎn)易的獨(dú)立點(diǎn)特征聚合的單尺度鄰域編碼嵌入方式，不同尺度的點(diǎn)云局部空間尺度包含的局部特征信息有著較大的差異，僅考慮單一尺度難以充分描述局部特征信息. 此外，在鄰域編碼嵌入時(shí)，僅以獨(dú)立點(diǎn)特征聚合作為編碼方式，也難以有效捕捉局部特征信息.

本文改進(jìn)了鄰域編碼嵌入方式，使用多尺度鄰域查詢來(lái)構(gòu)建自注意力編碼器的輸入特征的多個(gè)鄰域，以描述不同空間尺度下的特征. 多尺度鄰域編碼嵌入如圖 2 所示.

圖 2 多尺度鄰域編碼與位置編碼嵌入

下采樣為可選部分，如果有意降低編碼器輸入特征的數(shù)量，可以使用最遠(yuǎn)點(diǎn)采樣(Farthest Point Sampling， FPS)將點(diǎn)云采樣至一個(gè)較小的分辨率s，否則可跳過(guò)采樣.如果不進(jìn)行采樣，則圖 2 中的s與n相等.m組k最近鄰(k-Nearest Neighbor， kNN)方法被用來(lái)構(gòu)建m種尺度的局部鄰域.第i個(gè)尺度包含的鄰域點(diǎn)個(gè)數(shù)為ki，局部中心點(diǎn)的特征(維度為s×din)被重復(fù)ki次(維度為s×ki×din)，并被連接至局部特征分組(維度為s×ki×din)，使得拼接后的特征包含了中心點(diǎn)與局部點(diǎn)特征，拼接后的局部分組特征維度為2×din.每一個(gè)尺度均有一個(gè)特征變換函數(shù)，將中心點(diǎn)與局部點(diǎn)的特征進(jìn)行特征混合，輸出維度為s×ki×dv/m的單一尺度局部特征組.將每一個(gè)尺度的特征組使用最大池化函數(shù)按照局部點(diǎn)數(shù)進(jìn)行特征聚合，得到該尺度的局部鄰域編碼特征(維度為s×dv/m).m個(gè)尺度的局部鄰域編碼拼接在一起，即可得到該局部區(qū)域的多尺度鄰域編碼特征Fnei∈Rs×dv.

2.3 位置編碼嵌入

在文獻(xiàn)[18]中，為了克服序列數(shù)據(jù)的先后順序在編碼過(guò)程中的丟失問題，在特征輸入編碼器之前，對(duì)特征增加了位置編碼(positional encoding). 而點(diǎn)云數(shù)據(jù)天然包含了位置信息，在一定程度上緩解了編碼時(shí)的位置損失. 出于這樣的考慮，文獻(xiàn)[21]等方法也放棄了位置編碼. 但在鄰域編碼嵌入時(shí)，局部相對(duì)位置的使用，削弱了編碼中心點(diǎn)的絕對(duì)位置特征. 因此，在特征輸入編碼器之前，進(jìn)行位置編碼嵌入是有必要的.

具體來(lái)說(shuō)，使用鄰域編碼的中心點(diǎn)代表該點(diǎn)的位置編碼，所以本文的模型使用中心點(diǎn)的坐標(biāo)作為位置編碼的輸入，并使用基于學(xué)習(xí)的方法進(jìn)行編碼. 定義函數(shù)pe：R3→Rdv，為位置編碼函數(shù)，用以將三維坐標(biāo)映射為位置編碼.

Fpos=pe(coord),

(9)

式中：coord∈R3為中心點(diǎn)坐標(biāo);Fpos∈Rdv為位置編碼結(jié)果.函數(shù)pe使用MLP實(shí)現(xiàn)， MLP在每個(gè)輸入點(diǎn)之間共享參數(shù)，以保證編碼的一致性. 將位置編碼結(jié)果與鄰域編碼結(jié)果進(jìn)行相加，即可完成位置編碼嵌入.

Fin=Fpos+Fnei,

(10)

式中：Fin∈Rv為編碼器的輸入；pos,nei∈Rv分別為位置編碼和鄰域編碼的輸出.

圖 2 直觀表示了鄰域編碼與位置編碼的計(jì)算過(guò)程.

2.4 網(wǎng)絡(luò)架構(gòu)

2.4.1 編碼器的完善

本文參照了文獻(xiàn)[21]，使用偏移注意力(Offset Attention)替代了原始自注意力機(jī)制，以獲取更好的網(wǎng)絡(luò)性能.

(11)

同時(shí)，本模型為編碼器增加了殘差模塊，以降低網(wǎng)絡(luò)收斂難度.

(12)

Fout即為單一層編碼器的輸出特征，這個(gè)計(jì)算過(guò)程如圖 3 所示.

圖 3 偏移注意力與殘差

2.4.2 分類網(wǎng)絡(luò)

形狀分類網(wǎng)絡(luò)主要結(jié)構(gòu)由多個(gè)自注意力編碼器堆疊構(gòu)成. 原始點(diǎn)云輸入編碼器之前，先進(jìn)行多尺度鄰域編碼與位置編碼嵌入. 考慮到分類網(wǎng)絡(luò)更多關(guān)注于局部特征與全局特征，而非具體每一個(gè)點(diǎn)的特征，因此，在鄰域編碼時(shí)進(jìn)行了下采樣，這樣可以降低編碼器的輸入分辨率，有效減少計(jì)算量. 嵌入特征被輸入多個(gè)堆疊的編碼器. 將每一層編碼器的輸出特征按照維度連接在一起，構(gòu)成編碼階段的總體輸出特征. 分類網(wǎng)絡(luò)需要對(duì)輸出特征進(jìn)行匯總，而無(wú)需使用解碼器，因此模型選用最大池化函數(shù)(maxpooling)進(jìn)行全局特征匯總.特征被輸入一個(gè)多層全連接分類網(wǎng)絡(luò)，網(wǎng)絡(luò)的最后一層的通道數(shù)為類別數(shù)(#class)，其余層均有Dropout與批歸一化. 除最后一層外，激活函數(shù)均使用線性整流函數(shù)(ReLU)，最后一層的激活函數(shù)為softmax. 圖 4 為一個(gè)分類的示例網(wǎng)絡(luò).

圖 4 分類模型示例

2.4.3 分割與法向量估計(jì)網(wǎng)絡(luò)

分割網(wǎng)絡(luò)與法向量估計(jì)網(wǎng)絡(luò)的設(shè)計(jì)相似. 由于這兩種任務(wù)最終的輸出特征分辨率與輸入相同，所以在進(jìn)行鄰域編碼時(shí)不使用下采樣方法降低點(diǎn)云分辨率. 點(diǎn)云進(jìn)行鄰域編碼與位置編碼嵌入后，輸入多個(gè)堆疊的自注意力編碼器. 多個(gè)自注意力編碼器的輸出特征按照特征維度進(jìn)行連接. 解碼器的輸入特征由兩部分拼接而成： 1) 將編碼器的輸出特征進(jìn)行最大池化，得到分辨率為1的全局特征； 2) 編碼器的輸出特征. 在拼接時(shí)，可將全局特征按照點(diǎn)云的分辨率進(jìn)行重復(fù). 將拼接的特征輸入共享的多層感知機(jī)進(jìn)行解碼，分割網(wǎng)絡(luò)的輸出維度為零件/實(shí)力類別數(shù)量(#part)，且使用softmax激活函數(shù)；法向量估計(jì)網(wǎng)絡(luò)的輸出維度為3. 圖 5 為一個(gè)示例的分割網(wǎng)絡(luò).

圖 5 分割模型示例

3 實(shí)驗(yàn)驗(yàn)證

為了評(píng)估本文所提出方法的有效性，本節(jié)進(jìn)行實(shí)驗(yàn)驗(yàn)證. 形狀分類、零件分割和法向量估計(jì)是用以評(píng)估點(diǎn)云深度學(xué)習(xí)模型的三種常見任務(wù)，本文在這三類任務(wù)上對(duì)模型的整體有效性進(jìn)行了驗(yàn)證. 此外，本節(jié)對(duì)第2節(jié)中提到的各項(xiàng)改進(jìn)分別進(jìn)行了消融實(shí)驗(yàn). 實(shí)驗(yàn)的主要軟件環(huán)境為PyTorch 1.8，主要硬件環(huán)境為NVIDIA TESLA V100.

3.1 形狀分類

本節(jié)實(shí)驗(yàn)在ModelNet40[2]基準(zhǔn)測(cè)試上對(duì)比了本文方法與先前方法在分類任務(wù)中的有效性. 實(shí)驗(yàn)按照2.4.2節(jié)設(shè)計(jì)了分類網(wǎng)絡(luò). 與大多數(shù)方法相同，本文方法的輸入點(diǎn)數(shù)為1 024，且僅輸入坐標(biāo). 兩次鄰域編碼中的采樣數(shù)分別為512與256，編碼通道數(shù)量分別為128與256，在鄰域編碼中，使用了3個(gè)尺度的鄰域，每個(gè)尺度的鄰域點(diǎn)個(gè)數(shù)分別為16， 32， 64. 將分辨率為256，特征通道數(shù)為256的嵌入后特征輸入4個(gè)堆疊的編碼器，每個(gè)編碼器的多頭數(shù)量均為4，輸出的特征通道數(shù)均為256. 網(wǎng)絡(luò)將4個(gè)編碼器的特征按照維度連接為1 024維特征，使用maxpooling聚合為分辨率為1的特征并輸入全連接網(wǎng)絡(luò)，全連接網(wǎng)絡(luò)的通道數(shù)分別為512， 128與40，且每一層均有40%的Dropout以防止過(guò)擬合.

用以訓(xùn)練的點(diǎn)云數(shù)據(jù)參照文獻(xiàn)[8]進(jìn)行數(shù)據(jù)增強(qiáng)，以增加網(wǎng)絡(luò)對(duì)于模型旋轉(zhuǎn)和抖動(dòng)的魯棒性. 訓(xùn)練方法使用Adam. 經(jīng)歷230輪訓(xùn)練后，網(wǎng)絡(luò)在測(cè)試集上取得最佳準(zhǔn)確率.

表 1 中列出了本文方法與先前主流方法在ModelNet40上的準(zhǔn)確率. 相比基線方法PointNet++，本文提出方法的準(zhǔn)確率提升了2.7%；與各類空間卷積方法相比，本文也有著至少0.6%的領(lǐng)先；與先前的Transformer工作相比，本文的改進(jìn)方法在分類準(zhǔn)確率上提高了0.2%，這說(shuō)明本文針對(duì)Transformer提出的各項(xiàng)改進(jìn)是有效的. 實(shí)驗(yàn)結(jié)果表明，本文的方法達(dá)到了先進(jìn)水平.

表 1 ModeNet40分類準(zhǔn)確率對(duì)比

3.2 零件分割

零件分割任務(wù)對(duì)算子的細(xì)粒度性能提出了挑戰(zhàn). 實(shí)驗(yàn)在ShapeNet[22]基準(zhǔn)測(cè)試上評(píng)估了本文方法在細(xì)粒度任務(wù)上的有效性. 實(shí)驗(yàn)按照2.4.3節(jié)設(shè)計(jì)網(wǎng)絡(luò)：鄰域編碼與位置編碼嵌入兩次的維度分別為64與256，自注意力編碼器共堆疊4個(gè)，輸出維度均為256， 4個(gè)編碼器的輸出特征按照特征維度進(jìn)行連接，產(chǎn)生1 024維編碼特征，每個(gè)編碼器的多頭數(shù)量均為4. 解碼器中共享的MLP維度分別為2 048， 512， 128與50. 且每一層均有40%的Dropout以防止過(guò)擬合. 同分類任務(wù)類似，用以訓(xùn)練的點(diǎn)云數(shù)據(jù)參照文獻(xiàn)[8]進(jìn)行數(shù)據(jù)增強(qiáng)，以增加網(wǎng)絡(luò)對(duì)于模型旋轉(zhuǎn)和抖動(dòng)的魯棒性. 訓(xùn)練方法使用Adam. 經(jīng)歷237輪訓(xùn)練后，網(wǎng)絡(luò)在測(cè)試集上取得最佳準(zhǔn)確率.

分割性能的指標(biāo)主要為平均交并比(mean Intersection over Union, mIoU)，分割實(shí)驗(yàn)提供的指標(biāo)包括兩個(gè)：類別平均交并比(class mIoU)與實(shí)例平均交并比(instance mIoU). 表 2 給出了本文方法與最新方法的對(duì)比.

表 2 ShapeNet上的零件分割性能對(duì)比

實(shí)驗(yàn)結(jié)果表明：本文方法在細(xì)粒度任務(wù)上的有效性優(yōu)于先前的Transformer[21]工作，與基線方法PointNet， PointNet++相比，本文方法有明顯的優(yōu)勢(shì). 此外，本文方法相比其他的空間卷積和圖卷積方法也有一定的優(yōu)勢(shì).

圖 6 展示了部分隨機(jī)選取自ShapeNet數(shù)據(jù)集的點(diǎn)云模型的零件分割實(shí)驗(yàn)結(jié)果的可視化. 可以看出，實(shí)驗(yàn)的分割效果良好，基本能夠正確分割三維模型的不同部分.

圖 6 零件分割的可視化

3.3 法向量估計(jì)

法向量估計(jì)任務(wù)的網(wǎng)絡(luò)與分割網(wǎng)絡(luò)類似，僅有解碼器中共享MLP最后一層的輸出通道數(shù)不同，在法向量估計(jì)網(wǎng)絡(luò)中，最后輸出的通道數(shù)為3，且沒有softmax激活.

實(shí)驗(yàn)在ModelNet40基準(zhǔn)測(cè)試上進(jìn)行了法向量估計(jì)性能評(píng)估. 與前兩節(jié)實(shí)驗(yàn)不同，本節(jié)實(shí)驗(yàn)沒有進(jìn)行數(shù)據(jù)增強(qiáng). 網(wǎng)絡(luò)經(jīng)過(guò)170輪訓(xùn)練后在驗(yàn)證集上達(dá)到最佳成績(jī). 性能指標(biāo)選用了法向量的平均余弦距離誤差(average cosine-distance error). 實(shí)驗(yàn)結(jié)果如表 3 所示.

表 3 ModelNet40上的發(fā)現(xiàn)估計(jì)誤差對(duì)比

實(shí)驗(yàn)結(jié)果表明：本文方法在法向量估計(jì)任務(wù)中優(yōu)于先前的方法；與Transformer方法PCT相比，平均誤差降低了0.02；相較于基線方法PointNet++，有效性提升了62%.

3.4 消融實(shí)驗(yàn)

在本節(jié)中通過(guò)消融實(shí)驗(yàn)來(lái)驗(yàn)證本文提出的各項(xiàng)改進(jìn)的有效性. 消融實(shí)驗(yàn)基于形狀分類任務(wù).

1) 多頭注意力：將本文方法中的多頭注意力機(jī)制替換為單頭注意力并進(jìn)行了對(duì)比驗(yàn)證，模型的準(zhǔn)確率降低了約0.2%. 實(shí)驗(yàn)結(jié)果表明，章節(jié)2中的多頭注意力改進(jìn)是有效的.

2) 多尺度鄰域編碼嵌入：將多尺度鄰域嵌入修改為單一尺度鄰域編碼嵌入并進(jìn)行對(duì)比驗(yàn)證，發(fā)現(xiàn)模型的準(zhǔn)確率降低了0.2%，這說(shuō)明多尺度鄰域嵌入能夠有效地從不同尺度捕捉局部信息.

3) 位置編碼嵌入：將模型中的位置編碼嵌入刪除之后進(jìn)行了對(duì)比試驗(yàn)，發(fā)現(xiàn)準(zhǔn)確率降低了大約0.15%，因此，在點(diǎn)云任務(wù)中引入位置編碼是有意義的.

消融實(shí)驗(yàn)的結(jié)果如表 4 所示.

表 4 消融研究實(shí)驗(yàn)結(jié)果對(duì)比

4) 本文提出的標(biāo)準(zhǔn)化方法的有效性：將自注意力權(quán)重矩陣的標(biāo)準(zhǔn)化方法更換為文獻(xiàn)[18]中提出的方法，并與本文方法進(jìn)行了對(duì)比，結(jié)果如表 5 所示. 實(shí)驗(yàn)結(jié)果表明，本文的方法在分類準(zhǔn)確率上比文獻(xiàn)[18]的方法高約0.2%.

表 5 標(biāo)準(zhǔn)化方法的有效性

3.5 復(fù)雜度與效率分析

本節(jié)實(shí)驗(yàn)從參數(shù)量和計(jì)算量?jī)蓚€(gè)方面分析了本文方法的效率，并且與重要的基線方法進(jìn)行了對(duì)比. 實(shí)驗(yàn)結(jié)果如表 6 所示.

表 6 復(fù)雜度與效率分析

由表 6 可以看出： PointNet的計(jì)算量非常小，但是其參數(shù)量非常大，且有效性較差；本文方法相比PointNet在大幅度降低參數(shù)量的同時(shí)，有效提升了準(zhǔn)確率；與PointNet++相比，本文方法在參數(shù)量和計(jì)算量方面都有一定優(yōu)勢(shì)，且有效性也有不小的提升. 綜上所述，本文方法在顯著提升了有效性的同時(shí)降低了模型的復(fù)雜度，這使得模型的訓(xùn)練和推理更加容易.

4 結(jié) 論

本文提出了一種應(yīng)用于點(diǎn)云深度學(xué)習(xí)的Transformer，針對(duì)現(xiàn)有方法從多個(gè)方面進(jìn)行了改進(jìn). 多頭注意力機(jī)制、多尺度鄰域編碼與位置編碼嵌入等改進(jìn)使得點(diǎn)云Transformer更加有效. 本文針對(duì)點(diǎn)云深度學(xué)習(xí)的多個(gè)應(yīng)用構(gòu)建了深度學(xué)習(xí)網(wǎng)絡(luò)模型，并進(jìn)行了有效性驗(yàn)證實(shí)驗(yàn). 實(shí)驗(yàn)結(jié)果表明，本文方法在有效性上達(dá)到了先進(jìn)水平. 下一步將研究Transformer在點(diǎn)云深度學(xué)習(xí)其它任務(wù)上的應(yīng)用，例如目標(biāo)檢測(cè)和大型場(chǎng)景語(yǔ)意分割等.