• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種改進(jìn)的點(diǎn)云Transformer深度學(xué)習(xí)模型

      2022-01-13 06:11:02高金金李潞洋
      關(guān)鍵詞:鄰域編碼器尺度

      高金金, 李潞洋

      (1. 山西財(cái)經(jīng)大學(xué) 實(shí)驗(yàn)中心, 山西 太原 030006; 2. 中北大學(xué) 大數(shù)據(jù)學(xué)院, 山西 太原 030051)

      0 引 言

      點(diǎn)云已成為最常見的三維形狀描述數(shù)據(jù)結(jié)構(gòu)之一, 它能夠表示豐富的三維信息而不依賴于復(fù)雜的數(shù)據(jù)結(jié)構(gòu), 因此在三維任務(wù)中得到了廣泛的應(yīng)用. 隨著深度學(xué)習(xí)被廣泛應(yīng)用在二維計(jì)算機(jī)視覺中, 一些基于三維計(jì)算機(jī)視覺深度學(xué)習(xí)模型的點(diǎn)云分析方法也逐漸被提出.

      由于點(diǎn)云的稀疏性與無(wú)序性, 二維卷積無(wú)法直接用于點(diǎn)云分析. 因此, 早期的點(diǎn)云深度學(xué)習(xí)模型依賴于數(shù)據(jù)轉(zhuǎn)化, 且主要分為兩種方式: 多視角圖像渲染和體素化方法[1-7]. 多視角圖像渲染將三維數(shù)據(jù)渲染為多個(gè)視角下觀察到的平面圖像, 巧妙地解決了模型自遮擋的問題, 但依然無(wú)法保證三維模型的全部細(xì)節(jié)不被遮擋, 且計(jì)算量較大. 體素化方法將點(diǎn)云轉(zhuǎn)換為致密的三維體素模型, 并對(duì)其應(yīng)用三維卷積, 以模仿和復(fù)制卷積神經(jīng)網(wǎng)絡(luò)在平面圖像分析上的成功. 然而三維卷積的計(jì)算量過(guò)大, 這限制了處理模型的分辨率, 使得在數(shù)據(jù)轉(zhuǎn)換過(guò)程中損失了大量的模型細(xì)節(jié).

      PointNet[8]中提出使用深度學(xué)習(xí)分析直接分析點(diǎn)云的思路, 使用MLP對(duì)點(diǎn)的特征進(jìn)行逐點(diǎn)變換并聚合, 解決了點(diǎn)云的無(wú)序性問題. PointNet++[9]是PointNet的分層局部特征聚合改進(jìn), 有效地保留了局部信息并降低了參數(shù)量. 隨后提出的一些方法在局部特征抽象方面進(jìn)行了多種改進(jìn), 以提升局部特征提取的有效性. PointCNN[10]與A-CNN[11]是通過(guò)一致的局部排序來(lái)保證卷積的一致性, 然而排序限制了特征抽象的魯棒性. PointConv[12], RS-CNN[13], EdgeConv[14], GAC-Net[15]等方法利用空間位置關(guān)系來(lái)生成局部點(diǎn)對(duì)應(yīng)的卷積權(quán)重, 但是它們更多考慮的是中心點(diǎn)與鄰域點(diǎn)之間的關(guān)系, 而放棄了鄰域點(diǎn)之間可能存在的聯(lián)系. PointGCN[16], RGCNN[17]等方法在局部構(gòu)建了圖, 利用圖卷積進(jìn)行特征抽象. 這些方法大體上遵循了PointNet++的分層局部特征提取后聚合的架構(gòu), 它們?cè)谑褂脤?duì)稱函數(shù)進(jìn)行特征聚合時(shí)可能損失了非主要特征的消息傳遞, 造成了信息損失.

      Transformer[18]最早是針對(duì)自然語(yǔ)言處理提出的方法, 它利用自注意力機(jī)制評(píng)估了單詞之間的關(guān)聯(lián)性. Transformer及其各種變種已經(jīng)在自然語(yǔ)言處理方面取得了優(yōu)秀的成果. 考慮到自注意力機(jī)制的優(yōu)勢(shì), 一些工作將Transformer在計(jì)算機(jī)視覺領(lǐng)域進(jìn)行了推廣, 并取得了不錯(cuò)的效果. DETR[19]是一種使用Transformer進(jìn)行二維目標(biāo)檢測(cè)的模型, 巧妙設(shè)計(jì)的解碼器輸入解決了檢測(cè)目標(biāo)查詢的問題. ViT[20]是一種在圖像分類任務(wù)上直接應(yīng)用Transformer的模型.

      應(yīng)用于三維計(jì)算機(jī)視覺的Transformer依然處于摸索階段, 一些工作的提出, 也僅僅是將Transformer初步引入了點(diǎn)云深度學(xué)習(xí)中, 并未進(jìn)行太多的優(yōu)化和改進(jìn). Transformer與點(diǎn)云深度學(xué)習(xí)是高度契合的, 尤其是在Transformer天然擅長(zhǎng)處理無(wú)序數(shù)據(jù)方面. 除此之外, 自注意力機(jī)制也充分考慮了不同局部的點(diǎn)之間的關(guān)聯(lián)性問題.

      本文在先前工作[21]的基礎(chǔ)上進(jìn)行了一系列改進(jìn), 以優(yōu)化Transformer在點(diǎn)云深度學(xué)習(xí)任務(wù)上的性能. 具體來(lái)說(shuō), 在點(diǎn)的特征嵌入時(shí), 改進(jìn)了多尺度鄰域編碼, 并增加了基于學(xué)習(xí)的位置編碼嵌入, 以提升嵌入特征的描述力. 在編碼器方面, 使用了多頭自注意力機(jī)制以保證從不同的方面捕捉點(diǎn)之間的注意力關(guān)系. 除此之外, 還改進(jìn)了注意力權(quán)重的歸一化方式. 三種點(diǎn)云深度學(xué)習(xí)任務(wù)的實(shí)驗(yàn)表明, 本文提出的針對(duì)Transformer的改進(jìn)是有效的. 本文的實(shí)現(xiàn)已經(jīng)在GitHub開放了源代碼: https://github.com/gaojinjin608/transformer_pointcloud.

      1 PointNet與Transformer簡(jiǎn)介

      PointNet的提出為點(diǎn)云分析提供了一種新的思路, 即直接使用點(diǎn)云數(shù)據(jù)輸入模型并進(jìn)行訓(xùn)練. 早期的工作沒有直接訓(xùn)練點(diǎn)云數(shù)據(jù), 最大的障礙源自于點(diǎn)云的無(wú)序性, 即: 點(diǎn)的順序改變時(shí), 點(diǎn)云三維模型沒有發(fā)生變化, 深度學(xué)習(xí)模型的輸出卻發(fā)生了改變. PointNet使用共享的MLP對(duì)每一個(gè)點(diǎn)的特征進(jìn)行變換, 這樣可以保證每一個(gè)點(diǎn)特征提取的一致性; 在全局特征聚合時(shí), 對(duì)稱的聚合函數(shù)保證了無(wú)論點(diǎn)云順序如何改變, 全局特征輸出時(shí)是一致的.

      PointNet++[9]是PointNet的分層局部特征聚合改進(jìn). PointNet++將點(diǎn)云均勻地劃分為多個(gè)局部區(qū)域, 在每一個(gè)局部區(qū)域使用PointNet提取特征, 有效地保留了局部特征. 通過(guò)堆疊多個(gè)編碼器實(shí)現(xiàn)了分層局部特征變換, 并使用最大池化聚合局部特征. 由于每一層都降低了點(diǎn)云的分辨率, 這樣使得高輸出維度的較深編碼器層的輸入分辨率較低, 顯著地降低了參數(shù)量和計(jì)算量.

      Transformer最早被應(yīng)用于自然語(yǔ)言處理, 它使用了一種編碼器-解碼器的架構(gòu). 編碼器和解碼器將輸入的特征轉(zhuǎn)換為查詢(Query)、 關(guān)鍵信息(Key)與特征值(Value)(簡(jiǎn)稱QKV)三個(gè)矩陣, 并在Q與K上使用點(diǎn)積來(lái)計(jì)算每個(gè)輸入單詞的注意力權(quán)重, 這個(gè)過(guò)程被稱為自注意力計(jì)算, 也是Transformer的核心所在. 使用自注意力權(quán)重對(duì)特征進(jìn)行加權(quán)求和, 即可得到帶有單詞之間特殊關(guān)聯(lián)性的特征輸出. 二維計(jì)算機(jī)視覺借鑒了這個(gè)思想, 將圖像分割成多個(gè)區(qū)域, 每個(gè)區(qū)域被視為一個(gè)“單詞”, 通過(guò)位置編碼維持區(qū)域的位置或順序特征.

      先前的一些在點(diǎn)云上的Transformer工作[21]與二維計(jì)算機(jī)視覺的思路非常相似, 它們將每一個(gè)輸入點(diǎn)視為自然語(yǔ)言處理中的單詞, 并將它們轉(zhuǎn)換為QKV矩陣, 然后輸入到編碼器中.計(jì)算特征之間的查詢(Q)與關(guān)鍵信息(K)的點(diǎn)積, 可以得到每一點(diǎn)之間的關(guān)聯(lián)性, 使用softmax對(duì)關(guān)聯(lián)性矩陣進(jìn)行歸一化, 可以得到注意力權(quán)重矩陣, 即

      A=softmax(Q×KT),

      (1)

      矩陣乘法計(jì)算有助于快速計(jì)算全部特征之間的點(diǎn)積注意力.最后對(duì)V進(jìn)行加權(quán)求和, 以獲取附帶有點(diǎn)與點(diǎn)之間關(guān)聯(lián)性的輸出特征

      Fsa=A×V.

      (2)

      這些工作除了借鑒了Transformer的自注意力計(jì)算之外, 還針對(duì)點(diǎn)云的特性, 對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了適應(yīng)性改造: 由于單個(gè)點(diǎn)包含的形狀信息是有限的, 因此在點(diǎn)的特征嵌入階段進(jìn)行了鄰域編碼, 以豐富點(diǎn)包含的局部形狀信息; 考慮到點(diǎn)云自身包含有一些空間位置特征, 以及點(diǎn)云的無(wú)序性, 原始Transformer中的位置編碼嵌入被舍棄.

      先前的點(diǎn)云Transformer工作, 僅是將Transformer初步引入點(diǎn)云分析應(yīng)用中, 針對(duì)點(diǎn)云的簡(jiǎn)易適應(yīng)性修改, 難以使得Transformer充分有效地提取點(diǎn)云特征, 在點(diǎn)云鄰域編碼嵌入、 位置編碼嵌入與注意力權(quán)重計(jì)算等方面, 先前的工作存在著一些欠缺.

      2 改進(jìn)的點(diǎn)云Transformer

      2.1 點(diǎn)云的多頭注意力

      自注意力機(jī)制是Transformer的核心部分, 它評(píng)估了點(diǎn)的特征之間的相關(guān)性. 過(guò)去的點(diǎn)云Transformer方法的編碼器雖然借鑒了自然語(yǔ)言處理中的QKV的輸入模式, 但是在計(jì)算注意力權(quán)重時(shí), 僅考慮了一種查詢與關(guān)鍵信息之間的相關(guān)性. 點(diǎn)云能夠表示各種復(fù)雜的三維形狀, 這意味著點(diǎn)的特征之間可能存在多種不同的相關(guān)性, 而僅考慮一種相關(guān)性的情況, 可能過(guò)造成編碼器對(duì)某一類空間關(guān)系特征的過(guò)擬合.

      本文從自然語(yǔ)言處理的Transformer中受到啟發(fā), 將多頭注意力機(jī)制(Multi-Head Attention)引入點(diǎn)云Transformer, 用以提升編碼器對(duì)不同空間關(guān)系的魯棒性. 多頭注意力機(jī)制將特征轉(zhuǎn)換為多組QKV來(lái)計(jì)算注意力特征, 產(chǎn)生多組注意力特征, 并將這些特征連接在一起組成多頭注意力特征.

      假定: 在編碼器的某一層, 輸入的特征Fin的分辨率為n, 特征的維度為dv, 多頭注意力分組數(shù)為h(注意力共有h個(gè)頭), 多頭注意力的編碼器的計(jì)算過(guò)程如下:

      首先, 使用線性變換WQ,WK:Rdv→Rda,WV:Rdv→Rdv將輸入特征Fin變換為查詢Query, 關(guān)鍵信息Key與特征值Value, 注意, 為了使后續(xù)的張量計(jì)算在維度上對(duì)齊,da與dv必須能夠被h整除.

      (3)

      其次, 分別將Query,Key與Value的維度拆分為數(shù)量相同的h個(gè)子矩陣, 即

      (4)

      式中:Q1,Q2,…,Qh,K1,K2,…,Kh∈Rn×da/m,V1,V2,…,Vh∈Rn×dv/m. 具有相同索引的QKV子矩陣被視為同一分組.

      然后, 按照分組計(jì)算每個(gè)頭的注意力權(quán)重, 本文采用的是計(jì)算點(diǎn)積注意力.

      (5)

      (6)

      在行之間使用softmax函數(shù)不僅可以將注意力進(jìn)行標(biāo)準(zhǔn)化, 而且能夠?qū)⒚總€(gè)點(diǎn)的注意力權(quán)重差異在不同的輸入特征之間加以凸顯.在列之間使用softmax函數(shù)進(jìn)行標(biāo)準(zhǔn)化能夠使注意力權(quán)重之和變?yōu)?, 統(tǒng)一了每個(gè)點(diǎn)加權(quán)求和的總比重.

      再次, 使用注意力權(quán)重對(duì)Value進(jìn)行加權(quán)求和, 即可得到每一個(gè)頭的自注意力(self-Attention)特征

      Fsa1,…,Fsah=A1×V1,…,Ah×Vh,

      (7)

      式中:Fsa1,Fsa2,…,Fsah∈Rn×dv/h.

      最后, 將多個(gè)自注意力特征按照維度進(jìn)行連接, 即可得到多頭自注意力編碼器的輸出.

      Fout=concat(Fsa1,Fsa2,…,Fsam) ,

      (8)

      式中:Fsa∈Rn×dv為本層多頭點(diǎn)積自注意力編碼器的n個(gè)輸出特征. 這個(gè)計(jì)算過(guò)程如圖 1 所示.

      圖 1 多頭注意力編碼器

      2.2 多尺度鄰域編碼嵌入

      自注意力機(jī)制可以有效地捕獲模型全局范圍內(nèi)的特征信息, 但是對(duì)于局部信息的關(guān)注度較低. 本文考慮將局部信息添加到編碼器的輸入特征中以提升網(wǎng)絡(luò)對(duì)局部特征的感知能力, 這個(gè)過(guò)程被稱為鄰域編碼嵌入(Neighbor Encoding Embedding). 文獻(xiàn)[21]中提到了一種類似于PointNet的簡(jiǎn)易的獨(dú)立點(diǎn)特征聚合的單尺度鄰域編碼嵌入方式, 不同尺度的點(diǎn)云局部空間尺度包含的局部特征信息有著較大的差異, 僅考慮單一尺度難以充分描述局部特征信息. 此外, 在鄰域編碼嵌入時(shí), 僅以獨(dú)立點(diǎn)特征聚合作為編碼方式, 也難以有效捕捉局部特征信息.

      本文改進(jìn)了鄰域編碼嵌入方式, 使用多尺度鄰域查詢來(lái)構(gòu)建自注意力編碼器的輸入特征的多個(gè)鄰域, 以描述不同空間尺度下的特征. 多尺度鄰域編碼嵌入如圖 2 所示.

      圖 2 多尺度鄰域編碼與位置編碼嵌入

      下采樣為可選部分, 如果有意降低編碼器輸入特征的數(shù)量, 可以使用最遠(yuǎn)點(diǎn)采樣(Farthest Point Sampling, FPS)將點(diǎn)云采樣至一個(gè)較小的分辨率s, 否則可跳過(guò)采樣.如果不進(jìn)行采樣, 則圖 2 中的s與n相等.m組k最近鄰(k-Nearest Neighbor, kNN)方法被用來(lái)構(gòu)建m種尺度的局部鄰域.第i個(gè)尺度包含的鄰域點(diǎn)個(gè)數(shù)為ki, 局部中心點(diǎn)的特征(維度為s×din)被重復(fù)ki次(維度為s×ki×din), 并被連接至局部特征分組(維度為s×ki×din), 使得拼接后的特征包含了中心點(diǎn)與局部點(diǎn)特征, 拼接后的局部分組特征維度為2×din.每一個(gè)尺度均有一個(gè)特征變換函數(shù), 將中心點(diǎn)與局部點(diǎn)的特征進(jìn)行特征混合, 輸出維度為s×ki×dv/m的單一尺度局部特征組.將每一個(gè)尺度的特征組使用最大池化函數(shù)按照局部點(diǎn)數(shù)進(jìn)行特征聚合, 得到該尺度的局部鄰域編碼特征(維度為s×dv/m).m個(gè)尺度的局部鄰域編碼拼接在一起, 即可得到該局部區(qū)域的多尺度鄰域編碼特征Fnei∈Rs×dv.

      2.3 位置編碼嵌入

      在文獻(xiàn)[18]中, 為了克服序列數(shù)據(jù)的先后順序在編碼過(guò)程中的丟失問題, 在特征輸入編碼器之前, 對(duì)特征增加了位置編碼(positional encoding). 而點(diǎn)云數(shù)據(jù)天然包含了位置信息, 在一定程度上緩解了編碼時(shí)的位置損失. 出于這樣的考慮, 文獻(xiàn)[21]等方法也放棄了位置編碼. 但在鄰域編碼嵌入時(shí), 局部相對(duì)位置的使用, 削弱了編碼中心點(diǎn)的絕對(duì)位置特征. 因此, 在特征輸入編碼器之前, 進(jìn)行位置編碼嵌入是有必要的.

      具體來(lái)說(shuō), 使用鄰域編碼的中心點(diǎn)代表該點(diǎn)的位置編碼, 所以本文的模型使用中心點(diǎn)的坐標(biāo)作為位置編碼的輸入, 并使用基于學(xué)習(xí)的方法進(jìn)行編碼. 定義函數(shù)pe:R3→Rdv, 為位置編碼函數(shù), 用以將三維坐標(biāo)映射為位置編碼.

      Fpos=pe(coord),

      (9)

      式中:coord∈R3為中心點(diǎn)坐標(biāo);Fpos∈Rdv為位置編碼結(jié)果.函數(shù)pe使用MLP實(shí)現(xiàn), MLP在每個(gè)輸入點(diǎn)之間共享參數(shù), 以保證編碼的一致性. 將位置編碼結(jié)果與鄰域編碼結(jié)果進(jìn)行相加, 即可完成位置編碼嵌入.

      Fin=Fpos+Fnei,

      (10)

      式中:Fin∈Rv為編碼器的輸入;pos,nei∈Rv分別為位置編碼和鄰域編碼的輸出.

      圖 2 直觀表示了鄰域編碼與位置編碼的計(jì)算過(guò)程.

      2.4 網(wǎng)絡(luò)架構(gòu)

      2.4.1 編碼器的完善

      本文參照了文獻(xiàn)[21], 使用偏移注意力(Offset Attention)替代了原始自注意力機(jī)制, 以獲取更好的網(wǎng)絡(luò)性能.

      (11)

      同時(shí), 本模型為編碼器增加了殘差模塊, 以降低網(wǎng)絡(luò)收斂難度.

      (12)

      Fout即為單一層編碼器的輸出特征, 這個(gè)計(jì)算過(guò)程如圖 3 所示.

      圖 3 偏移注意力與殘差

      2.4.2 分類網(wǎng)絡(luò)

      形狀分類網(wǎng)絡(luò)主要結(jié)構(gòu)由多個(gè)自注意力編碼器堆疊構(gòu)成. 原始點(diǎn)云輸入編碼器之前, 先進(jìn)行多尺度鄰域編碼與位置編碼嵌入. 考慮到分類網(wǎng)絡(luò)更多關(guān)注于局部特征與全局特征, 而非具體每一個(gè)點(diǎn)的特征, 因此, 在鄰域編碼時(shí)進(jìn)行了下采樣, 這樣可以降低編碼器的輸入分辨率, 有效減少計(jì)算量. 嵌入特征被輸入多個(gè)堆疊的編碼器. 將每一層編碼器的輸出特征按照維度連接在一起, 構(gòu)成編碼階段的總體輸出特征. 分類網(wǎng)絡(luò)需要對(duì)輸出特征進(jìn)行匯總, 而無(wú)需使用解碼器, 因此模型選用最大池化函數(shù)(maxpooling)進(jìn)行全局特征匯總.特征被輸入一個(gè)多層全連接分類網(wǎng)絡(luò), 網(wǎng)絡(luò)的最后一層的通道數(shù)為類別數(shù)(#class), 其余層均有Dropout與批歸一化. 除最后一層外, 激活函數(shù)均使用線性整流函數(shù)(ReLU), 最后一層的激活函數(shù)為softmax. 圖 4 為一個(gè)分類的示例網(wǎng)絡(luò).

      圖 4 分類模型示例

      2.4.3 分割與法向量估計(jì)網(wǎng)絡(luò)

      分割網(wǎng)絡(luò)與法向量估計(jì)網(wǎng)絡(luò)的設(shè)計(jì)相似. 由于這兩種任務(wù)最終的輸出特征分辨率與輸入相同, 所以在進(jìn)行鄰域編碼時(shí)不使用下采樣方法降低點(diǎn)云分辨率. 點(diǎn)云進(jìn)行鄰域編碼與位置編碼嵌入后, 輸入多個(gè)堆疊的自注意力編碼器. 多個(gè)自注意力編碼器的輸出特征按照特征維度進(jìn)行連接. 解碼器的輸入特征由兩部分拼接而成: 1) 將編碼器的輸出特征進(jìn)行最大池化, 得到分辨率為1的全局特征; 2) 編碼器的輸出特征. 在拼接時(shí), 可將全局特征按照點(diǎn)云的分辨率進(jìn)行重復(fù). 將拼接的特征輸入共享的多層感知機(jī)進(jìn)行解碼, 分割網(wǎng)絡(luò)的輸出維度為零件/實(shí)力類別數(shù)量(#part), 且使用softmax激活函數(shù); 法向量估計(jì)網(wǎng)絡(luò)的輸出維度為3. 圖 5 為一個(gè)示例的分割網(wǎng)絡(luò).

      圖 5 分割模型示例

      3 實(shí)驗(yàn)驗(yàn)證

      為了評(píng)估本文所提出方法的有效性, 本節(jié)進(jìn)行實(shí)驗(yàn)驗(yàn)證. 形狀分類、 零件分割和法向量估計(jì)是用以評(píng)估點(diǎn)云深度學(xué)習(xí)模型的三種常見任務(wù), 本文在這三類任務(wù)上對(duì)模型的整體有效性進(jìn)行了驗(yàn)證. 此外, 本節(jié)對(duì)第2節(jié)中提到的各項(xiàng)改進(jìn)分別進(jìn)行了消融實(shí)驗(yàn). 實(shí)驗(yàn)的主要軟件環(huán)境為PyTorch 1.8, 主要硬件環(huán)境為NVIDIA TESLA V100.

      3.1 形狀分類

      本節(jié)實(shí)驗(yàn)在ModelNet40[2]基準(zhǔn)測(cè)試上對(duì)比了本文方法與先前方法在分類任務(wù)中的有效性. 實(shí)驗(yàn)按照2.4.2節(jié)設(shè)計(jì)了分類網(wǎng)絡(luò). 與大多數(shù)方法相同, 本文方法的輸入點(diǎn)數(shù)為1 024, 且僅輸入坐標(biāo). 兩次鄰域編碼中的采樣數(shù)分別為512與256, 編碼通道數(shù)量分別為128與256, 在鄰域編碼中, 使用了3個(gè)尺度的鄰域, 每個(gè)尺度的鄰域點(diǎn)個(gè)數(shù)分別為16, 32, 64. 將分辨率為256, 特征通道數(shù)為256的嵌入后特征輸入4個(gè)堆疊的編碼器, 每個(gè)編碼器的多頭數(shù)量均為4, 輸出的特征通道數(shù)均為256. 網(wǎng)絡(luò)將4個(gè)編碼器的特征按照維度連接為1 024維特征, 使用maxpooling聚合為分辨率為1的特征并輸入全連接網(wǎng)絡(luò), 全連接網(wǎng)絡(luò)的通道數(shù)分別為512, 128與40, 且每一層均有40%的Dropout以防止過(guò)擬合.

      用以訓(xùn)練的點(diǎn)云數(shù)據(jù)參照文獻(xiàn)[8]進(jìn)行數(shù)據(jù)增強(qiáng), 以增加網(wǎng)絡(luò)對(duì)于模型旋轉(zhuǎn)和抖動(dòng)的魯棒性. 訓(xùn)練方法使用Adam. 經(jīng)歷230輪訓(xùn)練后, 網(wǎng)絡(luò)在測(cè)試集上取得最佳準(zhǔn)確率.

      表 1 中列出了本文方法與先前主流方法在ModelNet40上的準(zhǔn)確率. 相比基線方法PointNet++, 本文提出方法的準(zhǔn)確率提升了2.7%; 與各類空間卷積方法相比, 本文也有著至少0.6%的領(lǐng)先; 與先前的Transformer工作相比, 本文的改進(jìn)方法在分類準(zhǔn)確率上提高了0.2%, 這說(shuō)明本文針對(duì)Transformer提出的各項(xiàng)改進(jìn)是有效的. 實(shí)驗(yàn)結(jié)果表明, 本文的方法達(dá)到了先進(jìn)水平.

      表 1 ModeNet40分類準(zhǔn)確率對(duì)比

      3.2 零件分割

      零件分割任務(wù)對(duì)算子的細(xì)粒度性能提出了挑戰(zhàn). 實(shí)驗(yàn)在ShapeNet[22]基準(zhǔn)測(cè)試上評(píng)估了本文方法在細(xì)粒度任務(wù)上的有效性. 實(shí)驗(yàn)按照2.4.3節(jié)設(shè)計(jì)網(wǎng)絡(luò): 鄰域編碼與位置編碼嵌入兩次的維度分別為64與256, 自注意力編碼器共堆疊4個(gè), 輸出維度均為256, 4個(gè)編碼器的輸出特征按照特征維度進(jìn)行連接, 產(chǎn)生1 024維編碼特征, 每個(gè)編碼器的多頭數(shù)量均為4. 解碼器中共享的MLP維度分別為2 048, 512, 128與50. 且每一層均有40%的Dropout以防止過(guò)擬合. 同分類任務(wù)類似, 用以訓(xùn)練的點(diǎn)云數(shù)據(jù)參照文獻(xiàn)[8]進(jìn)行數(shù)據(jù)增強(qiáng), 以增加網(wǎng)絡(luò)對(duì)于模型旋轉(zhuǎn)和抖動(dòng)的魯棒性. 訓(xùn)練方法使用Adam. 經(jīng)歷237輪訓(xùn)練后, 網(wǎng)絡(luò)在測(cè)試集上取得最佳準(zhǔn)確率.

      分割性能的指標(biāo)主要為平均交并比(mean Intersection over Union, mIoU), 分割實(shí)驗(yàn)提供的指標(biāo)包括兩個(gè): 類別平均交并比(class mIoU)與實(shí)例平均交并比(instance mIoU). 表 2 給出了本文方法與最新方法的對(duì)比.

      表 2 ShapeNet上的零件分割性能對(duì)比

      實(shí)驗(yàn)結(jié)果表明: 本文方法在細(xì)粒度任務(wù)上的有效性優(yōu)于先前的Transformer[21]工作, 與基線方法PointNet, PointNet++相比, 本文方法有明顯的優(yōu)勢(shì). 此外, 本文方法相比其他的空間卷積和圖卷積方法也有一定的優(yōu)勢(shì).

      圖 6 展示了部分隨機(jī)選取自ShapeNet數(shù)據(jù)集的點(diǎn)云模型的零件分割實(shí)驗(yàn)結(jié)果的可視化. 可以看出, 實(shí)驗(yàn)的分割效果良好, 基本能夠正確分割三維模型的不同部分.

      圖 6 零件分割的可視化

      3.3 法向量估計(jì)

      法向量估計(jì)任務(wù)的網(wǎng)絡(luò)與分割網(wǎng)絡(luò)類似, 僅有解碼器中共享MLP最后一層的輸出通道數(shù)不同, 在法向量估計(jì)網(wǎng)絡(luò)中, 最后輸出的通道數(shù)為3, 且沒有softmax激活.

      實(shí)驗(yàn)在ModelNet40基準(zhǔn)測(cè)試上進(jìn)行了法向量估計(jì)性能評(píng)估. 與前兩節(jié)實(shí)驗(yàn)不同, 本節(jié)實(shí)驗(yàn)沒有進(jìn)行數(shù)據(jù)增強(qiáng). 網(wǎng)絡(luò)經(jīng)過(guò)170輪訓(xùn)練后在驗(yàn)證集上達(dá)到最佳成績(jī). 性能指標(biāo)選用了法向量的平均余弦距離誤差(average cosine-distance error). 實(shí)驗(yàn)結(jié)果如表 3 所示.

      表 3 ModelNet40上的發(fā)現(xiàn)估計(jì)誤差對(duì)比

      實(shí)驗(yàn)結(jié)果表明: 本文方法在法向量估計(jì)任務(wù)中優(yōu)于先前的方法; 與Transformer方法PCT相比, 平均誤差降低了0.02; 相較于基線方法PointNet++, 有效性提升了62%.

      3.4 消融實(shí)驗(yàn)

      在本節(jié)中通過(guò)消融實(shí)驗(yàn)來(lái)驗(yàn)證本文提出的各項(xiàng)改進(jìn)的有效性. 消融實(shí)驗(yàn)基于形狀分類任務(wù).

      1) 多頭注意力: 將本文方法中的多頭注意力機(jī)制替換為單頭注意力并進(jìn)行了對(duì)比驗(yàn)證, 模型的準(zhǔn)確率降低了約0.2%. 實(shí)驗(yàn)結(jié)果表明, 章節(jié)2中的多頭注意力改進(jìn)是有效的.

      2) 多尺度鄰域編碼嵌入: 將多尺度鄰域嵌入修改為單一尺度鄰域編碼嵌入并進(jìn)行對(duì)比驗(yàn)證, 發(fā)現(xiàn)模型的準(zhǔn)確率降低了0.2%, 這說(shuō)明多尺度鄰域嵌入能夠有效地從不同尺度捕捉局部信息.

      3) 位置編碼嵌入: 將模型中的位置編碼嵌入刪除之后進(jìn)行了對(duì)比試驗(yàn), 發(fā)現(xiàn)準(zhǔn)確率降低了大約0.15%, 因此, 在點(diǎn)云任務(wù)中引入位置編碼是有意義的.

      消融實(shí)驗(yàn)的結(jié)果如表 4 所示.

      表 4 消融研究實(shí)驗(yàn)結(jié)果對(duì)比

      4) 本文提出的標(biāo)準(zhǔn)化方法的有效性: 將自注意力權(quán)重矩陣的標(biāo)準(zhǔn)化方法更換為文獻(xiàn)[18]中提出的方法, 并與本文方法進(jìn)行了對(duì)比, 結(jié)果如表 5 所示. 實(shí)驗(yàn)結(jié)果表明, 本文的方法在分類準(zhǔn)確率上比文獻(xiàn)[18]的方法高約0.2%.

      表 5 標(biāo)準(zhǔn)化方法的有效性

      3.5 復(fù)雜度與效率分析

      本節(jié)實(shí)驗(yàn)從參數(shù)量和計(jì)算量?jī)蓚€(gè)方面分析了本文方法的效率, 并且與重要的基線方法進(jìn)行了對(duì)比. 實(shí)驗(yàn)結(jié)果如表 6 所示.

      表 6 復(fù)雜度與效率分析

      由表 6 可以看出: PointNet的計(jì)算量非常小, 但是其參數(shù)量非常大, 且有效性較差; 本文方法相比PointNet在大幅度降低參數(shù)量的同時(shí), 有效提升了準(zhǔn)確率; 與PointNet++相比, 本文方法在參數(shù)量和計(jì)算量方面都有一定優(yōu)勢(shì), 且有效性也有不小的提升. 綜上所述, 本文方法在顯著提升了有效性的同時(shí)降低了模型的復(fù)雜度, 這使得模型的訓(xùn)練和推理更加容易.

      4 結(jié) 論

      本文提出了一種應(yīng)用于點(diǎn)云深度學(xué)習(xí)的Transformer, 針對(duì)現(xiàn)有方法從多個(gè)方面進(jìn)行了改進(jìn). 多頭注意力機(jī)制、 多尺度鄰域編碼與位置編碼嵌入等改進(jìn)使得點(diǎn)云Transformer更加有效. 本文針對(duì)點(diǎn)云深度學(xué)習(xí)的多個(gè)應(yīng)用構(gòu)建了深度學(xué)習(xí)網(wǎng)絡(luò)模型, 并進(jìn)行了有效性驗(yàn)證實(shí)驗(yàn). 實(shí)驗(yàn)結(jié)果表明, 本文方法在有效性上達(dá)到了先進(jìn)水平. 下一步將研究Transformer在點(diǎn)云深度學(xué)習(xí)其它任務(wù)上的應(yīng)用, 例如目標(biāo)檢測(cè)和大型場(chǎng)景語(yǔ)意分割等.

      猜你喜歡
      鄰域編碼器尺度
      財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
      稀疏圖平方圖的染色數(shù)上界
      基于FPGA的同步機(jī)軸角編碼器
      基于鄰域競(jìng)賽的多目標(biāo)優(yōu)化算法
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      關(guān)于-型鄰域空間
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      9
      多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
      巴南区| 都安| 通渭县| 铜山县| 紫阳县| 安达市| 宁陵县| 长宁区| 张家川| 阿合奇县| 定西市| 兰溪市| 安塞县| 广灵县| 察哈| 荔波县| 绍兴县| 定陶县| 阳谷县| 瑞昌市| 乌鲁木齐县| 万荣县| 菏泽市| 贵德县| 明溪县| 离岛区| 密云县| 洛浦县| 越西县| 乐亭县| 东乌珠穆沁旗| 松桃| 山丹县| 兴国县| 黑水县| 尼玛县| 博湖县| 汾阳市| 讷河市| 宜州市| 汪清县|