• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機(jī)制與圖卷積神經(jīng)網(wǎng)絡(luò)的單目紅外圖像深度估計(jì)

      2021-04-11 09:35:04
      應(yīng)用光學(xué) 2021年1期
      關(guān)鍵詞:單目像素點(diǎn)注意力

      (華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237)

      引言

      隨著無人駕駛領(lǐng)域的飛速發(fā)展,計(jì)算機(jī)對(duì)于三維場景進(jìn)行理解并輔助人進(jìn)行駕駛決策的需求變得越來越大。而深度估計(jì)作為三維場景重建[1]的一部分,已成為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要課題。深度估計(jì)通常分為單目深度估計(jì)、雙目深度估計(jì)以及多目深度估計(jì)算法。單目深度估計(jì)相較雙目及多目深度估計(jì)來說對(duì)于硬件的要求較低,成為近幾年比較火熱的一個(gè)研究方向。但單目深度估計(jì)由于缺少視差數(shù)據(jù),利用傳統(tǒng)的方法常常無法對(duì)圖像中的深度進(jìn)行推斷。而隨著深度學(xué)習(xí)的火熱發(fā)展,深度神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)進(jìn)行特征提取的能力使得其在場景深度估計(jì)上也得到了廣泛的應(yīng)用。

      近年來,許多基于深度神經(jīng)網(wǎng)絡(luò)的研究工作在單目深度估計(jì)上取得了不少的研究成果。Eigen 等人[2]首次將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于單目深度估計(jì)任務(wù)中,提出利用多尺度的卷積神經(jīng)網(wǎng)絡(luò)對(duì)深度圖進(jìn)行預(yù)測。網(wǎng)絡(luò)架構(gòu)主要為兩部分,全局粗略尺度網(wǎng)絡(luò)用來得到低分辨率的粗略深度圖,局部精細(xì)尺度網(wǎng)絡(luò)對(duì)前者的輸出進(jìn)行精細(xì)化。隨后,Eigen 等人[3]在其前述研究的基礎(chǔ)上進(jìn)行了改進(jìn),增添了高分辨率尺度,以獲得更高分辨率的深度估計(jì)結(jié)果,并改變了網(wǎng)絡(luò)訓(xùn)練的方式,實(shí)現(xiàn)了在同一個(gè)網(wǎng)絡(luò)下同時(shí)完成深度估計(jì)、表面法線預(yù)測以及語義標(biāo)注3個(gè)任務(wù)。Laina 等人[4]采用了全卷積的ResNet[5]以及上采樣來進(jìn)行深度估計(jì),殘差結(jié)構(gòu)帶來的最直觀的優(yōu)勢(shì)就是其具有更大的感受野,因此可以接收分辨率更高的輸入圖像,保證其全局信息可以更好地得到保持。Wu 等人[6]提出了基于雙向遞歸的卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行單目紅外視頻深度估計(jì)任務(wù)。Gu 等人[7]提出了一種新型的金字塔輸入殘差神經(jīng)網(wǎng)絡(luò)來對(duì)紅外圖像進(jìn)行單目深度估計(jì)。

      卷積神經(jīng)網(wǎng)絡(luò)在深度估計(jì)任務(wù)中取得了較好成果,但其局部連接特性會(huì)對(duì)深度估計(jì)任務(wù)有一定的局限性。在場景深度預(yù)測問題中,圖像中的每個(gè)像素點(diǎn)對(duì)應(yīng)的深度信息不僅與它的鄰域相關(guān)聯(lián),通常還與圖像中相同深度的像素點(diǎn)有關(guān)聯(lián)。因此,卷積神經(jīng)網(wǎng)絡(luò)在特征提取過程中輸入輸出的局部連接性會(huì)使得每個(gè)像素點(diǎn)的感受野過小,無法更好地預(yù)測其對(duì)應(yīng)的深度值。擴(kuò)張卷積[8]的出現(xiàn)為這個(gè)問題提供了一種思路,它能夠在不增加參數(shù)量的前提下有效增大感受野。Li 等人[9]在采用擴(kuò)張卷積思想的同時(shí),在網(wǎng)絡(luò)結(jié)構(gòu)中通過分層融合策略融合不同尺度的信息,使用多分類的邏輯回歸損失,能夠更快地獲得精度較高的深度估計(jì)結(jié)果。Fu 等人[10]提出了空間遞增的離散化(spacing-increasing discretization,SID)策略,將帶有擴(kuò)張卷積的金字塔池化模塊(atrous spatial pyramid pooling,ASPP)作為網(wǎng)絡(luò)主體來進(jìn)行深度估計(jì)任務(wù)。

      此外,注意力機(jī)制的出現(xiàn)也可用于擴(kuò)大感受野,利于從全局的角度出發(fā)去解決問題。自注意力機(jī)制最早被Bahdanau 等人[11]應(yīng)用于機(jī)器翻譯的研究,此后開始廣泛應(yīng)用于自然語言處理與計(jì)算機(jī)視覺等領(lǐng)域。Xu 等人[12]提出了結(jié)構(gòu)化的注意力模型,將它與條件隨機(jī)場結(jié)合在一起,對(duì)卷積神經(jīng)網(wǎng)絡(luò)不同層的多尺度信息進(jìn)行自主調(diào)節(jié)并進(jìn)行融合。Li 等人[13]提出了一種基于深度注意的分類(deep attention-based classification,DABC)網(wǎng)絡(luò),用于魯棒性單目圖像深度估計(jì),它采用了通道級(jí)別的注意力機(jī)制,將更重要的通道賦予更高的權(quán)值來對(duì)原始特征進(jìn)行更新。Chen 等人[14]提出了自適應(yīng)的像素級(jí)注意力模型,與軟性有序推理相結(jié)合,在可見光數(shù)據(jù)集NYU Depth V2上進(jìn)行場景深度估計(jì)。

      但單目深度估計(jì)中仍有一個(gè)問題需要考慮,那就是由神經(jīng)網(wǎng)絡(luò)提取的像素級(jí)深度關(guān)聯(lián)信息是非歐數(shù)據(jù)[15],可以考慮采用圖神經(jīng)網(wǎng)絡(luò)來處理此類問題。Fu 等人[15]提出采用ResNet/SENet 提取出多尺度粗略的深度圖,再通過新穎的策略將其構(gòu)造成圖結(jié)構(gòu)輸入圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。這就為單目深度估計(jì)任務(wù)提供了一個(gè)新的思路,即將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于單目深度估計(jì)任務(wù),但文獻(xiàn)[15]的研究工作仍有一定的局限。首先,它采用ResNet/SENet得到的粗略深度估計(jì)的結(jié)果來進(jìn)行圖結(jié)構(gòu)的構(gòu)建,這樣得到的圖結(jié)構(gòu)是固定的,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)無法進(jìn)行端到端(end-toend)的訓(xùn)練。此外,通過預(yù)訓(xùn)練模型得到的圖結(jié)構(gòu)沒有考慮全局尺度下不同區(qū)域的深度信息關(guān)聯(lián),這樣的圖結(jié)構(gòu)輸入圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練可能引起較大的誤差。

      針對(duì)上述問題,本文提出了基于注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)(attention graph convolutional network,AGCN)的深度估計(jì)方法。AGCN 通過端到端的訓(xùn)練,在全局的角度提取圖像的像素級(jí)深度關(guān)聯(lián)信息構(gòu)造圖結(jié)構(gòu),并用圖卷積神經(jīng)網(wǎng)絡(luò)作為整體框架來進(jìn)行分類深度推理。首先,本文采用注意力機(jī)制提取特征圖像素級(jí)的全局深度關(guān)聯(lián),這個(gè)全局深度關(guān)聯(lián)包含著豐富的場景深度上下文信息。其次,將此深度關(guān)聯(lián)信息與特征圖作

      為圖結(jié)構(gòu)輸入圖卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)單目圖像深度估計(jì)推理。最后,在訓(xùn)練階段,將連續(xù)的深度估計(jì)回歸問題采用分類的方式進(jìn)行,進(jìn)而降低網(wǎng)絡(luò)的學(xué)習(xí)難度。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在紅外數(shù)據(jù)集NUST-SR上獲得了良好的效果,相較其他方法更具優(yōu)勢(shì)。

      1 網(wǎng)絡(luò)結(jié)構(gòu)

      本節(jié)詳細(xì)介紹基于注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的深度估計(jì)方法,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。AGCN 將ResNet 作為網(wǎng)絡(luò)的骨架結(jié)構(gòu)用于原始圖像的特征提取,將提取出的特征經(jīng)過注意力模型得到鄰接矩陣和節(jié)點(diǎn)特征,將兩者作為圖結(jié)構(gòu)輸入GCN,最終得到深度分類結(jié)果。

      圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖(AGCN)Fig.1 Structure diagram of network (AGCN)

      1.1 注意力模型

      在引言中已經(jīng)提到深度估計(jì)問題中,圖像中每個(gè)像素點(diǎn)的深度信息不僅與它鄰近像素點(diǎn)的深度信息相關(guān),同時(shí)還要考慮圖像中更大范圍的其他像素點(diǎn)的深度信息。這是因?yàn)榇蠓秶鷥?nèi)其他區(qū)域的像素點(diǎn)的深度值可能與該像素點(diǎn)的深度值相同或者接近,能夠?yàn)樵撓袼攸c(diǎn)的深度估計(jì)提供更多的信息。但對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來說,卷積操作的感受野是局部的,只有當(dāng)卷積層數(shù)非常深時(shí)才能將更大范圍內(nèi)的像素之間的信息聯(lián)系起來,但這樣一方面會(huì)將大范圍內(nèi)深度值不相同的像素點(diǎn)也考慮在內(nèi),另一方面會(huì)導(dǎo)致非常大的參數(shù)量。注意力模型可以有效解決這個(gè)問題,它能夠在模擬長程依賴(longrange dependencies)的同時(shí)兼顧參數(shù)量的問題,從全局的角度來處理深度估計(jì)中特征相關(guān)性的問題。

      注意力機(jī)制的概念是受到認(rèn)知科學(xué)中人類對(duì)信息處理機(jī)制的啟發(fā)而產(chǎn)生的。由于信息處理能力的局限,人類會(huì)選擇性地關(guān)注完整信息中的某一部分,同時(shí)忽略其他信息。注意力機(jī)制包含3個(gè)要素source、query以及attention value,其中source代表需要處理的原始信息,query代表給定的條件或是先驗(yàn)信息,attention value代表在給定query的條件下,通過注意力機(jī)制從原始數(shù)據(jù)source中所提取的信息。通常source中包含的信息是通過鍵-值對(duì)key-value 來表示的。注意力機(jī)制的定義如(1)式:

      引申到場景深度預(yù)測問題中,注意力機(jī)制對(duì)于某個(gè)像素點(diǎn)的深度信息,可以關(guān)注到它周圍深度相關(guān)的像素點(diǎn),以及全圖范圍內(nèi)深度相近的像素點(diǎn)。本節(jié)將詳述注意力模型的構(gòu)建,如圖2所示。

      圖2 注意力模型結(jié)構(gòu)圖Fig.2 Structure diagram of attention model

      輸入大小為x∈RH×W×c的特征圖,其中H,W為輸入特征圖的長和寬,c為輸入特征圖的通道數(shù)。采用3個(gè)不同的轉(zhuǎn)換函數(shù)f、g、p(在本文中都為標(biāo)準(zhǔn)卷積操作)將特征圖轉(zhuǎn)換為query=f(x)∈RN×cq,key=g(x)∈RN×ck以 及value=p(x)∈RN×cv,其中N=H×W。將query轉(zhuǎn)置后與key進(jìn)行矩陣相乘的操作,再經(jīng)過softmax得到attention map,即attention map中的注意力權(quán)重的計(jì)算如(2)式:

      式中:αj,i的含義是位置i與位置j的相似度,兩個(gè)位置的信息越相近,它們的相似度就越大;為一個(gè)固定的縮放系數(shù),用來避免attention map的數(shù)量級(jí)過大影響計(jì)算量。

      query與key融合得到的attention map可以獲得不同位置的關(guān)聯(lián)信息,value可以得到原始數(shù)據(jù)較深層次的抽象特征。將attention map 作為鄰接矩陣構(gòu)造節(jié)點(diǎn)之間邊的關(guān)系,將value作為節(jié)點(diǎn)的特征,得到輸入圖神經(jīng)網(wǎng)絡(luò)所需的圖結(jié)構(gòu)。

      1.2 圖卷積神經(jīng)網(wǎng)絡(luò)

      圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)作為將卷積神經(jīng)網(wǎng)絡(luò)與圖相結(jié)合的方法,在近幾年得到了廣泛的應(yīng)用。GCN的本質(zhì)是聚合節(jié)點(diǎn)周圍的鄰居信息,對(duì)于圖中的任意節(jié)點(diǎn),每一次的特征更新都代表著聚合了更高一階鄰居的信息。本節(jié)將詳述圖卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建,如圖3所示。

      圖3 圖卷積神經(jīng)網(wǎng)絡(luò)示意圖Fig.3 Schematic of graph convolutional neural network

      輸入為圖G={V,E},其中V∈RN×cv代表節(jié)點(diǎn)特征,即從原始圖像中提取到的圖像特征(1.1節(jié)中的value),E∈RN×N代表節(jié)點(diǎn)之間邊的連接關(guān)系,由1.1節(jié)中獲得的attention map 來獲得。圖卷積層(GCN layer)的節(jié)點(diǎn)特征更新公式為:

      其中X∈RN×din代表該層的輸入特征;Y∈RN×dout代表該層的輸出特征;N=H×W代表節(jié)點(diǎn)數(shù)量;M∈RN×N代表聚合鄰居信息的聚合矩陣,它是一個(gè)歸一化的矩陣,每一行的值加起來都為1;W∈R2din×dout代表在訓(xùn)練過程中可學(xué)習(xí)的權(quán)重矩陣;σ(·)代表非線性激活函數(shù)(本文中采用的是ReLU);“ ‖”操作代表將矩陣沿著特征維度進(jìn)行級(jí)聯(lián);MX的含義即為對(duì)節(jié)點(diǎn)的鄰居信息進(jìn)行特征聚合,但若直接取M為鄰接矩陣A,它不是一個(gè)歸一化的矩陣,會(huì)影響神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)的穩(wěn)定性,因此需要將A重歸一化,即:

      綜上,圖卷積層的聚合公式為

      通常,鄰接矩陣的構(gòu)造是:

      本文創(chuàng)新性地采用1.1節(jié)中得到的attention map 來作為鄰接矩陣,attention map中每個(gè)值代表的就是對(duì)應(yīng)節(jié)點(diǎn)之間的相似度,它表示了節(jié)點(diǎn)之間連接的強(qiáng)烈程度,不再是非0 即1的值。用這樣的鄰接矩陣來進(jìn)行圖卷積聚合操作會(huì)使得結(jié)果更加準(zhǔn)確。同時(shí),本文的模型訓(xùn)練是一個(gè)端到端的過程,attention map 不是固定的,將在訓(xùn)練過程中不斷變化,同樣有助于提升深度推理的結(jié)果。

      此外,圖卷積層的數(shù)量并不是越多越好,已有研究表明[16],在使用多層GCN layer后,節(jié)點(diǎn)的區(qū)分度會(huì)變得越來越差,節(jié)點(diǎn)的表示向量會(huì)趨向一致,使得相應(yīng)的學(xué)習(xí)任務(wù)變得困難,這個(gè)現(xiàn)象稱為過平滑(over-smooth)問題,因此本文將采用GCN layer 0~3層進(jìn)行實(shí)驗(yàn),選擇最適合的層數(shù)。

      2 網(wǎng)絡(luò)訓(xùn)練

      2.1 數(shù)據(jù)集介紹

      本文所采用的數(shù)據(jù)集NUST-SR是由南京理工大學(xué)無人車隊(duì)的車載紅外攝像頭以及激光雷達(dá)拍攝所得,其中包含6529 對(duì)紅外原始圖像和相對(duì)應(yīng)的深度圖像。紅外原始圖像和對(duì)應(yīng)的深度圖像經(jīng)過圖像配準(zhǔn)和預(yù)處理后分辨率統(tǒng)一為512 pixel×256 pixel。本文中將原始數(shù)據(jù)集劃分為訓(xùn)練集(包含5223 對(duì)圖像)和測試集(包含1306 對(duì)圖像),數(shù)據(jù)集的深度范圍為1.8 m~80 m。

      2.2 網(wǎng)絡(luò)訓(xùn)練過程

      本文的實(shí)驗(yàn)是基于Facebook 人工智能研究院推出的開源框架Pytorch,開發(fā)環(huán)境為Ubuntu18.04,搭載了顯卡NVIDIA RTX 2080Ti。在訓(xùn)練過程中,首先對(duì)紅外原始圖像進(jìn)行歸一化,接著將深度圖像的連續(xù)深度值離散化為32類深度標(biāo)簽。訓(xùn)練時(shí)采用ResNet 對(duì)紅外圖像進(jìn)行初步的特征提取,網(wǎng)絡(luò)的學(xué)習(xí)率初始化為1×10?3,迭代次數(shù)設(shè)置為300代,選取交叉熵為損失函數(shù),優(yōu)化函數(shù)采用Adam,訓(xùn)練和測試時(shí)的batchsize 都設(shè)為8。整個(gè)訓(xùn)練過程耗時(shí)24 h。

      3 實(shí)驗(yàn)結(jié)果

      3.1 模型評(píng)價(jià)指標(biāo)

      針對(duì)深度估計(jì)問題,對(duì)模型好壞的定量評(píng)價(jià)通用指標(biāo)通常有:

      1)平均相對(duì)誤差(average relative error,REL)。

      2)對(duì)數(shù)均方根誤差(log root mean squared error,RMSE-log)。

      3)平均log10誤差(average l og10e rror,l og10)。

      4)準(zhǔn)確率-閾值(accuracy with threshold)。

      p的百分比

      3.2 實(shí)驗(yàn)結(jié)果定量及定性展示

      3.2.1 注意力模型構(gòu)建深度關(guān)聯(lián)

      1.1節(jié)中已經(jīng)提到,傳統(tǒng)的卷積操作的感受野是局部的,而注意力機(jī)制對(duì)于某個(gè)像素點(diǎn)的深度信息,可以有更大的感受野,能夠獲得全圖范圍內(nèi)的深度關(guān)聯(lián)信息,非常有利于場景深度預(yù)測的進(jìn)行。本節(jié)將把通過注意力模型得到的圖像的深度關(guān)聯(lián)信息進(jìn)行可視化,來說明注意力模型在場景深度推理中的作用。

      圖4中第1列為原始圖像與Ground Truth,第2列為注意力模型對(duì)圖像深度關(guān)聯(lián)信息提取后的可視化結(jié)果,其中綠色的“+”為圖中選取的像素點(diǎn),與該像素點(diǎn)深度關(guān)聯(lián)越高(即深度值的相似性越高)的像素點(diǎn)越亮,否則越暗。從圖4中可以看出,注意力模型可以有效關(guān)聯(lián)出整個(gè)圖像中不僅包含該點(diǎn)鄰域內(nèi)像素點(diǎn),也包含更大范圍內(nèi)深度相關(guān)性高的像素點(diǎn),進(jìn)而有利于場景深度估計(jì)的進(jìn)行。

      圖4 注意力模型提取深度關(guān)聯(lián)可視化Fig.4 Visualization of attention model extracting depth information association

      3.2.2 GCN層數(shù)的選擇

      GCN 并不像CNN 那樣,隨著網(wǎng)絡(luò)層數(shù)的加深可能獲得更好的識(shí)別效果,若使用過多層數(shù)的GCN layer可能會(huì)導(dǎo)致推理結(jié)果的顯著下降。這是由于隨著GCN layer層數(shù)的逐漸加深,到達(dá)某個(gè)合適的層數(shù)后,繼續(xù)加深會(huì)導(dǎo)致節(jié)點(diǎn)的區(qū)分度變得越來越低,節(jié)點(diǎn)的特征向量會(huì)趨向一致,后續(xù)的推理任務(wù)會(huì)變得非常困難,前文已提及過,這個(gè)現(xiàn)象稱為過平滑現(xiàn)象。為了避免這個(gè)問題的發(fā)生,本文將取GCN layer為0~3層(0層即為僅采用注意力模型加分類器)時(shí)分別進(jìn)行實(shí)驗(yàn),得到合適的GCN層數(shù)。表1為取0~3層GCN layer時(shí)的定量評(píng)價(jià)指標(biāo)比較結(jié)果。

      表1 不同層數(shù)的GCN layer時(shí)的定量評(píng)價(jià)指標(biāo)比較結(jié)果Table1 Comparison results of quantitative evaluation indicators with different GCN layers

      從表1中可以看出:1)當(dāng)GCN層數(shù)為0時(shí),即僅采用注意力模型時(shí)的深度推理結(jié)果遜于采用GCN 之后的結(jié)果,證明GCN 確實(shí)有助于深度推理的進(jìn)行;2)選取GCN層數(shù)為1時(shí)能獲得更好的深度估計(jì)結(jié)果,這表明采用GCN 確實(shí)能在注意力模型的基礎(chǔ)上進(jìn)行深度分類,但僅采用一層即可,采用過多的GCN layer可能導(dǎo)致鄰域間的特征聚合降低像素點(diǎn)的區(qū)分度,3.2.3節(jié)的實(shí)驗(yàn)結(jié)果也將采用GCN layer為1時(shí)的結(jié)果。

      3.2.3 與其他深度估計(jì)方法的對(duì)比

      本節(jié)將從直觀和客觀2個(gè)角度將本文模型(AGCN)與其他經(jīng)典深度估計(jì)方法的結(jié)果進(jìn)行對(duì)比。首先,圖5展示了本文與其他方法得到的深度推理圖比較結(jié)果。從圖5中可以看出,由于采用了GCN,它的聚合節(jié)點(diǎn)鄰居的特性使得本文預(yù)測的深度結(jié)果更為平滑,而文獻(xiàn)[2]等沒有考慮鄰域信息,表現(xiàn)出了較弱的分類結(jié)果。同時(shí),采用了注意力機(jī)制使得本文得到的結(jié)果包含更多的細(xì)節(jié)信息,如圖5中第3列,本文的方法對(duì)圖中人物的估計(jì)更為精細(xì),圖中不同區(qū)域相同深度的像素點(diǎn)更易被推理出,相比其余方法得到了更為準(zhǔn)確的深度分類結(jié)果。

      圖5 不同深度估計(jì)方法結(jié)果對(duì)比Fig.5 Comparison of results with different depth estimation methods

      接著,以客觀角度對(duì)深度估計(jì)結(jié)果從上文已提及的4個(gè)指標(biāo)方面進(jìn)行定量比較的結(jié)果如表2,進(jìn)一步佐證了上述直觀結(jié)果。從表2可以看出,本文所提出的方法在各項(xiàng)指標(biāo)上的表現(xiàn)都優(yōu)于其他方法,且在準(zhǔn)確率上有較大提升,尤其在閾值δ<1.253時(shí)達(dá)到了98.05%的準(zhǔn)確率,高出其他方法1%~2%,同時(shí)在誤差方面的指標(biāo)也得到了一定的提升。

      表2 本文模型(AGCN)與其他經(jīng)典深度估計(jì)方法的比較結(jié)果Table2 Comparison results of AGCN and other classic depth estimation methods

      4 結(jié)論

      本文提出了一種基于注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)(attention graph convolutional network,AGCN)的深度估計(jì)方法。該方法首先利用注意力模型提取像素級(jí)的全局深度關(guān)聯(lián),利用此關(guān)聯(lián)可作為鄰接矩陣,與提取出的特征圖相結(jié)合成為圖結(jié)構(gòu)輸入GCN 進(jìn)行深度推理。采用注意力模型可以使得鄰接矩陣在訓(xùn)練時(shí)處于動(dòng)態(tài)變化中,實(shí)現(xiàn)整個(gè)模型端到端的訓(xùn)練,圖結(jié)構(gòu)不再是固定不變的,進(jìn)而有助于深度推理結(jié)果的提升。同時(shí)實(shí)驗(yàn)表明,GCN 對(duì)鄰域信息的聚合能力能使深度推理獲得更好的結(jié)果。最終本文所提出的方法在紅外圖像數(shù)據(jù)集NUST-SR上獲得了優(yōu)于經(jīng)典深度估計(jì)方法的結(jié)果。在之后的研究工作中,將采用進(jìn)一步改進(jìn)的圖神經(jīng)網(wǎng)絡(luò)來進(jìn)行深度推理,以獲得更好的聚合結(jié)果。

      猜你喜歡
      單目像素點(diǎn)注意力
      讓注意力“飛”回來
      一種單目相機(jī)/三軸陀螺儀/里程計(jì)緊組合導(dǎo)航算法
      基于canvas的前端數(shù)據(jù)加密
      單目SLAM直線匹配增強(qiáng)平面發(fā)現(xiàn)方法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)分割模型的上皮和間質(zhì)組織分割
      基于CAD模型的單目六自由度位姿測量
      A Beautiful Way Of Looking At Things
      基于單目立體視覺的三坐標(biāo)在線識(shí)別技術(shù)研究
      基于Node-Cell結(jié)構(gòu)的HEVC幀內(nèi)編碼
      黑龙江省| 尉氏县| 洱源县| 临朐县| 岳普湖县| 龙口市| 武陟县| 望城县| 保定市| 伽师县| 延庆县| 广灵县| 广安市| 泗水县| 德令哈市| 丽江市| 博乐市| 鄢陵县| 陈巴尔虎旗| 葵青区| 黄大仙区| 永登县| 余江县| 康定县| 白水县| 霍城县| 隆子县| 顺昌县| 喜德县| 车险| 周宁县| 福州市| 麻栗坡县| 伊金霍洛旗| 贵溪市| 贵南县| 米易县| 黔江区| 龙岩市| 揭西县| 万荣县|