• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合RGB-D信息的三維物體識(shí)別算法

      2020-12-23 04:33凌濱劉曉鋒李云龍
      現(xiàn)代電子技術(shù) 2020年23期
      關(guān)鍵詞:特征融合特征提取

      凌濱 劉曉鋒 李云龍

      摘 ?要: 圖像處理是物體識(shí)別的關(guān)鍵環(huán)節(jié),不同的模態(tài)特征之間具有互補(bǔ)性,同時(shí)使用能夠提高目標(biāo)的識(shí)別準(zhǔn)確率,但現(xiàn)有研究?jī)H僅是將多模態(tài)特征直接融合或者人工構(gòu)造特征描述子進(jìn)行識(shí)別工作,沒(méi)有區(qū)別對(duì)待不同模態(tài)的不同特征且忽略了特征的內(nèi)部聯(lián)系。為了更客觀地反映物體三維特性,結(jié)合稀疏自編碼網(wǎng)絡(luò)和改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò),提出一種新的深度學(xué)習(xí)模型SAE?RCNN與一種分段訓(xùn)練網(wǎng)絡(luò)的方法,可以提取有辨別力的特征而且避免了網(wǎng)絡(luò)退化的問(wèn)題,并將特征在全連接層高效融合,通過(guò)分類(lèi)器Softmax得到實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)數(shù)據(jù)采用Washington RGB?D標(biāo)準(zhǔn)數(shù)據(jù)集。結(jié)果表明,SAE?RCNN算法模型的物體識(shí)別率達(dá)到89.7%,較其他算法取得了更好的識(shí)別效果。

      關(guān)鍵詞: 物體識(shí)別; 深度學(xué)習(xí)模型; 網(wǎng)絡(luò)訓(xùn)練; 特征提取; 特征融合; 準(zhǔn)確率提升

      中圖分類(lèi)號(hào): TN911.73?34; TP391 ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)23?0024?06

      Abstract: Object recognition is a key link of image processing. The complementarily of different modal features can improve the recognition accuracy of objects. However, the existing research only involves the fusion of multimodal features or the construction of feature descriptors, but does not treat the different features discriminatively and ignores the internal relation of the features. In order to reflect the three?dimensional features of objects more objectively, a new deep learning model SAE?RCNN (sparse autoencoder?region with CNN features) and a multi?stage network training method are proposed in combination with the sparse self?coding network and the improved convolutional neural network. The algorithm can extract features with discriminative power while avoiding network degradation and fuse them efficiently in the fully connected layer. The experimental result was obtained with classifier Softmax. The Washington RGB?D standard database is adopted for the experiment data. The results show that the object recognition rate of SAE?RCNN algorithm model reaches 89.7%, which is better than other algorithms.

      Keywords: object recognition; deep learning model; network training; feature extraction; feature fusion; precision rate improvement

      0 ?引 ?言

      圖像識(shí)別一直是人工智能的重要領(lǐng)域之一,以往僅僅基于RGB圖像的物體識(shí)別容易受到光照強(qiáng)弱、視角變動(dòng)等外界因素的干擾。隨著Kinect、RealSens、Xtion PRO等三維傳感器的普遍流行,同時(shí)獲得高分辨率的RGB圖與深度圖已經(jīng)非常容易。深度圖作為RGB圖的有力補(bǔ)充,豐富了識(shí)別過(guò)程中可利用的信息。這使得基于RGB?D圖像的目標(biāo)識(shí)別技術(shù)受到廣泛關(guān)注。

      神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的學(xué)習(xí)本領(lǐng),圖像領(lǐng)域在引入深度學(xué)習(xí)算法后,取得了巨大成功,許多基于RGB?D的物體識(shí)別的深度學(xué)習(xí)算法被提出。文獻(xiàn)[1]利用核函數(shù)的基礎(chǔ)特性,提出了Depth Kernel描述子方法。文獻(xiàn)[2]提出了卷積[K]均值描述符自動(dòng)學(xué)習(xí)有意義的局部特征,將興趣點(diǎn)附近的響應(yīng)繪制成直方圖進(jìn)行判別。文獻(xiàn)[3]提出了分層匹配追蹤算法HMP。首先對(duì)特征區(qū)域進(jìn)行稀疏編碼,并將特征向量輸入空間金字塔最大池化SPMP進(jìn)行學(xué)習(xí)。文獻(xiàn)[4]將卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)結(jié)合提出了CNN?RNN算法,RNN利用來(lái)自CNN低維數(shù)據(jù)的平移不變性來(lái)學(xué)習(xí)高維數(shù)據(jù)特征。文獻(xiàn)[5]提出MS?CRNN算法,從4種不同的模態(tài)提取低層尺度特征,并將其輸入多層遞歸神經(jīng)網(wǎng)絡(luò)RNNs得到高層特征。文獻(xiàn)[6]提出了多層卷積神經(jīng)網(wǎng)絡(luò)CNNs模型。這些算法在三維物體的識(shí)別方面均取得了不錯(cuò)的效果,但忽略了不同模態(tài)之間的聯(lián)系,導(dǎo)致數(shù)據(jù)大量冗余,仍然具有一定的局限性。

      RGB特征與深度圖特征的重要性是相對(duì)的。當(dāng)目標(biāo)之間輪廓外形相近時(shí),RGB圖特性往往比深度圖特性重要,當(dāng)目標(biāo)之間外形有較大差異時(shí)兩種特性的重要性則相反。由于特征描述子提取特征的方式僅僅是將模態(tài)之間的聯(lián)系線性疊加,容易忽略一些細(xì)微但是具有判別力的特征。因此,本文提出了一個(gè)基于SAE網(wǎng)絡(luò)改進(jìn)的多模態(tài)網(wǎng)絡(luò)模型SAE?RCNN。整個(gè)網(wǎng)絡(luò)采用分層機(jī)制,不僅可以將第一層提取的有代表性的特征在第二層抽象化,并且網(wǎng)絡(luò)可以自發(fā)學(xué)習(xí)特征之間的聯(lián)系,在全連接層進(jìn)行有效融合,降低了數(shù)據(jù)冗余,增強(qiáng)了特征的非線性表達(dá)。由實(shí)驗(yàn)可知,新的網(wǎng)絡(luò)模型取得了更高的識(shí)別率,有效地完成了識(shí)別工作。

      1 ?相關(guān)理論

      1.1 ?稀疏自編碼算法

      稀疏自編碼(SAE)[7]是非監(jiān)督算法的代表之一,其使用沒(méi)有類(lèi)別標(biāo)記的樣本集進(jìn)行訓(xùn)練,稀疏自編碼網(wǎng)絡(luò)利用反向傳播算法不斷優(yōu)化隱藏層參數(shù),把輸入樣本映射到隱藏層,期望通過(guò)數(shù)據(jù)的重建得到輸出與原輸入近似相等。這樣就可以用隱藏層參數(shù)向量表征輸入數(shù)據(jù)的特征。

      SAE網(wǎng)絡(luò)如圖1所示。

      圖像的數(shù)據(jù)結(jié)構(gòu)之間彼此關(guān)聯(lián),同時(shí)也存在大量冗余。SAE算法的思想正是利用數(shù)據(jù)間的這一特性,通過(guò)在損失函數(shù)中加入稀疏限制參數(shù)[ρ]剔除一部分冗余數(shù)據(jù)。網(wǎng)絡(luò)內(nèi)部表現(xiàn)為隱藏層上部分神經(jīng)元被抑制,從而挑選出有力的數(shù)據(jù)表示點(diǎn)。所以SAE算法可以完成特征的自動(dòng)選擇,這樣就可以用隱藏層參數(shù)向量表示輸入的特征。假設(shè)網(wǎng)絡(luò)參數(shù)為[w,b],輸入數(shù)據(jù)向量通過(guò)映射函數(shù)式(1)得到隱藏層數(shù)據(jù)。輸出數(shù)據(jù)向量[z]可以由式(2)得到:

      1.2 ?SAE算法微調(diào)

      本文網(wǎng)絡(luò)模型第一層選擇SAE網(wǎng)絡(luò)。首先對(duì)多模態(tài)圖像進(jìn)行簡(jiǎn)單預(yù)處理后,利用稀疏自編碼算法從RGB圖和深度圖中提取具有代表性的淺層特征。其次,SAE算法往往采用梯度下降法優(yōu)化損失函數(shù),本文用Adam算法[9]優(yōu)化損失函數(shù)[Jw,b]。Adam算法收斂速度更快,不容易陷入局部極小值,并且具有更好的學(xué)習(xí)效果,避免了優(yōu)化技術(shù)中存在的學(xué)習(xí)率消失、梯度彌散等問(wèn)題。

      1.3 ?殘差網(wǎng)絡(luò)

      殘差網(wǎng)絡(luò)[10]的主體是各個(gè)殘差塊,如圖2所示。

      殘差塊增加了一個(gè)恒等映射[X],也稱為跳躍結(jié)構(gòu)。通過(guò)卷積層運(yùn)算后得到殘差[F(x)],殘差網(wǎng)絡(luò)中激活函數(shù)采用ReLu。將[H(x)]假設(shè)為網(wǎng)絡(luò)上堆疊塊的輸出,用[x]表示第一層的輸入。將原始所需要學(xué)的函數(shù)[H(x)]變換成[F(x)+x]。單層網(wǎng)絡(luò)的堆疊輸出為:

      殘差塊越多,網(wǎng)絡(luò)學(xué)習(xí)恒等映射的能力越強(qiáng),性能就越優(yōu)秀。殘差塊中設(shè)計(jì)全部為1×1或者3×3的卷積核。小的卷積核可以保證網(wǎng)絡(luò)的精細(xì)度并且減少計(jì)算的參數(shù),為下層網(wǎng)絡(luò)提供更細(xì)微的特征,增強(qiáng)網(wǎng)絡(luò)的非線性表達(dá)能力。殘差學(xué)習(xí)在淺層時(shí)以線性疊加的方式進(jìn)行學(xué)習(xí),到深層后,[F(x)]漸漸趨于零,從而使得殘差塊漸漸變?yōu)楹愕扔成?。同時(shí),由殘差網(wǎng)絡(luò)反向梯度傳播:

      可知,殘差梯度要經(jīng)過(guò)帶有權(quán)重的層,防止梯度彌散與梯度爆炸,避免網(wǎng)絡(luò)深度的增加影響學(xué)習(xí)結(jié)果的不良后果,糾正了深層卷積網(wǎng)絡(luò)中隨著網(wǎng)絡(luò)深度的加深而呈現(xiàn)的退化問(wèn)題。

      2 ?圖像編碼理論

      2.1 ?3D表面法向量

      目前對(duì)RGB?D圖像的編碼方式有如下幾種:3D表面法向量[11]、HHA[12]、對(duì)深度圖著色等方式。但對(duì)RGB?D圖像HHA編碼的方式忽略了圖像多通道之間的聯(lián)系;對(duì)深度圖進(jìn)行著色處理會(huì)導(dǎo)致龐大的計(jì)算量,因此同樣具有局限性。所以本文對(duì)深度圖用表面法向量編碼進(jìn)行處理。

      假設(shè)圖像中每一個(gè)像素點(diǎn)坐標(biāo)表示為[P(x,y,z)],[z=d(x,y)]代表該點(diǎn)的深度數(shù)據(jù)。假設(shè)[T1]和[T2]分別為該像素點(diǎn)對(duì)應(yīng)切平面的兩個(gè)切向量。那么像素點(diǎn)對(duì)應(yīng)的法向量就可以用該點(diǎn)切平面上兩切向量的叉乘表示:[N=T1×T2]。其中,[T1]與[T2]的表達(dá)式如下:

      2.2 ?深度圖的預(yù)處理

      Kinect采用結(jié)構(gòu)光編碼測(cè)量深度,深度圖數(shù)據(jù)有效范圍為0.7~6 m,官方建議準(zhǔn)確度在1.2~3.5 m之內(nèi)的數(shù)據(jù)點(diǎn)較為可靠。所以直接使用原始數(shù)據(jù)會(huì)導(dǎo)致計(jì)算量和測(cè)量誤差變大。因?yàn)樯疃葓D中的中心數(shù)據(jù)更值得信賴,所以首先要修補(bǔ)深度圖中的像素缺失點(diǎn)。本文設(shè)計(jì)了一個(gè)特殊的5×5的加權(quán)核處理得到填充缺失點(diǎn)后的深度圖,加權(quán)核如圖3所示。

      填充深度缺失點(diǎn)后,對(duì)圖像進(jìn)行3D表面法向量編碼。選用RGB?D數(shù)據(jù)集中常見(jiàn)的三組圖片帽子、茶杯、鍵盤(pán)進(jìn)行處理展示。效果圖如圖4所示。

      2.3 ?SAE網(wǎng)絡(luò)的訓(xùn)練

      本文設(shè)置SAE的隱藏層神經(jīng)元個(gè)數(shù)為240,設(shè)置圖像塊大小為148×148,并做簡(jiǎn)單歸一化和白化處理。對(duì)RGB圖像與深度圖進(jìn)行預(yù)處理后,分別隨機(jī)提取兩組不同圖像集中40 000個(gè)9×9的圖像小塊,送入SAE算法中,優(yōu)化損失函數(shù)(見(jiàn)式(3)),完成對(duì)應(yīng)各自SAE網(wǎng)絡(luò)的訓(xùn)練。

      當(dāng)損失函數(shù)收斂時(shí)表示訓(xùn)練完成。然后利用隱藏層參數(shù)矩陣對(duì)不同模態(tài)的圖像分別進(jìn)行卷積。由于一幅彩色圖像就是一個(gè)三維矩陣,所以對(duì)于每一幅圖像卷積完成后可以得到三維矩陣大小為240×140×140。對(duì)提取到的特征進(jìn)行最大池化處理,設(shè)置池化窗口大小為2×2,步長(zhǎng)為2,池化后可以得到的三維矩陣大小為240×70×70。之后將其送入多層卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更細(xì)致的特征。

      3 ?SAE?RCNN網(wǎng)絡(luò)

      3.1 ?算法流程

      新的深度學(xué)習(xí)框架SAE?RCNN分為兩層,算法框圖如圖5所示。將RGB圖像與深度圖像轉(zhuǎn)換為數(shù)據(jù)向量后輸入第一層SAE稀疏自編碼網(wǎng)絡(luò),提取RGB圖像與深度圖的有區(qū)別性的特征。第二層網(wǎng)絡(luò)由三個(gè)卷積層、三個(gè)殘差塊、網(wǎng)絡(luò)的全連接層與Softmax組成。在對(duì)分支網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu)后將RGB特征與深度圖特征進(jìn)行特征融合,之后利用小的卷積核學(xué)習(xí)前層網(wǎng)絡(luò)融合后的特征,再通過(guò)分類(lèi)器進(jìn)行目標(biāo)識(shí)別。

      算法步驟如下所示:

      1) 分別對(duì)RGB圖像與深度圖像進(jìn)行預(yù)處理,并設(shè)置尺寸大小為[r×r],記為[IRGB]與[IDepth],并將深度圖用表面法向量編碼。

      2) 分別從預(yù)處理后的RGB圖與深度圖中隨機(jī)選取長(zhǎng)寬都為[d]的[N]個(gè)圖像塊,并且對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理。

      3) 將步驟2)得到的數(shù)萬(wàn)個(gè)圖像塊作為SAE算法的輸入,訓(xùn)練兩個(gè)SAE網(wǎng)絡(luò),得到對(duì)應(yīng)的特征參數(shù)矩陣。

      4) 利用上述得到的SAE模型的參數(shù)矩陣,分別對(duì)步驟1)中的圖像進(jìn)行卷積操作,以提取各自圖像對(duì)應(yīng)的特征。設(shè)置SAE隱藏層節(jié)點(diǎn)個(gè)數(shù)為[K],則卷積后得到三維矩陣大小均為[s×s×K],其中,[s=r-d+1]。

      5) 對(duì)卷積后的特征采取最大池化處理,設(shè)置池化目標(biāo)大小為[a×a],池化步長(zhǎng)為[b],則池化后得到的特征大小為[c×c×K],其中,[c=s-ab+1]。

      6) 利用單通道神經(jīng)網(wǎng)絡(luò)分別對(duì)RGB圖片和Depth圖片進(jìn)行測(cè)試,獲得準(zhǔn)確率分別為[fR]和[fD],比重為[α],[β]。

      7) 設(shè)單通道網(wǎng)絡(luò)輸出RGB與Depth圖最后一層神經(jīng)元分別為[al-1ri]和[al-1di],[klij]代表卷積核,[Wl],[bl]表示所在層的權(quán)重與偏置。那么融合層的第[j]層神經(jīng)元可以由式(14)計(jì)算:

      8) 將融合后的特征輸入殘差網(wǎng)絡(luò),之后對(duì)全連接層網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu),從而完成對(duì)整個(gè)網(wǎng)絡(luò)模型的訓(xùn)練。

      9) 從樣本測(cè)試集中獲得最終的對(duì)象識(shí)別精度。

      3.2 ?RCNN網(wǎng)絡(luò)的調(diào)優(yōu)訓(xùn)練

      神經(jīng)網(wǎng)絡(luò)在較大的數(shù)據(jù)集上會(huì)表現(xiàn)出較好的性能,所以本文使用在ImageNet數(shù)據(jù)庫(kù)上預(yù)訓(xùn)練[13]得到一個(gè)初始的網(wǎng)絡(luò)模型。然后分別在這兩個(gè)分支網(wǎng)絡(luò)的基礎(chǔ)上根據(jù)RGB和深度圖數(shù)據(jù)進(jìn)一步調(diào)優(yōu)。調(diào)優(yōu)訓(xùn)練實(shí)際上就是在自己的數(shù)據(jù)集上繼續(xù)訓(xùn)練,調(diào)優(yōu)訓(xùn)練是用預(yù)訓(xùn)練的模型文件訓(xùn)練好的參數(shù)初始化,再利用實(shí)驗(yàn)數(shù)據(jù)集很快達(dá)到理想的準(zhǔn)確率,本文在預(yù)訓(xùn)練的基礎(chǔ)上提出一個(gè)兩步調(diào)優(yōu)法,即分別對(duì)卷積網(wǎng)絡(luò)和特征融合的網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu)。

      3.3 ?網(wǎng)絡(luò)模型可行性分析

      提高物體識(shí)別準(zhǔn)確率的首要任務(wù)是尋找有替代性和區(qū)別性的特征區(qū)域。近些年來(lái)的研究大體分為兩方面:一方面從圖像的編碼入手,例如對(duì)RGB圖分通道處理、對(duì)深度圖編碼、著色[14]、設(shè)計(jì)新的特征描述子[15]、處理深度圖點(diǎn)云模態(tài)[16];另一方面,由于深度學(xué)習(xí)在物體識(shí)別方面表現(xiàn)出了巨大作用,所以不斷設(shè)計(jì)新的網(wǎng)絡(luò)架構(gòu)去挖掘更高層的數(shù)據(jù)信息漸漸成為主流。

      本文結(jié)合這兩方面進(jìn)行了創(chuàng)新優(yōu)化。首先對(duì)深度圖進(jìn)行表面法向量編碼,通過(guò)SAE網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)原始數(shù)據(jù)降維處理,降低計(jì)算復(fù)雜度。本文設(shè)計(jì)了一個(gè)12層的網(wǎng)絡(luò)架構(gòu)(每個(gè)殘差塊為3層),分流卷積網(wǎng)絡(luò)保證了各種模態(tài)處理的獨(dú)立性,但網(wǎng)絡(luò)模型中的優(yōu)化權(quán)重賦值融合使得特征緊密結(jié)合。其次,引入殘差網(wǎng)絡(luò)提高了網(wǎng)絡(luò)的預(yù)測(cè)性能[17],使網(wǎng)絡(luò)表現(xiàn)出非常強(qiáng)的魯棒性。相比幾十層甚至上百層的網(wǎng)絡(luò),本文在保證結(jié)果可靠的基礎(chǔ)上同時(shí)兼顧網(wǎng)絡(luò)體系與計(jì)算時(shí)間適中。在對(duì)網(wǎng)絡(luò)的訓(xùn)練方面,采用預(yù)訓(xùn)練的方式可以有效減少訓(xùn)練時(shí)間;不同于以前研究者的工作,本文除設(shè)計(jì)分支網(wǎng)絡(luò)并優(yōu)化后,又新增對(duì)整個(gè)網(wǎng)絡(luò)全連接層調(diào)優(yōu),進(jìn)一步保證了網(wǎng)絡(luò)的性能。

      4 ?實(shí)驗(yàn)與結(jié)果分析

      4.1 ?實(shí)驗(yàn)數(shù)據(jù)與平臺(tái)

      常用公開(kāi)數(shù)據(jù)集有SUN RGB?D、2D/3D數(shù)據(jù)集、Washington RGB?D數(shù)據(jù)集等。Washington RGB?D數(shù)據(jù)集通過(guò)Kinect上的一個(gè)三維傳感器采集日常生活中的51類(lèi)物體得到。每一幅圖片的分辨率為640×480,在 不同視角下記錄了300多種目標(biāo)41 877幅RGB?D圖像,部分RGB?D數(shù)據(jù)庫(kù)常用圖片如圖6所示。

      本文算法的實(shí)驗(yàn)平臺(tái)為:Python 2.7,OpenCV 3.4.0,CPU i5?3210M,RAM 8 GB,NVIDIA780顯卡。

      4.2 ?實(shí)驗(yàn)結(jié)果對(duì)比

      本文在WashingtonRGB?D數(shù)據(jù)集上采用[K]交叉驗(yàn)證方法。關(guān)于SAE網(wǎng)絡(luò)與RCNN網(wǎng)絡(luò)的訓(xùn)練方法前文已經(jīng)說(shuō)明。設(shè)置相同實(shí)驗(yàn)條件,每次用300幅圖像做訓(xùn)練,用30幅圖像做測(cè)試,重復(fù)10次統(tǒng)計(jì)平均識(shí)別準(zhǔn)確率。表2列出了本文算法與之前出現(xiàn)的部分RGB?D物體識(shí)別算法的識(shí)別準(zhǔn)確率。表2中出現(xiàn)的算法前文已經(jīng)有介紹。

      從表2可以看出:SAE?RCNN在基于RGB的二維圖像上與基于RGB?D的三維圖像上均獲得了最高的識(shí)別率。在對(duì)RGB?D物體的識(shí)別上,相比MS?CRNN算法準(zhǔn)確率提升了1.5%;在深度圖的識(shí)別率上與MS?CRNN算法水平相當(dāng)。說(shuō)明新網(wǎng)絡(luò)模型可以提取物體更多豐富的特征。根據(jù)不同特征識(shí)別貢獻(xiàn)率進(jìn)行差異化賦值這一策略保證了兩種模態(tài)之間的緊密聯(lián)系。數(shù)據(jù)表明,SAE?RCNN算法取得了更好的識(shí)別率,有效地完成了對(duì)RGB?D物體的識(shí)別。

      4.3 ?誤差分析

      除了不同算法對(duì)實(shí)體平均識(shí)別率對(duì)比外,還利用本文算法測(cè)試了10類(lèi)物體的RGB圖、深度圖、RGB?D圖的識(shí)別率,實(shí)驗(yàn)設(shè)置方法與前文相同,結(jié)果如表3所示。從結(jié)果可知,本文算法對(duì)實(shí)體識(shí)別已經(jīng)達(dá)到了很好的效果,但是實(shí)驗(yàn)中發(fā)現(xiàn)仍然存在一些問(wèn)題。

      實(shí)驗(yàn)中本文方法出現(xiàn)誤判的類(lèi)別如圖7所示。蘋(píng)果、橙子;梨、檸檬;燈籠椒、西紅柿。對(duì)此類(lèi)物體識(shí)別準(zhǔn)確率不高是因?yàn)樗鼈冾伾嘟庑屋喞嗨?,從而?dǎo)致分類(lèi)出現(xiàn)偏差。此種情況的本質(zhì)原因在于沒(méi)有足夠的數(shù)據(jù)做訓(xùn)練,以至于對(duì)它們的區(qū)別力不足。本文方法的局限性也在于并未探究出有效的數(shù)據(jù)增強(qiáng)方法,以至于在數(shù)據(jù)有限的情況下對(duì)類(lèi)間相似的物體區(qū)分力度不足。

      5 ?結(jié) ?語(yǔ)

      本文提出的SAE?RCNN是在SAE算法上進(jìn)一步擴(kuò)展新的算法模型得到的深度學(xué)習(xí)框架。網(wǎng)絡(luò)采用分層學(xué)習(xí)的形式。由于不同尺度下反映的特征不同,且RGB特性與深度特征有某種潛在的聯(lián)系,網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)它們之間的聯(lián)系比賦予兩種不同尺度特征不同的權(quán)值進(jìn)行學(xué)習(xí)可以更真實(shí)地反映三維物體的特性。優(yōu)化算法的調(diào)整也提高了整個(gè)網(wǎng)絡(luò)框架的運(yùn)行效率與魯棒性,但本文算法同樣暴露了問(wèn)題,即對(duì)類(lèi)間相似與類(lèi)內(nèi)相似物體的判準(zhǔn)率不夠高。所以有兩個(gè)方向?qū)?huì)成為下一步研究的重點(diǎn):

      1) 豐富深度圖信息,尋找有效的數(shù)據(jù)增強(qiáng)策略從而提高網(wǎng)絡(luò)的識(shí)別能力;

      2) 構(gòu)建更好的網(wǎng)絡(luò)模型嘗試學(xué)習(xí)視頻流等無(wú)監(jiān)督數(shù)據(jù),提高整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)能力。

      注:本文通訊作者為劉曉鋒。

      參考文獻(xiàn)

      [1] BO Liefeng, REN Xiaofeng, FOX D. Depth kernel descriptors for object recognition [C]// 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. San Francisco, CA, USA: IEEE, 2011: 821?826.

      [2] BLUM M, SPRINGENBERG J T, WULFING J, et al. A learned feature descriptor for object recognition in RGB?D data [C]// IEEE International Conference on Robotics and Automation. Washington, DC, USA: IEEE Press, 2012: 1298?1303.

      [3] BO Liefeng, REN Xiaofeng, FOX D. Unsupervised feature lear?ning for RGB?D based object recognition [M]// DESAI J P, DUDEK G, KHATIB O, et al. Experimental robotics. Switzerland: Springer International Publishing, 2013: 387?402.

      [4] SOCHER R, HUVAL B, BHAT B, et al. Convolutional?recursive deep learning for 3D object classification [EB/OL]. [2013?12?09]. https://wenku.baidu.com/view/c1334febd15abe23482f4de3.html#.

      [5] 駱健,蔣旻,劉星,等.多尺度卷積遞歸神經(jīng)網(wǎng)絡(luò)的RGB?D物體識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2017,34(9):2834?2837.

      [6] SONG Lingyun, LIU Jun, QIAN Buyue, et al. A deep multi?modal CNN for multi?instance multi?label image classification [J]. IEEE transactions on image processing, 2018, 27(12): 6025?6038.

      [7] BAI Jing, WU Yan, ZHANG Junming, et al. Subset based deep learning for RGB?D object recognition [J]. Neurocompu?ting, 2015, 165: 280?292.

      [8] ZHANG Yan, ZHANG Erhu, CHEN Wanjun. Deep neural network for halftone image classification based on sparse auto?encoder [J]. Engineering applications of artificial intelligence, 2016, 50: 245?255.

      [9] KINGMA D P, BA J L. Adam: a method for stochastic optimization [EB/OL]. [2018?12?30]. http://www.docin.com/p?2163732296.html.

      [10] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770?778.

      [11] ZHOU Feng,HU Yong, SHEN Xukun. MSANet: multimodal self?augmentation and adversarial network for RGB?D object recognition [J]. The visual computer, 2019, 35(11): 1583?1594.

      [12] SONG Hangke, LIU Zhi, DU Huan, et al. Depth?aware salient object detection and segmentation via multiscale discriminative saliency fusion and bootstrap learning [J]. IEEE transactions on image processing, 2017, 26(9): 4204?4216.

      [13] WANG Anran, LU Jiwen, CAI Jianfei, et al. Large?margin multimodal deep learning for RGB?D object recognition [J]. IEEE transactions on multimedia, 2015, 17(11): 1887?1898.

      [14] EITEL A, SPRINGENBERG J T, SPINELLO L, et al. Multimodal deep learning for robust RGB?D object recognition [C]// IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany: IEEE Press, 2015: 681?687.

      [15] ROSTAMI R, BASHIRI F S, ROSTAMI B, et al. A survey on data?driven 3D shape descriptors [J]. Computer graphics forum, 2018, 38(1): 356?393.

      [16] GUPTA S, GIRSHICK R B, ARBELAEZ P, et al. Learning rich features from RGB?D images for object detection and segmentation [EB/OL]. [2015?11?01]. https://wenku.baidu.com/view/d8e02f65fab069dc51220128.html.

      [17] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Object detection networks on convolutional feature maps [J]. IEEE tran?sactions on pattern analysis & machine intelligence, 2017, 39(7): 1476?1481.

      猜你喜歡
      特征融合特征提取
      基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
      基于Daubechies(dbN)的飛行器音頻特征提取
      基于多特征融合的圖像匹配算法
      人體行為特征融合與行為識(shí)別的分析
      基于移動(dòng)端的樹(shù)木葉片識(shí)別方法的研究
      基于SIFT特征的港口內(nèi)艦船檢測(cè)方法
      融合整體與局部特征的車(chē)輛型號(hào)識(shí)別方法
      一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
      基于DSP的直線特征提取算法
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      峡江县| 淄博市| 米林县| 青海省| 鹿泉市| 河曲县| 谢通门县| 吉隆县| 额敏县| 丹凤县| 广昌县| 靖安县| 康平县| 定远县| 察雅县| 沾化县| 来宾市| 安义县| 抚顺市| 襄城县| 沧州市| 晋宁县| 奉化市| 甘泉县| 沂水县| 长武县| 南溪县| 金山区| 蒙自县| 石家庄市| 阳信县| 五台县| 万宁市| 贡山| 南陵县| 桦甸市| 诸城市| 措美县| 白玉县| 昭苏县| 塔城市|