• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于ConvLSTM雙通道編碼網(wǎng)絡(luò)的夜間無人車場景預(yù)測

      2020-09-04 04:01:08孫韶媛劉訓(xùn)華顧立鵬
      紅外技術(shù) 2020年8期
      關(guān)鍵詞:雙通道清晰度時序

      李 想,孫韶媛,劉訓(xùn)華,顧立鵬

      (1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620;2.東華大學(xué) 數(shù)字化紡織服裝技術(shù)教育部工程研究中心,上海 201620)

      0 引言

      場景預(yù)測[1-2]是根據(jù)已知視頻序列預(yù)測下一幀或幾幀圖像,讓無人車提前進(jìn)行決策,降低了因決策不及時發(fā)生交通事故的風(fēng)險。現(xiàn)如今,場景預(yù)測研究可見光領(lǐng)域較多,夜視領(lǐng)域很少,但夜間場景下的場景預(yù)測、駕駛決策等技術(shù)在無人車研究技術(shù)中占有重要的地位[3-4]。紅外圖像相比于可見光圖像[5],缺少色彩信息、清晰度低、紋理細(xì)節(jié)特征少等特點,使得無人車對夜間周圍環(huán)境進(jìn)行準(zhǔn)確感知并及時做出行為決策的難度比白天更大[6]。

      目前場景預(yù)測算法主要分為兩種:有監(jiān)督場景預(yù)測和無監(jiān)督場景預(yù)測。有監(jiān)督場景預(yù)測,T.C.WANG等人[7]利用視頻序列及其語義圖序列、光流圖和多個雙通道網(wǎng)絡(luò)得到了長時間的高清預(yù)測圖像。J.T.PAN等人[8]利用語義圖的語義信息、首幀圖像以及光流圖實現(xiàn)了圖像的較準(zhǔn)確預(yù)測。以上兩種方法都是基于語義圖的標(biāo)簽信息以及光流法進(jìn)行分辨率的提升,此類網(wǎng)絡(luò)得到的預(yù)測圖像清晰度較高,預(yù)測的未來幀數(shù)較多,但計算量大,預(yù)測速度慢。無監(jiān)督場景預(yù)測,Lotter等人[9]基于卷積長短時記憶(convolutional long-short term memory,ConvLSTM,)提出了一個預(yù)測編碼網(wǎng)絡(luò),將圖像的預(yù)測誤差進(jìn)行前向傳播,實現(xiàn)了自然場景下的視頻預(yù)測。該網(wǎng)絡(luò)較好地捕獲了動態(tài)信息,預(yù)測速度比較快,但預(yù)測圖像清晰度低,預(yù)測未來幀數(shù)少。

      無人車駕駛決策最重要的是實時性和準(zhǔn)確性[10],有監(jiān)督場景預(yù)測預(yù)測速度慢,實時性達(dá)不到,無監(jiān)督學(xué)習(xí)雖實時性可以實現(xiàn),但預(yù)測圖像清晰度低,預(yù)測幀數(shù)少。本文結(jié)合文獻(xiàn)[7]的雙通道思路和文獻(xiàn)[9]的動態(tài)信息提取思路,兼顧實時性和準(zhǔn)確性,提出了基于ConvLSTM 的雙通道編碼夜間無人車場景預(yù)測網(wǎng)絡(luò)。針對紅外圖像的特點,以及場景預(yù)測所需要獲取的信息,利用兩個子網(wǎng)絡(luò)對紅外圖像分別進(jìn)行編碼;將兩個子網(wǎng)絡(luò)得到的特征進(jìn)行融合后輸入到解碼網(wǎng)絡(luò)中,得到預(yù)測圖像;最后將預(yù)測圖像輸回網(wǎng)絡(luò)中,繼續(xù)預(yù)測下一幀,實現(xiàn)多幀預(yù)測。該網(wǎng)絡(luò)具有端到端的特點,實現(xiàn)了較高的準(zhǔn)確性、較好的實時性以及多幀預(yù)測。

      1 網(wǎng)絡(luò)結(jié)構(gòu)

      1.1 基礎(chǔ)網(wǎng)絡(luò)

      本文所提出的基于ConvLSTM 的雙通道編碼夜間無人車場景預(yù)測網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)、卷積長短時記憶網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)和反卷積網(wǎng)絡(luò)。

      1.1.1 卷積和反卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)[11](convolutional neural network,CNN)在圖像處理中有著出色的表現(xiàn),利用卷積層提取圖像的特征,將高維特征映射為低維特征,實現(xiàn)分類等任務(wù)。反卷積網(wǎng)絡(luò)與卷積網(wǎng)絡(luò)操作相反,是將低維特征映射為高維特征或圖像,主要用于語義分割和圖像生成等領(lǐng)域。這兩種網(wǎng)絡(luò)的一大特性是權(quán)值共享,大大減少了參數(shù)量,提高了計算速度。

      1.1.2 卷積長短時記憶網(wǎng)絡(luò)

      長短時記憶[12](long-short term memory,LSTM)網(wǎng)絡(luò)是目前最常用的一種循環(huán)神經(jīng)網(wǎng)絡(luò),它在很多涉及時序性的領(lǐng)域,例如語音識別、視頻分析、序列建模等都取得了很好的成果,原始的LSTM 對時序數(shù)據(jù)處理很好,但在空間數(shù)據(jù)上存在冗余;而ConvLSTM恰好彌補了這一點,不僅具有LSTM 的時序建模能力,還能像CNN 一樣刻畫局部特征,減少了空間上的數(shù)據(jù)冗余,最終可以獲取時空特征。

      1.1.3 殘差網(wǎng)絡(luò)

      殘差網(wǎng)絡(luò)[13](residual network,ResNet)相比于VGG(visual geometry group,VGG)等網(wǎng)絡(luò)多了短跳轉(zhuǎn)連接(shortcut connection)操作,該操作是將網(wǎng)絡(luò)較之前的特征圖疊加到當(dāng)前特征圖,彌補了由于池化操作丟失信息的缺點,大大提高了后續(xù)網(wǎng)絡(luò)對特征圖的理解能力,從而提高最終結(jié)果的準(zhǔn)確度。

      1.2 基于ConvLSTM 的雙通道編碼夜間無人車場景預(yù)測網(wǎng)絡(luò)

      本文提出的雙通道編碼預(yù)測網(wǎng)絡(luò)包括4 個模塊:時間子網(wǎng)絡(luò)、空間子網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)。本文所構(gòu)建的基于ConvLSTM 的雙通道編碼夜間無人車場景預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。

      整個網(wǎng)絡(luò)的輸入分為兩部分:前n幀的視頻序列X={X1,X2,…,Xn}和當(dāng)前時刻圖像Xt。相鄰序列的差分圖像循環(huán)輸入到時間子網(wǎng)絡(luò)中,提取時序信息;當(dāng)前時刻圖像Xt輸入到空間子網(wǎng)絡(luò)中,提取空間特征;利用特征融合網(wǎng)絡(luò)融合得到時空特征,然后輸入到解碼網(wǎng)絡(luò)中,得到預(yù)測圖像。最后將預(yù)測圖像替換Xt,實現(xiàn)多幀預(yù)測。

      圖1 基于ConvLSTM 的雙通道編碼夜間無人車場景預(yù)測結(jié)構(gòu)圖Fig.1 The structure diagram of dual-channel encoding based on ConvLSTM for night scene prediction

      1.2.1 基于CNN 和ConvLSTM 的時間子網(wǎng)絡(luò)

      時間子網(wǎng)絡(luò)負(fù)責(zé)提取視頻序列時序特征,由CNN和ConvLSTM 網(wǎng)絡(luò)構(gòu)成。該網(wǎng)絡(luò)輸入是相鄰兩幀的差分圖像,利用CNN 對差分圖像進(jìn)行特征提取,經(jīng)池化得到較低維特征圖,減少了輸入ConvLSTM 的參數(shù)量,加快運行的速度。ConvLSTM 提取動態(tài)信息,得到圖像間的時序信息以及圖像部分空間信息?;贑NN 和ConvLSTM 的時間子網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示,從左到右分別是紅外差分圖像、卷積池化層、ConvLSTM 和時序特征。圖2是時間子網(wǎng)絡(luò)的一個過程,由一系列卷積、池化和一個ConvLSTM 構(gòu)成,利用3X3 卷積核,提取紅外差分圖像特征,經(jīng)最大池化操作得到低維特征圖,最后輸入到ConvLSTM 網(wǎng)絡(luò)中,提取時序特征。將多幀紅外差分圖像輸入時間子網(wǎng)絡(luò),促使ConvLSTM 對之前信息進(jìn)行部分遺忘,對當(dāng)前信息進(jìn)行記憶,最終學(xué)習(xí)到紅外視頻序列的時序特征。本文網(wǎng)絡(luò)輸入10 幀圖像,即9 張差分圖像,時間子網(wǎng)絡(luò)通過9 次學(xué)習(xí)來提取視頻序列的時序特征。

      圖2 基于CNN 和ConvLSTM 的時間子網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure diagram of temporal sub-network based on CNN and ConvLSTM

      1.2.2 基于ResNet 的空間子網(wǎng)絡(luò)

      空間子網(wǎng)絡(luò)負(fù)責(zé)提取紅外圖像的空間信息。考慮到CNN 網(wǎng)絡(luò)存在多個池化階段,會丟失部分提取的特征信息,在最后解碼時一些細(xì)節(jié)不能恢復(fù),影響預(yù)測圖像清晰度,因此空間子網(wǎng)絡(luò)利用ResNet 網(wǎng)絡(luò)進(jìn)行特征提取。ResNet 網(wǎng)絡(luò)增加了shortcut connection操作,即將之前的特征圖與當(dāng)前的特征圖融合后再進(jìn)行池化、卷積,這樣處理彌補了池化階段的信息丟失問題,在最后解碼得到的圖像中清晰度會有所提高。基于ResNet 的空間子網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示,從左到右依次是紅外圖像、殘差層、池化層和空間特征。該子網(wǎng)絡(luò)選擇了較小的卷積核,主要是從以下兩方面進(jìn)行考慮:①卷積核過大,參數(shù)量增加,從而導(dǎo)致計算量增加;②卷積核過大,不能很好地提取圖像的特征,從而影響最終生成圖像的清晰度。最后的池化用了最大池化,而不是平均池化,也是考慮到清晰度的問題。

      1.2.3 特征融合網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)

      特征融合網(wǎng)絡(luò)是將時間子網(wǎng)絡(luò)和空間子網(wǎng)絡(luò)提取的兩個特征進(jìn)行融合,并利用ResNet 網(wǎng)絡(luò)對得到的特征進(jìn)行進(jìn)一步提取。特征融合網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖4所示。

      解碼網(wǎng)絡(luò)是以反卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行構(gòu)建。輸入是特征融合網(wǎng)絡(luò)得到的時空特征,與空間子網(wǎng)絡(luò)中的卷積相對應(yīng),經(jīng)過一系列反池化和反卷積操作,得到預(yù)測圖像。

      2 實驗及結(jié)果分析

      2.1 實驗配置

      本實驗所使用的硬件及軟件配置如表1所示。網(wǎng)絡(luò)是在Tensorflow 深度學(xué)習(xí)框架下搭建,在此基礎(chǔ)上進(jìn)行網(wǎng)絡(luò)的訓(xùn)練與測試。

      2.2 實驗數(shù)據(jù)與步驟

      實驗所用視頻由實驗室載有紅外攝像頭的無人車在夜間拍攝所得??紤]到圖像信息冗余性問題,將數(shù)據(jù)集每隔3 幀抽取一幀,得到了6500 張圖像,訓(xùn)練集為6000 張紅外圖像,測試集為500 張紅外圖像。訓(xùn)練過程中學(xué)習(xí)率為0.0001,迭代的次數(shù)為100 k,整個網(wǎng)絡(luò)的訓(xùn)練時間為2.5 d,通過多次迭代學(xué)習(xí)紅外視頻序列的時空特征,保存模型參數(shù),模型的參數(shù)通過Adam 算法優(yōu)化獲得。將測試集中的圖像輸入到訓(xùn)練好的模型中,得到預(yù)測結(jié)果,具體的實驗流程如圖5所示。

      圖3 基于ResNet 的空間子網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Structure diagram of spatial sub-network based on ResNet

      圖4 特征融合網(wǎng)絡(luò)Fig.4 Feature fusion network

      表1 實驗配置Table 1 Experimental configuration

      圖5 實驗流程圖Fig.5 Experimental flowchart

      常見的圖像預(yù)測評估中主要有以下兩個評價指標(biāo)[14]:

      1)峰值信噪比(peak signal to noise ratio, PSNR)

      式中:MSE 表示實際圖像X和預(yù)測圖像Y的均方誤差(mean square error);H、W分別表示圖像的高度和寬度;PSNR 的單位是dB,數(shù)值越大,表示失真越小,即圖像內(nèi)容越接近。

      2)結(jié)構(gòu)相似性(structural similarity, SSIM)

      式中:μX、μY分別表示實際圖像X和預(yù)測圖像Y的均值;σX、σY分別表示圖像X和Y的方差;σXY表示圖像X和Y的協(xié)方差;C1、C2是維持穩(wěn)定的常數(shù)。SSIM數(shù)值越大,表示圖像內(nèi)容越接近。

      2.3 實驗結(jié)果與分析

      將測試集輸入到場景預(yù)測網(wǎng)絡(luò)中,得到預(yù)測圖像序列。輸入10 幀圖像,可以預(yù)測未來8 幀圖像,因數(shù)據(jù)集是每隔3 幀抽取一幀,則可以預(yù)測到第32 幀圖像,即1.2 s 以后的圖像,預(yù)測的結(jié)果如圖6所示,分別給出了轉(zhuǎn)彎、行人和車輛3 種典型場景的預(yù)測場景圖像與真實場景圖像的比較。

      圖6 紅外圖像場景預(yù)測結(jié)果Fig.6 Infrared image scene prediction results

      從圖6預(yù)測結(jié)果可以看出,本文的場景預(yù)測圖像接近真實值,預(yù)測圖像較準(zhǔn)確,清晰度較高。圖6共有3 組預(yù)測結(jié)果,每一組的第一行是真實場景的8 幀圖像,第二行是網(wǎng)絡(luò)預(yù)測的8 幀圖像。圖6(a)很好地反映了車輛行駛過程中道路轉(zhuǎn)彎的變化,道路輪廓預(yù)測準(zhǔn)確、清晰,路面上的一些標(biāo)識可以預(yù)測到第5 張(即第20 幀);圖6(b)能夠合理地預(yù)測道路中行人的位置變化,雖然預(yù)測的行人輪廓比較模糊,但移動位置準(zhǔn)確,并且可以合理填補消失的空缺;圖6(c)可以反映前方行駛車輛的運動情況,雖然后續(xù)預(yù)測圖像中車輛不是很清楚,但依舊可以看出車輛的基本輪廓。圖6(c)倒數(shù)2 張預(yù)測的圖像中車輛比較模糊,初步考慮是車輛行駛的速度過快,相鄰幀車輛位置變化比較大導(dǎo)致的。

      為了更好地評價預(yù)測的結(jié)果,進(jìn)行了定量的分析,將復(fù)制前一幀圖像、Conv-LSTM[15]、Prednet 網(wǎng)絡(luò)、SAVP 網(wǎng)絡(luò)[16]以及本文提出的網(wǎng)絡(luò)在PSNR 和SSIM 上進(jìn)行了對比,對比的結(jié)果是針對不同網(wǎng)絡(luò)分別預(yù)測出的第1 幀紅外圖像而言,具體結(jié)果如表2所示。

      PSNR 和SSIM 指標(biāo)數(shù)值越大代表預(yù)測圖像與真實圖像越接近,預(yù)測時間越小預(yù)測速度越快。從表2可以看出,本文提出的方法無論是在PSNR、SSIM 還是預(yù)測時間上,其效果優(yōu)于其他方法,SSIM 達(dá)到0.9以上,說明預(yù)測圖像準(zhǔn)確度較高;預(yù)測一幀圖像的時間是0.02 s,即1 s 可以預(yù)測50 幀,達(dá)到了實際中實時性要求。

      圖6和表2分別從定性和定量的方面說明了本文網(wǎng)絡(luò)預(yù)測圖像清晰度高、預(yù)測內(nèi)容較準(zhǔn)確度且速度快,滿足實時性要求。但本文也存在一些不足,圖6(c)預(yù)測的圖像中車輛的輪廓預(yù)測不是很清楚,初步考慮是數(shù)據(jù)集中含有車輛的紅外圖像較少以及未來的不確定性導(dǎo)致的。

      3 結(jié)論

      本文針對紅外圖像清晰度低、無色彩信息等特點,提出了基于ConvLSTM 的雙通道編碼夜間無人車場景預(yù)測網(wǎng)絡(luò),利用時間子網(wǎng)絡(luò)提取視頻序列的時序特征,空間子網(wǎng)絡(luò)提取圖像的空間特征,通過特征融合網(wǎng)絡(luò)融合后輸入到解碼網(wǎng)絡(luò),得到預(yù)測圖像。本文網(wǎng)絡(luò)能夠較準(zhǔn)確地預(yù)測未來場景的變化,并且可以預(yù)測未來1.2 s 后的場景,改善了之前預(yù)測圖像模糊、預(yù)測幀數(shù)少的問題,為駕駛決策提供了足夠的決策時間,滿足實時性和準(zhǔn)確性的要求。目前公開的紅外數(shù)據(jù)集基本沒有,本文所使用的數(shù)據(jù)集是自己課題組成員采集,場景相對比較單一,主要包括校園環(huán)路或者教學(xué)區(qū)等一些道路。之后會針對更復(fù)雜的場景進(jìn)行進(jìn)一步的研究。

      表2 場景預(yù)測不同方法對比結(jié)果Table 2 Comparison results of different methods for scene prediction

      猜你喜歡
      雙通道清晰度時序
      基于時序Sentinel-2數(shù)據(jù)的馬鈴薯遙感識別研究
      基于Sentinel-2時序NDVI的麥冬識別研究
      近端胃切除雙通道重建及全胃切除術(shù)用于胃上部癌根治術(shù)的療效
      鮮明細(xì)膩,擁有更好的清晰度 Ascendo Immersive Audio CCRM-12 MKII/CCRM-6P/SMS-15
      一種毫米波放大器時序直流電源的設(shè)計
      電子制作(2016年15期)2017-01-15 13:39:08
      采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
      聽音訓(xùn)練對漢語單音節(jié)聽感清晰度的影響
      DPBUS時序及其設(shè)定方法
      河南科技(2014年15期)2014-02-27 14:12:36
      一種無參考監(jiān)控視頻圖像清晰度評價方法
      分類高考能否打通“雙通道”
      银川市| 宿迁市| 沛县| 定州市| 东光县| 包头市| 都江堰市| 常州市| 柞水县| 江山市| 增城市| 镇赉县| 东明县| 中西区| 尖扎县| 乐昌市| 凌海市| 东丰县| 望都县| 丰台区| 如皋市| 平阳县| 夏津县| 威海市| 延长县| 邵东县| 阳曲县| 东乡| 罗山县| 民勤县| 姜堰市| 靖边县| 华亭县| 怀宁县| 伽师县| 策勒县| 巴林左旗| 宜兰市| 凤凰县| 岳池县| 城固县|