• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)提取視頻圖像關(guān)鍵幀的方法

      2018-03-04 07:03:20楊非凡廖蘭芳
      電腦知識(shí)與技術(shù) 2018年36期
      關(guān)鍵詞:目標(biāo)檢測(cè)關(guān)鍵幀卷積神經(jīng)網(wǎng)絡(luò)

      楊非凡 廖蘭芳

      摘要:針對(duì)傳統(tǒng)的關(guān)鍵幀提取方法誤差率高、實(shí)時(shí)性差等問題,提出了一種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)提取視頻圖像關(guān)鍵幀的方法,分類提取列車頭部、尾部及車身所在關(guān)鍵幀。在關(guān)鍵幀提取過程中,重點(diǎn)研究了基于SIFT特征的粗識(shí)別和Alex-Net卷積神經(jīng)網(wǎng)絡(luò)模型的精識(shí)別兩個(gè)階段,通過模型訓(xùn)練驗(yàn)證基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵幀提取器的可行性。

      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)(CNN);關(guān)鍵幀;目標(biāo)檢測(cè)

      中圖分類號(hào):TP391? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1009-3044(2018)36-0201-03

      1 概述

      隨著我國(guó)鐵路的不斷發(fā)展,鐵路在運(yùn)行過程中的安全性問題日益凸顯,視頻監(jiān)控在鐵路交通安全中起著至關(guān)重要的作用。通過攝像頭監(jiān)控、互聯(lián)網(wǎng)的傳播,監(jiān)控畫面實(shí)時(shí)顯示,鐵路部門可以利用視頻中的有效圖像信息,對(duì)視頻流進(jìn)行處理,從而有效地保證鐵路系統(tǒng)的正常運(yùn)營(yíng)。因此,如何快速有效地提取鐵路視頻圖像中的關(guān)鍵幀信息,是本文研究的重點(diǎn)。

      考慮到視頻中相鄰幀的重復(fù)率一般比較高,關(guān)鍵幀的提取可以減少幀數(shù),進(jìn)而提升圖像特征點(diǎn)檢測(cè)和匹配效率,同時(shí)也為圖像拼接提供一個(gè)組織框架。針對(duì)這項(xiàng)關(guān)鍵技術(shù),得到了研究者們的廣泛關(guān)注,并取得了一定研究成果。文獻(xiàn)[1]從相鄰幀間的顏色或紋理信息變化程度出發(fā),提出了基于視頻內(nèi)容的方法。文獻(xiàn)[2]通過計(jì)算當(dāng)前幀與類心之間特征值的距離,將視頻中所有幀進(jìn)行聚類分析,得到基于視頻聚類的分析方法。文獻(xiàn)[3]提出基于運(yùn)動(dòng)特征分析的算法,其基本原理是利用光流分析,將視頻中運(yùn)動(dòng)量最小的一幀作為關(guān)鍵幀。

      上述的三類傳統(tǒng)算法主要基于圖像整體信息的變化來選定關(guān)鍵幀,容易造成關(guān)鍵幀選取錯(cuò)誤、計(jì)算量大、實(shí)時(shí)性差等問題。因此,本文在此基礎(chǔ)上使用一種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法,通過建立卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型,分類提取視頻中列車頭部、尾部及車身所在關(guān)鍵幀,使得基于深度學(xué)習(xí)的目標(biāo)檢測(cè)在關(guān)鍵幀提取的應(yīng)用中成為可能。

      2 卷積神經(jīng)網(wǎng)絡(luò)概述

      作為深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用的關(guān)鍵技術(shù),卷積神經(jīng)網(wǎng)絡(luò)是通過設(shè)計(jì)仿生結(jié)構(gòu)來模擬大腦皮層的人工神經(jīng)網(wǎng)絡(luò),可實(shí)現(xiàn)多層網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練學(xué)習(xí)。同傳統(tǒng)的圖像處理算法相比較,卷積神經(jīng)網(wǎng)絡(luò)可以利用局部感受野,獲得自主學(xué)習(xí)能力,以應(yīng)對(duì)大規(guī)模圖像處理數(shù)據(jù),同時(shí)權(quán)值共享和池化函數(shù)設(shè)計(jì)減少了圖像特征點(diǎn)的維數(shù),降低了參數(shù)調(diào)整的復(fù)雜度,稀疏連接提高了網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性,最終產(chǎn)生用于分類的高級(jí)語義特征,因此被廣泛應(yīng)用于目標(biāo)檢測(cè)、圖像分類領(lǐng)域。

      2.1 基本結(jié)構(gòu)

      利用卷積神經(jīng)網(wǎng)絡(luò)模型的自主學(xué)習(xí)能力,可以實(shí)現(xiàn)目標(biāo)檢測(cè),本節(jié)主要介紹一種典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示。

      卷積神經(jīng)網(wǎng)絡(luò)是一種多層深度網(wǎng)絡(luò)結(jié)構(gòu),主要由輸入層、卷積層、池化層、全連接層和輸出層等部分組成。輸入層是需要處理的圖像,計(jì)算機(jī)可將其理解為若干矩陣。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的重要組成部分,通過輸入層和卷積層之間矩陣的卷積運(yùn)算,提取輸入圖像的特征。池化層也是卷積神經(jīng)網(wǎng)絡(luò)的重要組成部分,通常設(shè)置在卷積層之后,作用是對(duì)輸入圖像的目標(biāo)區(qū)域像素取平均值(Average)或最大值(Max),即降采樣處理,降低特征圖像分辨率的同時(shí)避免出現(xiàn)過擬合。全連接層位于最后一個(gè)池化層和輸出層之間,由0個(gè)或多個(gè)組成,其中每一個(gè)神經(jīng)元都與前一層的全部神經(jīng)元相連接,并根據(jù)目標(biāo)檢測(cè)的需要,有針對(duì)性地將特征向量映射到輸出層,便于分類。輸出層位于神經(jīng)網(wǎng)絡(luò)的最后,設(shè)定為Softmax回歸,主要作用是對(duì)全連接層映射過來的輸入向量進(jìn)行分類,最終輸出一維預(yù)測(cè)向量,維數(shù)等于分類的數(shù)目。

      卷積神經(jīng)網(wǎng)絡(luò)中卷積層+池化層的組合,可以根據(jù)實(shí)際任務(wù)需要重復(fù)出現(xiàn)多次。通過多層神經(jīng)網(wǎng)絡(luò)的特征提取,逐步由空間特征到深層語義特征,得到不同深度的特征表達(dá)能力,最終經(jīng)過全連接層和輸出層得到目標(biāo)檢測(cè)的結(jié)果。因此,根據(jù)每層的功能,卷積神經(jīng)網(wǎng)絡(luò)可以劃分為兩個(gè)部分——由輸入層、卷積層和池化層構(gòu)成的特征提取器以及由全連接層和輸出層構(gòu)成的分類器。

      2.2 訓(xùn)練方法

      卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法如圖2所示,主要由前向傳播和反向傳播兩部分組成。前向傳播是樣本數(shù)據(jù)由低層到高層逐層傳播的過程,如果前向傳播得到的輸出值與目標(biāo)值存在誤差,則將誤差從高層往低層反向傳播回網(wǎng)絡(luò)中,計(jì)算誤差梯度,最后利用誤差梯度更新卷積神經(jīng)網(wǎng)絡(luò)每一層參數(shù)的權(quán)重,達(dá)到自主學(xué)習(xí)的能力。

      2.3 常用模型

      經(jīng)過近二十年的快速發(fā)展,涌現(xiàn)出了眾多卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),從早期用于手寫數(shù)字識(shí)別的LeNet模型到最近的深度殘差學(xué)習(xí)ResNet模型,卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)和深度不斷增加,圖像識(shí)別的準(zhǔn)確度也不斷提高。

      1998年LeCun等人[文獻(xiàn)4]設(shè)計(jì)了早期最具代表性的卷積神經(jīng)網(wǎng)絡(luò)LeNet,主要有2個(gè)卷積層、2個(gè)下抽樣層(池化層)、3個(gè)全連接層組成。2012年,Krizhevsky等人[文獻(xiàn)5]提出的Alex-Net模型在ILSVRC競(jìng)賽中大幅度提高了圖像分類的準(zhǔn)確率,模型包含5個(gè)卷積層、3個(gè)池化層以及3個(gè)全連接層,通過長(zhǎng)時(shí)間和大數(shù)據(jù)的訓(xùn)練(約6000萬訓(xùn)練參數(shù)),展現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域的巨大潛力。VGG-Net模型于2014年由Simonyan等人[文獻(xiàn)6]設(shè)計(jì),一共有六種不同的網(wǎng)絡(luò)結(jié)構(gòu),其中所有卷積核的大小均設(shè)置為3×3,體現(xiàn)了 “簡(jiǎn)潔,深度”的特點(diǎn)。2015年Szegedy等人[文獻(xiàn)7]提出的GoogleNet模型,不同于Alex-Net和VGG-Net模型通過增大網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)來提高準(zhǔn)確率,而是引入inception模塊,改變感受野的大小,提取到更豐富的特征。2016年He等人[文獻(xiàn)8]提出了ResNet模型,利用殘差學(xué)習(xí)緩解了網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)增加到一定程度后,準(zhǔn)確度出現(xiàn)退化的問題,取得了當(dāng)前最好的圖像識(shí)別效果。

      3 基于目標(biāo)檢測(cè)的關(guān)鍵幀提取方法研究

      傳統(tǒng)的關(guān)鍵幀提取方法通常借助于圖像整體信息的變化,在鐵路監(jiān)控視頻上取得了不錯(cuò)的效果,但仍然存在一些問題。首先,需要人工設(shè)計(jì)選定一列車廂的首尾幀,影響關(guān)鍵幀提取的實(shí)時(shí)性和效率。其次,沒有深入挖掘圖像的特征,造成選取的目標(biāo)關(guān)鍵幀錯(cuò)誤率較高,泛化能力差。

      卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)上的成功應(yīng)用,可以看作識(shí)別圖像為目標(biāo)還是為非目標(biāo)。因此,本章設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵幀提取器,首先采用基于SIFT特征的關(guān)鍵點(diǎn)檢測(cè)算法,在鐵路視頻圖像上提取少量區(qū)域作為候選,并通過Alex-Net模型提取候選區(qū)域的深度特征,最后將特征輸入到SVM分類器中進(jìn)行分類,得到列車頭部、尾部和車身三種結(jié)果,驗(yàn)證基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵幀提取器的可行性。本文提出的關(guān)鍵幀提取器流程圖如圖3所示。

      3.1 基于SIFT特征的關(guān)鍵幀粗識(shí)別

      SIFT(Scale Invariant Feature Transform)全稱尺度不變特征變換,是一種檢測(cè)和描述圖像中局部特征的算法,由David Lowe于1999年提出[文獻(xiàn)],原理是在不同的尺度空間尋找極值點(diǎn)(特征點(diǎn)),計(jì)算位置、尺度、方向等信息,并把特征點(diǎn)用一個(gè)128維的特征向量進(jìn)行描述。由于SIFT特征可以較好地描述目標(biāo)的局部特性且對(duì)平移、旋轉(zhuǎn)等變換保持不變,可以應(yīng)用在視頻圖像的關(guān)鍵幀特征區(qū)域檢測(cè)。

      SIFT特征點(diǎn)算法主要包括四個(gè)部分:首先在建立尺度空間的基礎(chǔ)上,利用高斯差分金字塔找到局部關(guān)鍵點(diǎn);然后對(duì)尺度空間擬合處理,得到關(guān)鍵點(diǎn)位置和尺度的精確值;再進(jìn)一步使用梯度方向直方圖為關(guān)鍵點(diǎn)分配方向信息;最后生成特征點(diǎn)的描述向量。通過基于SIFT的關(guān)鍵幀特征區(qū)域粗識(shí)別,大量與目標(biāo)檢測(cè)差異較大的區(qū)域被拒絕,只有少數(shù)與目標(biāo)檢測(cè)相似的特征點(diǎn)作為候選區(qū)域進(jìn)入卷積神經(jīng)網(wǎng)絡(luò),為接下來的精識(shí)別減少了工作量。

      3.2 基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵幀精識(shí)別

      在關(guān)鍵幀提取器的粗識(shí)別階段,已經(jīng)篩選出大量的非目標(biāo)區(qū)域,留下了少數(shù)候選區(qū)域。候選區(qū)域的圖像特征點(diǎn)具有相似性,需要深度挖掘圖像特征方可區(qū)分。因此,在關(guān)鍵幀提取器的精識(shí)別階段,使用Alex-Net卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)候選目標(biāo)區(qū)域提取深度卷積網(wǎng)絡(luò)特征,生成特征向量,并利用關(guān)鍵幀提取器的SVM分類器將特征向量分類,得到最終的提取結(jié)果。

      本文中使用Alex-Net卷積神經(jīng)網(wǎng)絡(luò)模型,包含5個(gè)卷積層、3個(gè)池化層和3個(gè)全連接層,其中有60M個(gè)參數(shù)和650K神經(jīng)元,最多可以為1000類目標(biāo)進(jìn)行分類。候選目標(biāo)區(qū)域的SIFT特征向量,作為輸入圖像進(jìn)入模型,經(jīng)過五層卷積操作和相應(yīng)的最大池化處理,同時(shí)使用非線性激活函數(shù)ReLU加快收斂速度,GPU并行架構(gòu)實(shí)現(xiàn)高效的卷積計(jì)算。

      4 實(shí)驗(yàn)結(jié)果

      本文的實(shí)驗(yàn)環(huán)境為:Intel(R)Core(TM)i5-4210M CPU @ 2.60GHZ,8GB內(nèi)存,NVIDIA GTX 850M 顯卡。使用的開發(fā)工具為基于Python 3.6.5版本的PyCharm,Alex-Net卷積神經(jīng)網(wǎng)絡(luò)使用TensorFlow框架。

      在實(shí)驗(yàn)中,我們將事先錄好的鐵路監(jiān)控視頻,作為輸入圖像導(dǎo)入到關(guān)鍵幀提取器,通過SIFT特征提取和卷積神經(jīng)網(wǎng)絡(luò)的深度特征提取,自動(dòng)調(diào)整網(wǎng)絡(luò)參數(shù)和權(quán)重,實(shí)現(xiàn)基于深度學(xué)習(xí)的目標(biāo)檢測(cè)提取視頻圖像關(guān)鍵幀,提取出視頻的關(guān)鍵幀圖像如圖4所示。

      5 總結(jié)

      通過卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)領(lǐng)域的應(yīng)用,本文實(shí)現(xiàn)了鐵路視頻圖像關(guān)鍵幀提取器的設(shè)計(jì)和實(shí)現(xiàn),其中粗識(shí)別階段選取傳統(tǒng)的SIFT特征點(diǎn),精識(shí)別階段利用卷積神經(jīng)網(wǎng)絡(luò)挖掘圖像深度特征,提高了關(guān)鍵幀提取的精度。

      參考文獻(xiàn):

      [1] 林通, 張宏江, 封舉富,等. 鏡頭內(nèi)容分析及其在視頻檢索中的應(yīng)用[J]. 軟件學(xué)報(bào), 2002, 13(8):1577-1585.

      [2] 張嬋, 高新波, 姬紅兵. 視頻關(guān)鍵幀提取的可能性C-模式聚類算法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2005, 17(9):2040-2045.

      [3] 章毓晉.圖像理解[ M] . 北京:清華大學(xué)出版社, 2006:377-380.

      [4] LEcun, Yann, Bottou, Leon, Bengio, Yoshua, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

      [5] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012:1097-1105.

      [6] K.Simonyan, A.Zisserman. Very deep convolutional networks for large-scale? image recognition[C]. International Conference on Learning Representations? (ICLR),? San Diego, CA, USA, 2015, 1-14.

      [7] C.Szegedy,W. Liu,Y. Jia, et al. Going deeper with convolutions[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA,? 2015, 1-9.

      [8] K. He, X. Zhang, S. Ren, et al. Deep residual learning for image recognition[C]. Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, 770-778.

      [9] 李旭冬. 基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)若干問題研究[D]. 電子科技大學(xué), 2017.

      [10] 殷文斌. 卷積神經(jīng)網(wǎng)絡(luò)在遙感目標(biāo)識(shí)別中的應(yīng)用研究[D]. 中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院遙感與數(shù)字地球研究所), 2017.

      [通聯(lián)編輯:梁書]

      猜你喜歡
      目標(biāo)檢測(cè)關(guān)鍵幀卷積神經(jīng)網(wǎng)絡(luò)
      基于改進(jìn)關(guān)鍵幀選擇的RGB-D SLAM算法
      視頻中目標(biāo)檢測(cè)算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
      基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
      基于P3電位的目標(biāo)檢測(cè)研究
      科技視界(2016年4期)2016-02-22 13:09:19
      周至县| 若尔盖县| 惠州市| 裕民县| 扶绥县| 瑞昌市| 定襄县| 万山特区| 邯郸县| 武安市| 洪雅县| SHOW| 尉氏县| 丰原市| 金门县| 菏泽市| 库伦旗| 高平市| 罗定市| 饶河县| 屯留县| 丹巴县| 望谟县| 谷城县| 琼海市| 晋州市| 思茅市| 巨野县| 苗栗市| 雷州市| 贺兰县| 益阳市| 仲巴县| 福安市| 大邑县| 永靖县| 阿拉善盟| 遵义县| 宁国市| 卓尼县| 清徐县|