• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于卷積神經網絡和上下文模型的目標檢測

      2019-01-29 07:09:44公安部第一研究所馬增妍
      中國安全防范技術與應用 2018年6期
      關鍵詞:正確率類別公式

      ■ 文/公安部第一研究所 馬增妍

      關鍵字:卷積神經網絡 R-CNN NMS 上下文模型

      1 引言

      中國的安防產業(yè)起步晚,改革開放以前,中國的安防主要以人防為主,安全技術防范還只是一個概念,技術防范產品幾乎還是空白。改革開放以后,在公安信息化的大背景下,隨著大數(shù)據(jù),人工智能等技術的快速發(fā)展,以深度學習算法為核心的安防產品已經初步應用于公安一線,目標檢測算法是深度學習的重要分支。R-CNN算法是目標檢測的經典算法,但是R-CNN算法在圖像后處理階段,采用的是NMS算法。NMS算法存在兩方面的缺點:一方面,如何選擇合適的閾值是一件困難的事;另一方面,沒有考慮圖像中物體與物體之間的共存與空間位置關系。

      文獻中提出了用上下文模型來統(tǒng)計一幅圖像里面總是同時出現(xiàn)的目標之間的空間位置關系,從而有利于目標更準確的定位。文獻中是在淺層網絡的圖像特征提取之上進行的上下文模型訓練,因此,我們把上下文模型運用到深層網絡的圖像特征提取之上,進一步提高目標檢測的正確率。

      本文主要把上下文模型和R-CNN算法結合起來,在R-CNN算法的最后一步,即經過SVM分類器分類之后,把候選窗口的信息保存下來,并對其應用訓練好的上下文模型,我們采用割平面方法來學習上下文模型中的參數(shù)。該模型給每一幅圖像,依據(jù)各個候選窗口的SVM分數(shù)以及它們的空間布局,定義了一個總分數(shù)來刻畫物體間的共存與空間位置關系,最優(yōu)候選窗口的布局就是最大化圖像所對應的總分數(shù),本文采用了貪心優(yōu)化算法來選擇最優(yōu)候選窗口。這種結合既避免了NMS算法的缺點,又避免了文獻中對圖像信息進行淺層特征提取的不足。

      2 R-CNN算法

      R-CNN算法在圖像預處理方面采用的是選擇搜索算法,在特征提取方面,采用的是八層卷積神經網絡,其中前五層是卷基層,后三層是全連接層。八層網絡的所有卷積層的卷積核被連接到第二個卷積層中的所有核映射上。全連接層中的神經元被連接到前一層中所有的神經元上。網絡的前五層為卷積層,其中第一層、第二層、第五層之后跟有最大池化層,之后三層是全連接層,最后是一個有21個(20PASCAL VOC類+1個背景類)輸出的softmax層,輸出圖像的分類結果。局部響應歸一化層跟在第一、第二個卷積層后面。最大池化層是在局部響應歸一化層之后以及第五層卷積層之后使用的。ReLU激活函數(shù)是在每一個卷積層和全連接層中使用的。

      3 上下文模型

      3.1 上下文模型的介紹

      該模型主要是統(tǒng)計了真實圖像中目標之間的空間位置關系,從而確定目標最優(yōu)的位置,進而提高目標檢測的正確率。在現(xiàn)實生活中,無論目標是同類別還是不同類,都會有一些經常出現(xiàn)的空間位置關系和一些幾乎不可能出現(xiàn)的位置關系。比如“人”和“馬”這兩類物體,它們之間的空間位置關系有很大的可能是“人”騎在“馬”上,即“人”在“馬”上面(above),或者“人”在“馬”的旁邊(next-to),很少會出現(xiàn)“人”在“馬”下面(below)這種空間位置關系。再比如“人”和“人”這種同類別的目標,他們所組成的空間位置關系一般都是“人”在“人”的旁邊(nextto),很少有“人”在“人”上面(above)的,或者“人”在“人”下面(below)的空間位置關系。因此,如果我們能夠統(tǒng)計出這種共同出現(xiàn)在一副圖像里面的物體之間特有的空間位置關系,那么就會對目標檢測的正確率有一定的幫助。本論文統(tǒng)計了這種現(xiàn)實生活中物體之間特有的空間位置關系,從而構造了一個上下文模型,定義了如圖1所示的幾種空間位置關系,分別是上面(above)、下面(below)、兩個對稱的旁邊(nest-to)、近(near)、遠(far)、覆蓋(overlap):

      圖1 位置關系

      3.2 上下文模型的構造

      首先構造一個上下文模型,用于捕獲目標檢測器之間的存在空間位置關系。用一系列有重合的窗口明確表示一幅圖像(本論文是一幅圖像經過線性SVM分類器之后的所有候選窗口),第i個窗口的位置用其中心和長寬表示,寫作Ii=(x,y,s),其中(x,y)是中心的坐標,s是窗口的尺寸,N表示一幅圖像有N個窗口,xi表示從第i個窗口提取的圖像特征,整幅圖像就可用X={xi:i=1,……N}表示,K代表圖像類別個數(shù)(本論文所用的是PASCAL VOC 2011數(shù)據(jù)集,所以K為20),yi∈{0,……,K}代表了第i個窗口的標簽,0表示背景,那么Y={yi:i=1,……N}。定義X,Y之間的分數(shù),用公式(1)表示:

      其中wyi,yj表示yi類和yj類之間的權重,wyi表示類i的局部模板,dij表示窗口i和窗口j之間的空間位置關系,位置關系可分為:上面(above)、下面(below)、重疊(overlap)、兩個對稱的旁邊(next-to)、近(near)和遠(far),還有一個二進制的(overlap)。因此dij是一個稀疏的一維向量,只有滿足相互之間的空間位置關系的對應項會賦值為1。比如,一副圖像中“人”與“人”之間的空間位置關系是旁邊(next-to),不是上面(above),也不是下面(below)。那么,上面(above)、下面(below)及其他位置的對應項賦值為0,而給旁邊(next-to)賦值為1。

      3.3 上下文模型的推理

      利用上下文模型進行最優(yōu)候選窗口的選擇,就是計算出公式(1) S(X,Y)的最大值,因為計算S(X,Y)的最大值是非確定性多項式NP(non-deterministic polynomial) hard,所以本論文采用貪心算法(greedy algorithms)的思想來解決這個問題。

      算法步驟如下:

      (1)對每一個窗口的向量Y初始化為背景類;

      (2)貪心地選擇不是背景類的單一窗口,即最大限度的增加公式(1)中S(X,Y)的值;

      (3) 當選擇任意一個窗口,S(X,Y)的值不再增加反而減少時,停止迭代。

      用公式表示如下:I代表一系列實例化的窗口-類(window-class),I={pairs(I,c)},記Y(I)代表相關的標簽向量,當所有的pairs在集合I中時,yi=c,否則yi=0;通過加窗口-類pair(I,c)到集合I里改變S(X,Y)的值,具體過程用公式(2)表示:

      3.4 上下文模型的優(yōu)化

      為了優(yōu)化上下文模型的學習算法,需要把公式(1)寫公式(3)的形式:

      公式(3)等價于公式(4)

      凸訓練的目的是假設給定一系列訓練圖像Xi和標簽Yi,希望得到一個W的最優(yōu)值,使得給定一幅新的圖像Xi,可以產生一個標簽向量Y*=Yi。因此,凸訓練的結果是得到W的最優(yōu)值,使得Y*和Yi的差值盡可能的小,凸訓練得到W最優(yōu)值的這一過程既是求下列數(shù)學公式(5)極值的過程。

      其中:Hi是自己算出的標簽,

      考慮到第n個訓練圖像Xi和其真正的標簽Yi,我們需要真標簽的得分比所有其他虛擬標號{Hi}的更高。然而,并非所有不正確標簽是同樣程度的不正確,即有的錯的多,有的錯的少。損失函數(shù)L(Yi,Hi)測量Hi是如何不正確,并用松弛變量按比例錯的比例懲罰。因此,約束函數(shù)如公式(6)所示:

      其中,第一行對應的是錯誤(negative)的窗口,第二行對應的是錯誤的窗口但是被歸類為正確的(positive)窗口了,第三行對應其它情況。

      為了方便最優(yōu)化,把公式(5)的約束問題等價于公式(7)的無約束問題:

      R(w)是凸函數(shù),因為它等于一系列線性函數(shù)中最大的值,N是所有的訓練圖像的總數(shù),因此也證明了目標函數(shù)L(W)是凸函數(shù),因為它是兩個凸函數(shù)的總和。定義一個簡化問題(reduced problem),用公式(8)表示:

      R被近似成了一個分段的線性函數(shù)Rt,

      g(wi)是函數(shù)R(w)在一個點wj的子梯度,用公式(9)表示:

      由此,二次規(guī)劃問題可以寫成公式(10)的形式:

      最終,上下文模型的優(yōu)化就變成解二次規(guī)劃問題,即求解公式(10),具體的優(yōu)化過程在第四章給出。

      4 在R-CNN中應用上下文模型

      在R-CNN中應用上下文模型,即把上下文模型應用在經過線性SVM分類器分類之后圖像的候選窗口上。在測試實驗之前,首先要學習上下文模型的參數(shù)即訓練訓練上下文模型。

      由第3.4小節(jié)可知,對于構造好的上下文模型進行割平面(Cutting Plane)最優(yōu)化,即可得到W的最優(yōu)值。割平面最優(yōu)化的過程就是求解二次規(guī)劃問題,用公式(11)表示如下:

      本論文選擇的懲罰因子C為2。割平面算法的原理是用有限半個空間來近似凸規(guī)劃的可行解集合,并求解一系列不斷改進的線性規(guī)劃,它們的最優(yōu)解收斂于原凸規(guī)劃問題的最優(yōu)解。這一方法的基本思想是:每次迭代求函數(shù)在某一個凸多面體的極小值,每次迭代后引進一個割面,這個割面是可以隨意選擇的,從而逐步縮小多面體,促使迭代點收斂至最優(yōu)解。凸優(yōu)化過程如下:

      (1)初始化t=0,割平面的集合為空,根據(jù)第三章公式(3-8),計算wt;

      (2)計算子梯度g(wt)并把新的割平面加入到割平面集合中,根據(jù)第三章公式(3-7)計算L(wt);

      (3)迭代的停止的條件是,本論文把的值設置成0.01,當不滿足停止條件時,跳到步驟(2)繼續(xù)進行優(yōu)化直到滿足停止條件。

      5 實驗結果與分析

      5.1 實驗數(shù)據(jù)及流程

      PASCAL VOC是國際權威的物體檢測挑戰(zhàn)賽,其作為視覺對象的分類識別和檢測的一個標準測試,提供了檢測算法和學習性能的標準圖像注釋數(shù)據(jù)集和標準的評估系統(tǒng)。因此本論文采用的測試數(shù)據(jù)是PASCAL VOC 2011數(shù)據(jù)集,大約有6000張圖像,20個圖像類別。

      我們把數(shù)據(jù)集平均分成兩部分,訓練集和測試集。本論文遵循PASCAL VOC協(xié)議的規(guī)則,如果圖像檢測窗口與該圖像的ground truth窗口的交集是大于50%的,其中,ground truth窗口是圖像當中已經標注好的檢測目標的正確窗口,那么檢測被認為是正確的。實驗對比了R-CNN算法的測試結果,計算每一個類別的精度-召回PR (Precision-Recall)曲線,和每一個類別的平均正確率,在表1中給出:

      表1 測試結果對比

      5.2 實驗結果分析

      由表1可以看出,具有明顯的空間位置關系,并且總是同時出現(xiàn)在一幅圖像里面的類別,正確率有了一定的提高,比如“bike”,“horse”,“soft”正確率分別由原來的23.7%,40.1%,22.7%提高到了50.1%,46.9%,27.8%。而和“bike”,“horse”,“soft”有明顯位置關系的“person”的正確率出現(xiàn)了微小的下降,從53.9%到53.5%。圖2,圖5-2分別表示的是,“person”和“horse”,“person”和“soft”的經過線性SVM分類后的所有候選窗口和經過上下文模型選擇出的最優(yōu)候選窗口的對比圖。

      圖2 人和馬

      圖3 人和沙發(fā)

      圖2 b)中,可以看到,這是由于“person”和“person”之間的位置關系通常都是“next-to”,所以上下文模型在選定“person”的最優(yōu)候選窗口時,會優(yōu)先選擇“next-to”的候選窗口,但從圖2 b)中可以看出,兩個人其實是有重疊的部分的,而由于采用了上下文模型,優(yōu)先選擇了旁邊的候選窗口而排除了有重疊的候選窗口,所以,經過上下文模型的學習后選出的最優(yōu)的候選窗口并不是真正的最優(yōu)的候選窗口,這個原因,可能導致“person”這個類別的總體正確率有了一點的下降,但是下降的不多,這是因為,測試集中會出現(xiàn)很多和“人”類有空間位置關系的類別,比如“bike”,“horse”等等,它們之間的空間位置關系會提高“person”的目標檢測正確率。

      對于一些和其他類別沒有固定的空間位置關系,總是和自己同類的目標一同出現(xiàn)在一幅圖像當中的類別,比如“cat”“cow”“dog”“plant”,它們的正確率并沒有提高的很多,有的類別會出現(xiàn)正確率的小幅度下降,這可能是因為上下文模型更適合檢測圖像里面有多種不同類別目標的情況,而不適合檢測一幅圖像里面只有一種類別的多個目標的情況,所以正確率提高的不多。由此我們也可以得出,上下文模型更適合于一幅圖像中有多個類別的圖像檢測,文獻中也提到,上下文模型在多個類別同時出現(xiàn)在一幅圖像上,一些目標容易檢測而另一些目標不容易檢測的情況下會有明顯效果。總體而言,可以看出上下文模型對于數(shù)據(jù)集中的部分類別的檢測正確率有了明顯的提高。

      6 結論

      在公安信息化的大背景下,隨著大數(shù)據(jù),人工智能等技術的快速發(fā)展,以深度學習算法為核心的警用裝備已經初步應用于公安安防一線,目標檢測算法的是深度學習的重要分支,本文提出來一種新的選擇候選框的方法,針對R-CNN算法的缺點,本文提出了一種新的目標檢測方法,該方法結合了R-CNN與一個可以描述圖像中物體間的共存與空間位置關系的上下文模型,在該上下文模型中,對每一幅圖像,依據(jù)各個候選窗口的分類分數(shù)以及它們的空間布局,定義了一個總分數(shù)來刻畫物體間的共存與空間位置關系,最優(yōu)候選窗口的布局應該最大化該分數(shù)。實驗結果表明,如果屬于不同類別的物體經常同時出現(xiàn)在一幅圖像中,并且相互之間存在特定的空間位置關系,那么,這些物體對應類別的檢測正確率會有明顯的提高。

      猜你喜歡
      正確率類別公式
      組合數(shù)與組合數(shù)公式
      排列數(shù)與排列數(shù)公式
      等差數(shù)列前2n-1及2n項和公式與應用
      門診分診服務態(tài)度與正確率對護患關系的影響
      例說:二倍角公式的巧用
      生意
      品管圈活動在提高介入手術安全核查正確率中的應用
      天津護理(2016年3期)2016-12-01 05:40:01
      生意
      故事會(2016年15期)2016-08-23 13:48:41
      服務類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      开鲁县| 玉屏| 遵义县| 德令哈市| 兰州市| 扬中市| 鹿邑县| 巨野县| 甘肃省| 雅安市| 海伦市| 石渠县| 台中市| 阳春市| 榆林市| 望谟县| 积石山| 来凤县| 淅川县| 沙坪坝区| 乌兰浩特市| 曲水县| 喀喇| 泌阳县| 铜鼓县| 东辽县| 称多县| 虎林市| 朝阳县| 彭泽县| 怀柔区| 广平县| 高密市| 定陶县| 泰顺县| 拜城县| 武夷山市| 扎鲁特旗| 黔江区| 巢湖市| 棋牌|