• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于融合門網絡的圖像理解算法設計與應用

      2021-07-03 07:01:40周自維王朝陽
      光學精密工程 2021年4期
      關鍵詞:網絡結構注意力神經網絡

      周自維,王朝陽,徐 亮

      (遼寧科技大學 電子信息工程學院,遼寧 鞍山114000)

      1 引言

      圖像理解(Image Captioning)問題是計算機視覺領域研究中的核心和熱點問題,其目的是通過一幅圖像來生成描述該幅圖像內容的一句話,即圖像轉換語言的問題。人在看到一幅圖像后,可以很好地用語言描述出該圖像中表達出的含義,但是讓計算機達到類似的效果卻面臨諸多問題。因為圖像理解需要考慮多方面的因素,包括如何利用圖像的特征信息、如何將理解的知識轉換成一段文字描述以及如何將這些過程轉換成邏輯代碼,對于傳統(tǒng)的計算機算法而言,實現(xiàn)這項工作的難度巨大。

      早期的圖像理解方法例如文獻[1]、文獻[2]等是先通過圖像處理和SVM分類結合的方式提取圖像中存在的目標信息,然后再推斷出前一階段提取出的目標物信息和屬性,并利用CRF或其他自定義的規(guī)則生成關于圖像的一段描述。上述方式生成句子描述時過于依賴規(guī)則,因此文獻[3]和文獻[4]提出先用卷積神經網絡作為編碼端提取圖像特征,再用循環(huán)神經網絡作為解碼端,結合圖像特征生成圖像描述。隨著深度神經網絡的應用,該問題的解決效果越來越好,因此目前普遍使用深度神經網絡算法解決該問題。

      文獻[3]中采用的算法是典型的編碼器-解碼器[5]結構,該結構首先使用性能良好的CNN作為編碼器獲取圖像的特征信息,然后使用循環(huán)神經網絡作為解碼器最終生成該圖像的一段描述。但是在該論文的網絡結構中,圖像信息的利用不夠充分,因為它只是在解碼階段的最初始時刻傳遞了圖像的特征,隨著解碼步驟時間序列的不斷增長,圖像特征會逐漸丟失,最終導致生成的圖像描述語句不夠準確。受文獻[6]中提及的注意力機制的啟發(fā),國內外學者提出了各種包含注意力機制的圖像理解算法,其中包括軟/硬注意力機制結合的圖像理解方法、自適應注意力機制方法[7]等,雖然這些方法使圖像描述的質量有了一定程度的提高,但是神經網絡的方法也存在網絡參數(shù)過多,算法過于復雜以及運行算法所需要的算力消耗過大等問題,這給研究成果的實際應用和推廣帶來了一定的經濟困難。

      基于上述問題,本文重新設計出一種新的網絡模型,即“融合門”網絡結構模型,該網絡模型以編碼器-解碼器作為整體結構框架,并將注意力機制嵌入到模型之中。與以往注意力機制不同的是,該模型將注意力機制從區(qū)域圖像特征轉移到全局圖像特征上來,實現(xiàn)花費更少算力而達到更好利用圖像信息的效果。該“融合門”是圖像的空間信息與時間信息的融合,為了使讀者充分理解我們的網絡結構,我們已經將該論文的代碼開源,通過下載對應代碼,可以更深入地理解我們的做法和思想,代碼地址為:https://github.com/xuliang-a/fusion-attention.git

      2 圖像理解的相關研究

      圖像理解與圖像的語義分析、圖像標注[8-10,18]技術緊密相關,研究成果對于圖像搜索[19-20]、信息降維[21]以及人機交互領域的應用起到根本性的支持作用。

      目前解決圖像理解問題普遍采用的算法是編碼器-解碼器結構的神經網絡算法。其中編碼器結構以卷積神經網絡為基礎,而解碼器結構以長短時記憶網絡(Long Short Term Memory,LSTM)為基礎,而注意力機制可以充分利用圖像的特征,該模型更加符合人的思維習慣,因此注意力機制越來越受到研究人員的重視。

      文獻[6]最早提出注意力機制并將其應用到圖像分類之中。由于傳統(tǒng)的機器翻譯每次按照同樣的比例提取源語言的特征信息,未能做到具體情況具體分析,文獻[11]利用注意力機制的原理,將其引入到機器翻譯之中,使翻譯模型在對給定的一段序列進行翻譯時,做到對不同詞給予不同的關注,由此得到的目標語言也更加合理。文獻[12]將注意力機制與LSTM相結合,將其應用到機器閱讀中;文獻[13]將注意力機制應用到圖像的特征提取和語句的情感分析中;文獻[14]將注意力機制應用到語言的理解中。隨著對注意力機制的深入研究,研究人員也將注意力機制應用到圖像理解中。文獻[15]提出軟注意力機制和硬注意力機制,在不同類型的區(qū)域,使用不同的注意力機制。文獻[16-17]都提出了基于注意力機制對圖像進行描述的算法,文獻[7]提出自適應的注意力機制算法,該算法根據(jù)當前情況自行判斷圖像特征的重要程度,既可以很好地利用圖像信息,又可以做到更好地模擬人的思想來生成圖像的描述。隨著研究的深入,文獻[22-23]提出了新型循環(huán)神經網絡結構,這種新的網絡結構全面使用注意力機制,嘗試取代LSTM網絡以取得更好的描述效果,但是該網絡結構在圖像理解中尚未使用。

      上述神經網絡模型的演化都在向著一個方向發(fā)展,即網絡模型設計得越來越復雜,網絡參數(shù)越來越龐大,這使得運行神經網絡所需要的算力(CPU+GPU)大大增加。因算力增加而造成的服務器和能耗的上升使得算法的部署成本也越來越高。

      本文提出了精簡、新穎的“融合門”網絡結構,該結構是對圖像空間信息與語句時序信息的融合,以編碼器-解碼器框架結構為基礎,重新設計了一個“融合門”機制。該融合門結構將卷積神經網絡的輸出向量與標注語句的向量進行結合,再進入改進的LSTM網絡,最后將輸出結果形成一個統(tǒng)一矩陣,并作為網絡的隱藏層輸出,因此,該網絡圖像理解的輸出既兼顧到圖像整體的圖像特征,又受到標注語句的影響,其輸出的描述語句準確率更高。

      本設計思想的實現(xiàn)也受到“注意力機制”[7]的啟發(fā),但是相比注意力機制的用法,本文采用的“融合門”網絡結構更簡單,網絡參數(shù)更少,描述效果更理想。對實際的訓練和測試結果進行評估,評估結果表明,在采用同樣的卷積網絡VGG?Net-16情況下,本文的融合門算法得到的評價指標CIDEr值比注意力機制[7]數(shù)值高出36.91%,通過程序計算,本文的網絡參數(shù)個數(shù)為13,747,553,注意力機制網絡參數(shù)個數(shù)為17,684,320,網絡參數(shù)減少21.1%,本文模型的網絡結構優(yōu)勢非常明顯。

      本文設計的新的“融合門”循環(huán)網絡結構不但預測指標高,而且網絡結構簡單,占用計算資源少,對圖像理解的推廣起到積極作用。

      3 基于融合門結構的圖像理解模型設計與實現(xiàn)

      “融合門”網絡結構是時間信息與空間信息的融合,該網絡結構基于編碼器-解碼器結構設計,在此基礎上進行模型和算法的改進優(yōu)化。模型的編碼端采用卷積神經網絡VGGNet-16,是為了獲取圖像的全局信息,模型的解碼端采用改進LSTM模型,模型的詳細描述如下所述。

      3.1 基于融合門結構的網絡模型

      目前實現(xiàn)圖像理解的網絡模型幾乎都使用“編碼器-解碼器”模型,其中最有代表性的是Li Fei-Fei設計的Neural Talk模型,如圖1所示,其模型結構實現(xiàn)簡潔,實際效果良好。

      圖1 Li Fei-Fei采用的網絡結構[3]Fig.1 Neural Network of Li Fei-Fei[3]

      自適應注意力機制模型[7]針對Li Fei-Fei的效果做了較大改進。

      該網絡利用卷積神經網絡的中間層對后續(xù)輸入輸出做出調整,并且調整方式有較好的自適應能力,其網絡結構如圖2所示。上述結構的編碼端與解碼端實現(xiàn)方式如下。

      圖2 注意力機制網絡模型[7]Fig.2 Network of“Attention model”[7]

      3.1.1 編碼端算法

      編碼模型采用VGGNet-16對輸入圖像進行編碼處理,由于解碼端不需要使用圖像的分類結果,所以去除掉VGGNet-16的分類層,從而使圖像輸入后獲取到一個4096維的全局特征信息Ib,并利用文獻[3]的方式對全局特征信息進行轉換:

      其中:VGG(Ib)用于將圖像全局特征轉換成詞向量維度,若設定模型中詞向量的維度為L,則W m的維度為4096×L,bg的維度為L,V g是編碼端最終得到的全局圖像輸出向量。

      3.1.2 解碼端算法

      解碼端采用LSTM網絡實現(xiàn)。文獻[24]中的LSTM網絡模型共有三個門,用于實現(xiàn)長期的語義信息及短期的語義信息的獲取,使用該模型可以很好地避免梯度衰減或梯度爆炸現(xiàn)象的發(fā)生。

      在t時刻下各個門的表達式如下:

      其中:σ代表激活函數(shù),它是一種S型函數(shù),閾值為(0,1),使用該函數(shù)更易于反向傳播求導;?代表矩陣相乘;it,f t和ot分別代表輸入門、遺忘門和輸出門;x t代表t時刻輸入詞的詞向量;h t-1代表t-1時刻的獲得的隱藏狀態(tài);W x和W h均是可學習的權重系數(shù);其余均為可學習的偏置系數(shù)。該模型在t時刻的隱藏狀態(tài)公式如下:

      其中:·代表按元素相乘;c?t表示候選的記憶細胞信息;ct表示記憶細胞信息;h t代表t時刻的獲得的隱藏狀態(tài);bc?代表可學習的偏置系數(shù)。

      上述編碼端和解碼端的算法結構是本文設計新網絡模型的基礎。

      3.1.3 “融合門”結構的網絡模型框架

      圖像理解的核心問題是圖像轉語言,這種轉換既包含了圖像的空間信息,又包含了語言模型的時間信息,因此如果將空間信息與時間信息進行有效結合,圖像理解的效果將得到有效改善,這是我們設計該算法的核心出發(fā)點。在實際的設計過程中,使用卷積神經網絡處理空間信息-即圖像信息,使用循環(huán)神經網絡處理時間序列-即標定語句信息,進而將兩者進行有機結合,達到更好的理解效果。

      以此為基礎設計該融合門網絡結構,融合門網絡結構的框架如圖3所示。

      圖3 “融合門”網絡結構框架Fig.3 Architecture of“fusion gate”network

      在網絡結構的實現(xiàn)過程中,首先將輸入圖像通過VGGNet-16網絡進行卷積,得到對應的4096維輸出向量,然后將輸出向量與標注語句結合作為LSTM網絡的輸入,經過LSTM的t0時間步產生隱藏層輸出,將該輸出再與卷積網絡的全連接層一起,在后續(xù)的時間步重新進入LSTM網絡,并進入下一次循環(huán),即t1時間步,如此循環(huán)直至迭代結束,上述步驟的描述如圖3所示。

      3.2 網絡結構內部設計

      對于一段真實的句子,在預測不同物體的詞語或者動詞時使用圖像信息可以使預測的結果更準確;而在預測“a”,“of”和“at”等介詞則不需要使用圖像信息,這類詞的預測只需要利用上文的語義信息即可完成,這樣就需要模型既可以充分利用圖像特征信息,又可以對不同屬性的詞加以區(qū)分。為使模型可以更智能的使用圖像特征信息,參考了文獻[7]的思想,本文重新設計的“融合門”網絡結構內部組成如圖4所示。

      圖4 “融合門“網絡內部設計Fig.4 Internal parameters of“fusion gate”

      圖4中,黑方塊表示單個時間步的延遲,利用這種方式得到的自適應的上下文向量,能夠更好的組織推導關系,并且推斷獲取當前預測詞后最需要的信息還有哪些。同時本文的模型僅使用圖像的全局特征信息,這樣可以大大減少網絡的參數(shù),使模型的復雜度降低,減少計算開銷。

      針對圖像理解任務,該模型增加了用于控制如何使用全局圖像信息的監(jiān)聽門p t。若p t的參數(shù)值為1,則表示需要根據(jù)當前的情況自行判斷對圖像全局特征信息的使用比例,p t的表達式如式(8)所示:

      該模型利用文獻[7]中的思想,使用當前時刻的隱藏狀態(tài)信息,將其分別與全局的圖像向量和受監(jiān)聽門控制的語義向量進行結合,為得到兩者各自占的比例α?t,使用softmax函數(shù),將比例限定在[0,1]范圍。α?t的表達式如下:

      該模型在預測當前時刻的詞的概率時最終使用的上下文向量h′t的計算公式如下:

      上述公式作為當前時刻t的隱藏層輸出,作為下一時刻的隱藏層輸入,利用上述算法特點,達到空間圖像信息與句子的時間信息相互結合的特點,將二者信息融合,因此該結構以“融合門”命名。

      4 實驗與結果

      MSCOCO 2014數(shù)據(jù)集[25]是目標檢測和圖像理解算法使用的通用數(shù)據(jù)集,該數(shù)據(jù)集包含80000多張訓練數(shù)據(jù)集和40000多張驗證/測試數(shù)據(jù)集。其中,數(shù)據(jù)集的每一幅圖像大多是尺寸為256×256的彩色圖像,并且每一幅圖像都對應5句長短不一的英文圖像描述。在對算法模型效果的驗證與評估中,本文主要使用coco-caption代碼[28]計算5種不同的評價指標,他們分別是BLEU 1-4指標[29],ROUGE指標[30],METEOR指標[31],SPICE指標[32]和CIDEr評價指標[33]。

      4.1 樣本數(shù)據(jù)的預處理

      本文算法對輸入的數(shù)據(jù)集有格式上的統(tǒng)一需求,因此在模型訓練之前,需要根據(jù)情況對數(shù)據(jù)進行預處理,預處理主要分為三部分。

      第一部分是對數(shù)據(jù)集順序的預處理。采用隨機分割的方式,將MSCOCO 2014的訓練和驗證數(shù)據(jù)集打亂,從中隨機選取5000張圖像用于驗證,5000張圖像用于測試,其余圖像用于訓練模型。

      第二部分是對輸入圖像尺寸的預處理。由于選擇了VGGNet-16[26]網絡作為模型的編碼端,所以需要將輸入的圖像尺寸調整為VGGNet-16網絡所規(guī)定輸入的尺寸,即224×224。

      第三部分是對圖像理解描述數(shù)據(jù)的預處理。首先獲取所有圖像理解數(shù)據(jù)中最長序列的長度,然后使用填充符將不足該長度的其余序列填充至最長序列的長度,最后保留在訓練集中出現(xiàn)5次及以上的單詞,并將訓練集中出現(xiàn)5次以下的單詞統(tǒng)一置為“未知詞”,說明這些詞使用太少,不具有參考價值。

      4.2 模型訓練與結果的評估方法

      在實驗中,采用了不同配置的服務器驗證不同階段的算法效果。在圖像理解的驗證/測試階段,使用配置最低的NVIDIA Quadro P620 GPU服務器測試不同算法的預測效果,其目的是確定網絡實際運行所需的最小計算機配置;而在數(shù)據(jù)集的訓練和評估階段,使用性能更好的NVIDIA Titan X GPU服務器。實驗中我們嘗試了多種網絡的改進方法,盡管多數(shù)方案的評估效果不理想,但是在多次嘗試中我們逐漸找到更好的方向,對圖像理解的網絡結構和算法有了更深入的理解。

      網絡訓練中,針對該“融合門”網絡模型,設置了10萬次迭代,總訓練時間約87個小時。設置每次迭代讀取圖像的批量大小為64,使用學習率為4e-4的Adam[26]優(yōu)化算法來對模型進行訓練,同時在模型中適當?shù)奶砑觼G棄層(Dropout Layer)來避免模型出現(xiàn)過擬合的現(xiàn)象。為避免卷積神經網絡對模型的影響,在所有實驗中未對其網絡參數(shù)進行微調。在模型訓練的過程中,每迭代200次時記錄一次訓練損失,每迭代10000次時使用3200張驗證圖像對模型進行一次驗證與評估,獲得平均結果,在迭代10萬次后停止訓練該模型,模型訓練過程中的損失曲線如圖5所示。

      圖5 模型訓練損失曲線Fig.5 Loss curve of model training

      在各個評估指標中,BLEU關注精確率,它是一種通過對比預測序列中的n元組在真實標簽中出現(xiàn)的次數(shù)來分析文本相似性的一種評價指標;ROUGE關注召回率,它是一種通過對比真實標簽中的n元組未出現(xiàn)在預測序列中的次數(shù)來分析文本相似性的一種評價指標;METEOR是綜合考慮召回率和精確率的一種評價指標;SPICE使用Probabilistic Con?text-Free Grammar(PCFG)將預測的序列和真實的標簽編碼成一種語義依賴樹,并通過一定的規(guī)則將其進行映射,利用這種方式來獲取評價分數(shù)。

      CIDEr采用TF-IDF和余弦相似度結合的方式來預測描述與參考句子的相似性,該指標最適宜于評價句子描述的好壞,因此對該指標的結果最關注。模型訓練時各項評價指標的變化曲線如圖6~圖7所示。

      圖6 融合門網絡前四項評價指標變化曲線Fig.6 Curve of the first 4 indexes of“fusion gate”

      圖7 融合門網絡后四項評價指標變化曲線Fig.7 Curve of the last 4 indexes of“fusion gate”

      4.3 實驗對比結果與分析

      在網絡訓練過程中,使用了配置為NVIDIA Titan X GPU的服務器,對設計的“融合門”網絡進行訓練,訓練耗時約87 h,網絡迭代10萬次。在訓練結束后,通過觀察和比較發(fā)現(xiàn)9萬次迭代時生成的權重模型相較于10萬次而言更好一些。從參考文獻[3],[7]提供的程序和我們自己程序的運行結果上看,訓練次數(shù)超過10萬次以后,網絡評價指標改善的幅度極其有限,10萬次的訓練次數(shù)已經足夠體現(xiàn)不同算法的差異水平,因此以10萬次訓練作為本次實驗結束條件。

      本文選用的損失函數(shù)為交叉熵損失函數(shù),優(yōu)化算法使用的是Adam算法,該算法在圖像理解中廣泛使用[25],但是該優(yōu)化算法不是全局最優(yōu)算法,該算法經過迭代后只會獲取區(qū)間最優(yōu)解,本文采用該算法在10萬次迭代范圍內進行評估,根據(jù)損失和評價指標選出最理想的一組值,該組值在9萬次附近得到,故而選用9萬次迭代生成的權重來對實驗結果進行評估報告。

      在模型結果的測試和評估中,選擇了目前比較典型的三個網絡模型進行對比,分別是Google NIC網絡[4],Neural Talk網絡[3],和注意力機 制 模 型Attention model[7],選 用 上 述 網 絡 的 原因還因為上述論文都提供了相應的運行代碼,通過他們自帶的代碼運行更能保證評估結果的真實性,并且在編碼器端都采用VGGNet-16卷積神經網絡,在此條件下對比解碼部分的效果,評價更加準確。

      測試過程中使用3200張測試集中的圖像作為輸入,并設置每次迭代讀取一幅圖像,以此獲得的評估結果,結果的指標如表1和表2所示。

      表1 實驗的前四項數(shù)據(jù)Tab.1 The first 4 index results of experiment

      表2 實驗的后兩項數(shù)據(jù)Tab.2 The last 2 index results of experiment

      從上述結果中可以看到,設計的模型CIDEr值為73.8,Neural Talk[3]的CIDEr值為66.0,提高幅度達到10.56%,即(73.8-66.0)/73.8×100%=10.56%,而Attention model模型CIDEr值為46.5,指標提高幅度為36.91%,即(73.8-46.50)/73.8×100%=36.91%,根 據(jù) 上 述結 果可以得出,本文設計的模型預測效果有明顯提高。最后實驗選取了4張COCO數(shù)據(jù)集中的圖像和2張非COCO數(shù)據(jù)集中的圖像進行預測。預測效果圖分別為圖8~圖13,從獲得的標注結果看,標注語句的描述和圖像內容契合度較好。

      圖8 預測結果ⅠFig.8 prediction results I

      圖13 預測結果ⅥFig.13 prediction resultsⅥ

      本文設計的網絡模型,其網絡參數(shù)個數(shù)為13,747,553,注意力機制網絡模型參數(shù)個數(shù)為17,684,320,相對于注意力機制網絡,我們的“融合門”網絡的網絡參數(shù)數(shù)量減少幅度為21.1%,即(17,684,320-13,747,553)/17,684,320×100%=22.1%。

      圖9 預測結果ⅡFig.9 prediction results II

      圖10 預測結果ⅢFig.10 prediction resultsⅢ

      圖11 預測結果ⅣFig.11 prediction resultsⅣ

      圖12 預測結果ⅤFig.12 prediction resultsⅤ

      上述實驗結果表明,所設計的“融合門”網絡模型使用更簡單的網絡結構取得了更好的預測效果。

      5 結論

      為了獲取得更好的圖像理解效果并將圖像理解的研究成果應用于實際需求,設計了基于“融合門”結構的深度神經網絡算法模型。該模型以編碼器-解碼器結構為框架,編碼部分以VGGNet-16網絡為基礎進行卷積,解碼部分采用重新設計的循環(huán)神經網絡模型進行推導,兩者結合構成“融合門”網絡結構。該“融合門”是圖像空間信息和語句的時間信息的融合,設計思想符合圖像、語言一體化的結構特點。

      在配置NVIDIA Titan X GPU的服務器上,使用MSCOCO 2014數(shù)據(jù)集中的80000多張訓練數(shù)據(jù)集和40000多張驗證數(shù)據(jù)集上進行驗證,運行約87 h完成10萬次迭代訓練,最終獲得實驗結果。

      結果表明,設計的“融合門”網絡結構不但預測指標高,而且網絡結構簡單,硬件實現(xiàn)需求低。在采用同樣的前端卷積網絡VGGNet-16情況下,網絡比注意力機制[7]網絡的CIDEr評價指標數(shù)值高出21.2%,網絡參數(shù)減少22.1%,所有圖像預測的推導時間都在0.5 s以內,實時性良好。實驗結果證明,該模型使圖像理解的預測質量得到了提升,并且有效降低了硬件需求,該結果對于圖像理解研究成果在邊緣計算領域應用和實際的推廣起到重要作用。

      猜你喜歡
      網絡結構注意力神經網絡
      讓注意力“飛”回來
      神經網絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      基于神經網絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      基于互信息的貝葉斯網絡結構學習
      知識網絡結構維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
      滬港通下A+ H股票網絡結構演化的實證分析
      復雜網絡結構比對算法研究進展
      復數(shù)神經網絡在基于WiFi的室內LBS應用
      墨竹工卡县| 县级市| 长葛市| 河南省| 衡水市| 沭阳县| 阳信县| 南皮县| 德州市| 平阳县| 安阳市| 读书| 城市| 湾仔区| 晴隆县| 革吉县| 若羌县| 隆德县| 屯门区| 肇庆市| 循化| 浦东新区| 高安市| 甘南县| 旅游| 夏津县| 屏东市| 昌宁县| 沅江市| 新津县| 诸城市| 遂昌县| 德令哈市| 成都市| 平泉县| 金堂县| 寿阳县| 蒲江县| 兴安盟| 中山市| 吉水县|