李福進 杜建 任紅格 史濤
摘 ?要: 針對Itti視覺選擇性注意模型不具有子特征圖顯著圖歸一化過程中權值隨任務改變而改變的問題,借鑒自主發(fā)育在視覺選擇性注意學習的研究成果,提出一種權值可發(fā)育視覺選擇性注意模型作為圖像特征提取的學習機制。該算法采用三層自組織神經網(wǎng)絡和Itti視覺選擇性注意模型相結合的決策進行尋優(yōu),通過對模型的訓練學習獲取最優(yōu)權值更新。這樣既可以保證在初期特征提取內容的完整性,又降低了系統(tǒng)對不同任務條件的約束性,提高了模型特征提取能力。利用權值可發(fā)育視覺選擇性注意模型對圖像進行感興趣區(qū)域特征提取實驗,結果表明,該方法能夠提高特征提取準確性、減少運算時間,獲得了良好的動態(tài)性能。
關鍵詞: Itti視覺選擇性注意模型; 權值可發(fā)育; 自主發(fā)育; 特征提取; 顯著圖; 模型訓練
中圖分類號: TN911.73?34; TP391.4 ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2018)10?0183?04
Abstract: In the Itti visual selective attention model, the weight does not change as the task changes during the saliency map normalization of child feature map. Therefore, a visual selective attention model with weight development is proposed to be the learning mechanism of image feature extraction by learning from the research achievements of autonomous development in visual selective attention learning. In the algorithm, the strategy of combining three?layer self?organized neural network with Itti visual selective attention model is used for optimization. The optimal weight update is obtained by training and learning of the model, which can not only guarantee the completeness of the initial feature extraction content, but also reduce the constraint of the system on different task conditions, and improve the feature extraction capability of the model. An interested?area feature extraction experiment was carried out for images by using the visual selective attention model with weight development. The results show that the proposed method can improve the accuracy of feature extraction, reduce the computation time, and obtain a good dynamic performance.
Keywords: Itti visual selective attention model; weight development; autonomous development; feature extraction; saliency map; model training
視覺選擇性注意(Visual Selective Attention)機制[1]是一種視覺感知機能,它是靈長目類動物長期進化的結果。研究表明,人類在感知外界信息信號過程中大約有75%的信息來源于視覺,在面對海量的感知信息時,為確保大腦處理信息的效率,視覺系統(tǒng)會選擇感知信息中的一個子集做優(yōu)先處理。在認知心理學中,這種選擇有限信息進行優(yōu)先處理的機制稱為視覺選擇性注意機制?;诖?,研究者們根據(jù)心理學、生理學、認知科學的相關實驗結果,模擬出一系列視覺選擇性注意模型,1998年Itti和Koch提出顯著性模型[1?2](Itti模型),該模型是以特征整合理論為基礎,利用高斯金字塔生成多尺度圖像,對圖像濾波提取顏色、亮度、方向特征,后由中心周邊差得到三種特征的子顯著圖(Saliency Map),通過子顯著圖歸一化生成總的顯著圖,并采用贏者求全機制和返回抑制機制控制視覺注意焦點的轉移,該模型是最為經典的可計算視覺注意模型之一。2007年Taatgen提出基于SR的顯著性模型[3],計算空域下的顯著圖,分析圖像對數(shù)頻譜抽取圖像剩余殘譜。其特點是計算速度快,但是模型在邊緣信息處理方面表現(xiàn)效果一般。2009年Judd提出一種自頂向下[4?6]的注意模型,該模型具有一定的仿生特性,訓練過程采用眼動數(shù)據(jù),針對特定目標訓練模型計算過程耗時略長。2016年王鳳嬌提出了一種視覺注意分類模型(CMVA)[7],該模型是在基于眼動數(shù)據(jù)的基礎上搭建而成,以預測視覺顯著性,與其他現(xiàn)有幾種視覺選擇性注意模型的比較,特征顯著點選擇效果比較好,但要求的初始條件約束比較多,計算量很大。
近些年,隨著仿生學在視覺感知領域的深入發(fā)展,越來越多的仿生模型[8?9]出現(xiàn),也使得自主發(fā)育[10]成為視覺選擇性注意研究領域的熱點。本文針對Itti模型在子特征顯著圖歸一化過程中權值不能隨自上而下的任務而自動調整問題,提出了一種權值可發(fā)育的視覺選擇性注意模型(權值可發(fā)育Itti模型)。采用三層自組織發(fā)育神經網(wǎng)絡[11]與Itti模型結合發(fā)育學習,其中發(fā)育學習由感知端[X]、腦分析端[Y]和效應端[Z]組成,來模仿人類大腦。通過發(fā)育學習訓練對網(wǎng)絡中神經元權值進行更新,由神經元的更新實現(xiàn)Itti模型的底層特征圖提取的準確性和快速性,發(fā)育學習后將學習結果存儲在神經元中,來實現(xiàn)對新知識的學習和理解。仿真結果表明,這種權值可發(fā)育Itti模型在特征提取上更符合靈長目類的視覺感知特性,表現(xiàn)了該模型的權值自主學習的動態(tài)變化特性,并生動地模擬了圖像中感興趣區(qū)域的特征提取過程。
可計算Itti模型是由Itti提出的視覺選擇性注意模型,也是目前最具影響力的一種數(shù)據(jù)驅動型模型,主要根據(jù)所尋目標與周圍環(huán)境之間的差異,提取圖像中感興趣區(qū)域。
本文采用Weng提出的自主發(fā)育神經網(wǎng)絡[12],由[X,Y,Z]三層組成。其中[X]為感知輸入層,[Y]為腦分析層,[Z]為輸出端。發(fā)育網(wǎng)絡一般模型如圖1所示,[X]與[Y]、[Y]與[Z]之間均可雙向傳遞信息,[X]作為輸入端感知外界信息,[Y]收集來自[X]的信息并傳遞給[Z]。設計者并沒有事先知道智能體將來要學習的任務,設計者只是設計一些自主學習規(guī)則。因此,發(fā)育學習程序是任務非特定性的,其核心思想是,在不同的環(huán)境下,智能體(具備感知,處理和行動的物體)通過它的感知端[X]和效應端[Z]與外部環(huán)境和內部大腦交互,自我構建腦中的連接,來適應不同的外部環(huán)境。
3.1 ?權值可發(fā)育Itti模型結構
由于Itti視覺選擇性注意模型在感興趣區(qū)域特征提取上并無主動學習能力,而只是通過環(huán)境自底向上地做出選擇,因此不能做出準確的特征提取。而靈長目類視覺系統(tǒng)具有學習、理解特性,能將自下而上的數(shù)據(jù)和大腦分析相交互處理,通過發(fā)育學習,在視覺選擇性注意上遠遠超出簡單的自下而上型注意機制功能,權值可發(fā)育Itti模型如圖2所示。
感知輸入端[X]接受環(huán)境傳入信號傳送至腦分析端[Y],[Y]端傳出信息調整效應端[Z],信息可向反饋調整后權值結果。整個過程都使權值的調整處于一個可控范圍,并隨前端任務動態(tài)調整。
3.2 ?發(fā)育網(wǎng)絡算法
通過發(fā)育神經網(wǎng)絡模型簡單模仿人類大腦。使感知端[X]與效應端[Z]通過大腦分析建立連接,以適應感知端輸入圖像的變化。同時,[Y]端理解并存儲所學“知識”,以神經元的形式存儲記憶,整個過程類似大腦發(fā)現(xiàn)?思考?記憶?注意過程。用神經元的激活、抑制來實現(xiàn)Itti模型的底層特征圖提取過程中權值的分配,發(fā)育算法如下:
式中,[k=1],所以只有惟一獲勝的神經元被激活,其余的神經元則被抑制。在發(fā)育學習階段,被激活后的神經元更新相應的突觸權重,三層神經元之間相聯(lián)系的向量便可得到更新。這是一種增量式學習過程,每當環(huán)境產生變化時,不需要更新所有神經元權值,僅做由于新增數(shù)據(jù)所引起的更新,是符合人類視覺的學習過程。
為了檢驗本文所提方法的可靠性,將Itti模型算法與本文算法分別在實驗室所提供上位機(Intel[?] CoreTM?i5?2430M CPU@2.4 GHz,RAM4.00 GB,Windows 7)和Matlab 2012b編程環(huán)境下實現(xiàn)仿真處理。圖像選自Caltech?101數(shù)據(jù)庫圖像,從中選取三幅圖像,圖3a)為所選取的汽車、鶴和花的原圖,圖3b)為Itti模型算法仿真所得結果圖,圖3c)為本文所提的權值可發(fā)育Itti模型算法所得結果。三幅Itti模型算法仿真結果圖都注意到了感興趣區(qū)域,基本上能識別出目標的大體輪廓,但注意目標的細節(jié)信息還是被復雜地背景模糊掉了。權值可發(fā)育Itti模型算法結果圖能注意到最顯著區(qū)域,對于復雜背景下的目標對象識別效果還是比較優(yōu)秀的,在背景簡單的目標上表現(xiàn)更出色,如圖3c)中的鶴和花相比Itti模型算法所得結果具有非常好的顯著性。
仿真時間對比如表1所示。
由表1可以看出,Itti模型算法仿真計算耗時較多,本文所提出的權值可發(fā)育Itti模型算法在時間上占有明顯優(yōu)勢。
為了改善Itti視覺選擇性注意模型中存在的特征提取不精確、無自主選擇性、耗時較多等缺點,提出一種權值可發(fā)育的視覺選擇性注意模型。通過訓練三層自組織發(fā)育網(wǎng)絡來對注意模型進行發(fā)育學習,有效地降低了模型對不同任務的條件約束性,提高了模型特征提取能力和自主學習能力,改善了Itti模型無自主選擇性、耗時多等缺點。
通過仿真實驗證明,權值可發(fā)育Itti模型較傳統(tǒng)Itti模型有著良好的表現(xiàn),也符合靈長目類視覺感知機能,具有較高的理論研究和實踐價值,如何將方法應用到實際的問題中將成為下一步的研究重點。
[1] ITTI L, KOCH C, NIEBUR E. A model of saliency?based visual attention for rapid scene analysis [J]. IEEE transactions on pattern analysis & machine intelligence, 1998, 20(11): 1254?1259.
[2] ITTI L, KOCH C. Computational modelling of visual attention [J]. Nature reviews neuroscience, 2001, 2(3): 194?203.
[3] NYAMSUREN E, TAATGEN N A. The synergy of top?down and bottom?up attention in complex task: going beyond saliency models [C]// Proceedings of the 35th Annual Conference of the Cognitive Science Society. Austin: Cognitive Science Society, 201: 3181?3186.
[4] JUDD T, EHINGER K, DURAND F, et al. Learning to predict where humans look [C]// Proceedings of 12th IEEE International Conference on Computer Vision. Kyoto: IEEE, 2009: 2106?2113.
[5] BORJI A. Boosting bottom?up and top?down visual features for saliency estimation [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 438?445.
[6] ZHAO Q, KOCH C. Learning a saliency map using fixated locations in natural scenes [J]. Journal of vision, 2011, 11(3): 74?76.
[7] 王鳳嬌,田媚,黃雅平,等.基于眼動數(shù)據(jù)的分類視覺注意模型[J].計算機科學,2016,43(1):85?88.
WANG Fengjiao, TIAN Mei, HUANG Yaping, et al. Classification model of visual attention based on eye movement data [J]. Computer science, 2016, 43(1): 85?88.
[8] ALM?SSY N, EDELMAN G M, SPORNS O. Behavioral constraints in the development of neuronal properties: a cortical model embedded in a real?world device [J]. Cerebral cortex, 1998, 8(4): 346?361.
[9] BERRIDGE K C. Motivation concepts in behavioral neuroscience [J]. Physiology & behavior, 2004, 81(2): 179?209.
[10] WENG J. Three theorems: brain?like networks logically reason and optimally generalize [C]// Proceedings of International Joint Conference on Neural Networks. San Jose: IEEE, 2011: 2983?2990.
[11] LUCIW M, WENG J. Where?what network 3: developmental top?down attention for multiple foregrounds and complex backgrounds [C]// Proceedings of International Joint Conference on Neural Networks. Barcelona: IEEE, 2010: 1?8.
[12] WENG J, LUCIW M. Brain?like emergent spatial processing [J]. IEEE transactions on autonomous mental development, 2012, 4(2): 161?185.