張永東 王建軍
摘 要 模式識(shí)別的首要工作任務(wù)是提取圖像特征。本文基于圖像矩陣相似度特征進(jìn)行體態(tài)識(shí)別。文中首先簡(jiǎn)要介紹人工神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)法,其次基于矩陣?yán)碚撎岢鰣D像矩陣相似度,最后利用人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練提取樣本圖像的矩陣相似度特征進(jìn)行體態(tài)識(shí)別。實(shí)驗(yàn)結(jié)果表明,利用人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練提取樣本圖像的矩陣相似度特征進(jìn)行體態(tài)識(shí)別能獲得較高的圖像中人體體態(tài)識(shí)別率。
關(guān)鍵詞 人工神經(jīng)網(wǎng)絡(luò) 矩陣相似度 圖像體態(tài)識(shí)別
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/j.cnki.kjdkx.2018.01.015
Body of Image Recognition Based on Matrix Similarity Using Neural Network
ZHANG Yongdong, WANG Jianjun
(College of Biomedical Engineering, South-Central University for Nationalities, Wuhan, Hubei 430074)
Abstract The primary task of pattern recognition is to extract the features of the image. The purpose of this paper is to achieve the posture recognition based on the matrix similarity feature of the image .The paper first introduces the machine learning method of artificial neural network, and then puts forward the matrix similarity of the image based on matrix theory. Finally, we use artificial neural network to extract the matrix similarity feature of sample image for posture recognition. The experimental results show that the recognition rate of the posture recognition is higher by using the matrix similarity feature of the artificial neural network to extract the sample image.
Keywords artificial neural network; matrix similarity; posture of image recognition
0 引言
特征提取是圖像模式識(shí)別的基礎(chǔ),在圖像模式識(shí)別實(shí)際應(yīng)用中,優(yōu)秀的機(jī)器學(xué)習(xí)算法配上良好的特征提取,是模式識(shí)別的關(guān)鍵。目前應(yīng)用較多的機(jī)器學(xué)習(xí)算法有PCA模型[1]理論、貝葉斯、[2]人工神經(jīng)網(wǎng)絡(luò)[3](Artificial Neural Networks)等;圖像特征有SIFT特征、[4]HOG特征、[5]Edgelet特征[6]等。經(jīng)過查閱相關(guān)文獻(xiàn),本文利用人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練提取樣本圖像的矩陣相似度特征進(jìn)行體態(tài)識(shí)別,實(shí)驗(yàn)結(jié)果表明本文方法能獲得較高識(shí)別率,具有重要的理論意義和實(shí)踐價(jià)值。
1人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)元[7]是構(gòu)成人工神經(jīng)網(wǎng)絡(luò)的最基本的單元,形象化地對(duì)生物神經(jīng)元進(jìn)行了描述,通過具體的數(shù)字及語言進(jìn)行表達(dá),模擬生物神經(jīng)元的功能、結(jié)構(gòu),并用模擬圖進(jìn)行表示。圖1是一種簡(jiǎn)化的人工神經(jīng)元結(jié)構(gòu)模型。它主要包括三個(gè)基本元素:連接權(quán)值、求和單元、激活函數(shù)。
圖1中,是神經(jīng)元的樣本輸入,是各樣本權(quán)值, 是求和函數(shù),是偏值,是激活函數(shù),是神經(jīng)元的輸出,則神經(jīng)元的整個(gè)輸入為:
計(jì)算過程中通過人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí),[8]利用S型激活函數(shù),對(duì)圖像二維坐標(biāo)軸進(jìn)行分類。
2 矩陣相似度特征
2.1 圖像矩陣相似度理論
在矩陣?yán)碚撝校O(shè)A、B為n階矩陣,如果存在n階可逆矩陣P,使得,則稱矩陣A與B相似。在圖像模式識(shí)別中,目標(biāo)對(duì)象的識(shí)別也可以用圖像矩陣相似理論。[9]
圖2中,橫軸是圖像像素點(diǎn)的相對(duì)位置,縱軸是像素點(diǎn)對(duì)應(yīng)的灰度值。當(dāng)兩張圖像的像素點(diǎn)及灰度值分布呈現(xiàn)同一個(gè)趨勢(shì)特征時(shí),即可認(rèn)為圖像矩陣相似。
2.2 圖像矩陣相似度特征提取
圖像矩陣相似度特征提取的主要思想是經(jīng)過圖像增強(qiáng)、濾波后,去除噪聲留下圖像中含有人體區(qū)域的邊緣輪廓,最后統(tǒng)計(jì)人體邊緣輪廓灰度特征值。本文圖像矩陣相似度特征提取的詳細(xì)步驟如下:
(1)采樣。使用像素關(guān)系重采樣,當(dāng)圖像訓(xùn)練樣本過大時(shí)進(jìn)行縮小,當(dāng)訓(xùn)練樣本過小時(shí)進(jìn)行放大,此步驟可以避免圖像出現(xiàn)波紋。在實(shí)驗(yàn)中可以更方便地對(duì)樣本進(jìn)行訓(xùn)練。
(2)濾波。圖像的主要特征信息都保存在像素邊緣的部分。如果直接統(tǒng)計(jì)圖像灰度值,在對(duì)圖像進(jìn)行邊緣檢測(cè)時(shí),噪聲會(huì)掩蓋像素邊緣的特征信息,因此必須采用濾波函數(shù)與圖像做卷積來改善邊緣檢測(cè)器的性能以及減少噪聲。通常的濾波器主要有高斯濾波器,[10]即將圖像與尺度為 的高斯函數(shù)做卷積。式(2)是以尺度 =5?大小的高斯內(nèi)核函數(shù)減少噪聲示例。
(3)增強(qiáng)。增強(qiáng)是指基于圖像中像素鄰域的梯度變化值,增強(qiáng)像素邊緣灰度值。增強(qiáng)的算法有很多種,在實(shí)驗(yàn)中主要是通過計(jì)算圖像的梯度方向和幅值。采用的是Sobel濾波器[11]的梯度幅值和方向的方法。將一組轉(zhuǎn)置的矩陣分別作用在圖像的水平方向和垂直方向。
其梯度幅值和方向分別為:
圖像經(jīng)過增強(qiáng)后,可以將圖像像素邊緣及鄰域灰度值有顯著變化的點(diǎn)凸顯出來。
(4)提取圖像矩陣相似度特征。經(jīng)過濾波、增強(qiáng)后的圖像還是會(huì)含有較多的噪聲以及那些圖像局部含有人體區(qū)域但又不影響識(shí)別過程的像素,為了去除這部分的像素,提高識(shí)別效率,本文對(duì)訓(xùn)練圖像采用邊緣檢測(cè)[12]處理。通過邊緣檢測(cè)后,舍棄較多的無用像素,將遺留下來的含有圖像特征的像素點(diǎn)保存在一個(gè)圖像特征矩陣中,形成圖像矩陣相似度特征。
3 實(shí)驗(yàn)和結(jié)果
在目前公開的數(shù)據(jù)集中,由于還沒有摔倒救助狀態(tài)數(shù)據(jù)集,本文從各個(gè)圖片數(shù)據(jù)庫和搜索引擎等途徑收集制作了總計(jì)400張求助樣本圖片。
收集的400張求助樣本數(shù)據(jù)集大多是方形,基于實(shí)驗(yàn)的需求,將其縮放為統(tǒng)一大小。本文中樣本數(shù)據(jù)集采用Pedestrian Data數(shù)據(jù)集。[13]為了與求助樣本統(tǒng)一,將樣本(如圖3)加上兩條黑邊(如圖4),以便于實(shí)驗(yàn)訓(xùn)練。
實(shí)驗(yàn)中將正常和求助訓(xùn)練樣本各自初始值設(shè)定為100張,每次迭代增量100張,經(jīng)過三次訓(xùn)練。將剩余的624張正常樣本和100張求助作為檢測(cè)樣本,實(shí)驗(yàn)正確識(shí)別率可達(dá)80%以上。為了進(jìn)一步驗(yàn)證本文利用神經(jīng)網(wǎng)絡(luò)基于矩陣相似度進(jìn)行體態(tài)識(shí)別方法的有效性,本文以Weizmann、[14]KTH、[15]Hollywood、[16]UIUC action dataset[17]四種數(shù)據(jù)庫中的行人直立行走的視頻部分作為實(shí)驗(yàn)對(duì)象,也獲得了較好的實(shí)驗(yàn)結(jié)果。圖5為Weizmann數(shù)據(jù)庫體態(tài)識(shí)別效果圖,圖6為四個(gè)數(shù)據(jù)庫中人體體態(tài)識(shí)別的正確率。
4 結(jié)語
本文依托VS2010平臺(tái),利用OpenCV函數(shù)庫,提出利用神經(jīng)網(wǎng)絡(luò)基于矩陣相似度對(duì)圖像中人體體態(tài)進(jìn)行識(shí)別的方法。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)圖像中人體正常站立和摔倒求助兩種狀態(tài)有較高的識(shí)別率,有重要研究價(jià)值。
參考文獻(xiàn)
[1] 蔣偉峰,劉濟(jì)林.基于PCA學(xué)習(xí)子空間算法的有限漢字識(shí)別[J].中國圖象圖形學(xué)報(bào),2001.6(2):186-190.
[2] 張劍飛.貝葉斯網(wǎng)絡(luò)學(xué)習(xí)方法和算法研究[D].東北師范大學(xué),2005.
[3] 肖曄.人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的研究[D].北方交通大學(xué) 北京交通大學(xué),1992.
[4] 肖健.SIFT特征匹配算法研究與改進(jìn)[D].重慶大學(xué),2012.
[5] 周柯.基于HOG特征的圖像人體檢測(cè)技術(shù)的研究與實(shí)現(xiàn)[D].華中科技大學(xué),2008.
[6] Sundararajan K.Unified point-edgelet feature tracking[J].Dissertations & Theses - Gradworks,2011.
[7] 韓力群.人工神經(jīng)網(wǎng)絡(luò)教程[M].北京:北京郵電大學(xué),2006
[8] 李永明.人工神經(jīng)網(wǎng)絡(luò)BP學(xué)習(xí)算法的研究及在人臉識(shí)別中的應(yīng)用[D].山東:山東大學(xué),2012.
[9] 高楠.傅俊英.趙蘊(yùn)華/基于兩種相似度矩陣的專利引文耦合方法識(shí)別研究前沿[J].現(xiàn)代圖書情報(bào)技術(shù),2016.3(2):41-50.
[10] 謝勤嵐.圖像降噪的自適應(yīng)高斯平滑濾波器[J].計(jì)算機(jī)工程與應(yīng)用,2009.8(16):32-46.
[11] 管鵬舉,王開民,曹曉梅.基于中值濾波及Sobel算子的圖像邊緣檢測(cè)技術(shù)研究[J].裝備制造技術(shù),2016(8):211-212.
[12] Zhou, P.,Ye, W.,& Wang, Q.An Improved Canny Algorithm for Edge Detection[J]. Journal of Computational Information Systems,2011.7(5):1516-152.
[13] Chin G K W, Niel K P V, Gilescorti B, et al. Accessibility and connectivity in physical activity studies: the impact of missing pedestrian data.[J]. Preventive Medicine, 2008, 46(1):41.
[14] Blank M, Gorelick L, Shechtman E, et al. Actions as Space-Time Shapes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007.29(12):2247-2253.
[15] Park S, Aggarwal J K. A hierarchical Bayesian network for event recognition of human actions and interactions[J]. Multimedia Systems, 2004.10(2):164-179.
[16] Marszalek M, Laptev I, Schmid C. Actions in context[C]// Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009:2929-2936.
[17] Du T, Sorokin A. Human Activity Recognition with Metric Learning[C]// European Conference on Computer Vision. Springer-Verlag,2008:548-561.