李 航,于家祥,殷守林,孫 可
(沈陽師范大學(xué) 軟件學(xué)院,沈陽 110034)
人體行為識別技術(shù)一直是計算機(jī)視覺領(lǐng)域中被廣泛研究的課題。在現(xiàn)有的方法中,描述對象特征值的方法大概分為4類:基于運(yùn)動的方法,基于表征的方法,基于時空體積的方法和基于時空興趣點(diǎn)的方法。行為識別方法主要基于機(jī)器學(xué)習(xí)技術(shù),包括KNN、支持向量機(jī)(SVM)、Boosting分類、隱馬爾可夫模型[1-2]。顧澤凌等[3]提出了一種用于行為表示的特征集,使用特征集建模行為作為基于示例的空間中從示例到行為圖像的最小距離集。利用模糊邏輯對人體運(yùn)動軌跡進(jìn)行分析,以識別人體的行為,進(jìn)行異常事件檢測。董恩康等[4]使用離散HMM[5-6]識別3名受試者中6種不同網(wǎng)球擊球的圖像序列。張敬轅等[7]提出了一種基于HMM的模型特征集動作識別方法。然而,由于動態(tài)場景的復(fù)雜度和不確定性等復(fù)雜環(huán)境場景,如背景、遮擋、運(yùn)動物體姿態(tài)和大小的變化,使得行為識別仍然是一個挑戰(zhàn)性的問題。
本文通過用戶的動作和手勢來理解用戶,從而為用戶提供所需服務(wù)。在最大化的提高用戶便捷的同時,對資源的消耗也大大降低。為了實現(xiàn)自動提取行為,有必要使用一些方法來自動識別用戶行為,滿足目標(biāo)需求。提出了利用模糊算法從視頻序列中識別人類行為的方法,并在此基礎(chǔ)上提出了一個能有效識別輸入圖像序列中的基本行為類型的方法,如手寫、行走和奔跑。這種算法能夠檢測人機(jī)交互中手勢和動作,視頻監(jiān)控中的異常事件,分析智能空間中的重要事件等。該算法對現(xiàn)實問題中的不確定性具有很強(qiáng)的解決能力。算法中定義了模糊規(guī)則,目的是能夠更好的識別特征。實現(xiàn)模糊算法的方法是創(chuàng)造一個模糊C均值(FCM)聚類方法。最終結(jié)果在Weizmann公共數(shù)據(jù)集[8]上進(jìn)行了驗證,實驗結(jié)果達(dá)到了94.03%的平均識別準(zhǔn)確率,其性能優(yōu)于基于隱馬爾可夫模型等傳統(tǒng)方法及最新提出的方法。
現(xiàn)實環(huán)境下的行為識別具有挑戰(zhàn)性,因為存在行為、動作及目標(biāo)位置、方向和速度的不確定因素等,即使是代表相同動作類的不同主體的行為特征也具有多樣性。同時,同一動作類別的多個實例對象的行為并不是唯一的。因此,行為特征主體間的差異很大,導(dǎo)致了行為識別的不確定性和模糊性。
傳統(tǒng)方法結(jié)合了計算機(jī)視覺和模糊邏輯來識別提取視頻中的動作行為。在這一領(lǐng)域,模糊邏輯已經(jīng)成為識別人類行為和處理不確定性的有力工具。Chang等[9]提出了一種基于模糊規(guī)則的電子健康人類活動識別算法,該算法的準(zhǔn)確率約為90%。屈娟等[10]提出了基于模糊邏輯的日常生活識別算法的人類活動,分析結(jié)果具有魯棒性。在岳菊梅[11]的工作中,提出了一個交互的計算機(jī)圖形學(xué)方法,其中包含了一組模糊邏輯分析工具和一個模糊推理模型。利用模糊邏輯方法來識別學(xué)生的行為,以評估在控制課程實驗室的表現(xiàn)。這些方法大多利用復(fù)雜的特征重構(gòu)來增加模糊邏輯的復(fù)雜性。該方法利用模糊邏輯和簡化的特征模型,實現(xiàn)了對人的行為的特征表述,并在識別速度上取得了較好的效果。
圖1為所提出算法的識別模型,分為3個步驟:1)在訓(xùn)練過程中,利用模糊邏輯方法檢測并提取人體輪廓。然后,從提取的輪廓中,對模型的特征集進(jìn)行計算,并對基于模糊邏輯的識別方法對輸入特征向量來進(jìn)行描述。然后通過聚類分析得到模糊系統(tǒng)輸入的模糊隸屬度函數(shù)。2)在測試階段,首先對人體檢測,然后跟蹤人體提取輪廓圖像,根據(jù)輪廓圖像計算輸入形狀特征,并將其用于基于模糊識別系統(tǒng)的計算值。3)在提出的模糊系統(tǒng)中,每個隸屬函數(shù)對應(yīng)一個行為模型,每個輸出度表示當(dāng)前框架中的行為與知識庫中訓(xùn)練的行為模型之間的可能性。然后,對當(dāng)前幀中的行為分類,并通過選擇具有高不可預(yù)測度的條件模型進(jìn)行識別。
圖1 提出的人體行為識別模型Fig.1 Proposed human action recognition model
為了獲得輪廓分割,李莉等[12]提出了高斯混合模型(GMM)來提取前景圖像。然而,簡單地將GMM前景視為現(xiàn)實環(huán)境中的人體輪廓是不合理的,因為它需要考慮各種因素,包括光線條件、反射、陰影問題。為了解決這些問題,楊志勇等[13]提出了一種新型模糊邏輯算法。該方法能夠在一定程度上處理上述不確定性;但是,由于分類錯誤,可能會導(dǎo)致提取的輪廓有差異。所以,本文提出的行為檢測方法能夠處理現(xiàn)實動態(tài)環(huán)境中存在的高不確定性問題,同時能有效地提取人體輪廓。通過使用提出的方法,行為識別的平均準(zhǔn)確度提高到99.94%,平均錯誤分類率降低了5.71%。
本文提出的方法是基于運(yùn)動速度和外觀形狀在內(nèi)的多特征模型,具有低計算復(fù)雜度的高效特征集。提取的輪廓圖像如圖2所示,根據(jù)以重心{X(t),Y(t)}為中心的極坐標(biāo)劃分。
圖2 提取的輪廓及切片表示圖Fig.2 Expracted silhouette and slice representation diagram
假設(shè)正在處理第t幀,而第t幀的人體輪廓圖像是由本文基于模糊邏輯算法提取的。利用模糊邏輯算法對人體行為進(jìn)行分類,首先需將輸入的多個偏振參量進(jìn)行模糊化處理,把原始的輸入數(shù)據(jù)以隸屬度形式轉(zhuǎn)化為模糊基,對于某一個確定的輸入數(shù)據(jù)可以屬于不同的模糊基,不同的模糊基中也對應(yīng)著不同的隸屬度,在模糊化的過程中最重要的環(huán)節(jié)則為隸屬度函數(shù)的選取。通過大量的對比實驗,隸屬度函數(shù)可以取得人體行為中最佳的識別效果,其表達(dá)式為
(1)
圖3 隸屬度函數(shù)圖Fig.3 Membership function graph
式中:X為輸入變量;X1為T型隸屬度函數(shù)的左起始點(diǎn)值;X2、X3分別為函數(shù)區(qū)間的左右拐點(diǎn);X4為函數(shù)的右結(jié)束點(diǎn)。隸屬度函數(shù)如圖3所示。
(2)
在模糊系統(tǒng)中,測試項包括人體輪廓質(zhì)心在水平方向上的運(yùn)動速度(O1)和人體輪廓反轉(zhuǎn)方向上的運(yùn)動速度(O2)?;诖?可以描述人體輪廓的運(yùn)動速度。頭部輪廓的面積比(O3)是整個人體輪廓像素計數(shù)中頭部輪廓像素計數(shù)的百分比,同樣,右手輪廓的面積比(O4)、右腿輪廓的面積比(O5)、左手輪廓的面積比(O6)、左腿輪廓的面積比(O7)。通過使用上述變量,般的運(yùn)動特性。此外,使用該7維特征集的復(fù)雜性低到足以構(gòu)造計算效率高的模糊邏輯系統(tǒng),從而獲得合理的識別精度。這7維特征集都由4個模糊集表示,分別是非常低、低、中和高。模糊系統(tǒng)的輸出是由高、低2個模糊集表示的行為可能性。通過FCM聚類得到如圖4所示的模糊隸屬度函數(shù)(MF)。假設(shè),當(dāng)測量{O1…O7}函數(shù)的時候,從輪廓圖像上可以看出可能的行為特征(跑步、散步、原地跳躍、跳起、向前跳躍、橫沖直撞、揮舞雙手、跳躍、彎曲、舉手)。測量和行為之間的映射是通過模糊規(guī)則實現(xiàn)的。在算法中規(guī)則大小為191。
可以有效地模擬一般目標(biāo)的移動信息和一
每個行為類使用相同的模糊隸屬度函數(shù)(MF)如圖4所示。在函數(shù)中,使用乘積t-范數(shù)來表示AND邏輯連結(jié)和蘊(yùn)涵運(yùn)算。行為識別是通過選擇具有最高識別強(qiáng)度的最佳候選行為類別作為識別的行為類型來完成的。然而,如果2個不同的候選行為類具有相同的輸出度,則意味著這2個候選行為類具有顯著的高行為相似性,并且在當(dāng)前幀中無法有效地區(qū)分。將邏輯規(guī)則對輸入數(shù)據(jù)所對應(yīng)的的類型進(jìn)行判斷,該規(guī)則的邏輯語言描述為:
(3)
其中,j=1,2,…,10,Wij為第j類行為的識別度,MBfij(Xi)為特征參數(shù)Xi對應(yīng)第j類粒子的隸屬度值。
本文在Weizmann人類行為數(shù)據(jù)集[14]進(jìn)行實驗。仿真環(huán)境為:Windows 10,Intel Core i7-10750H,Nvidia GeForce,RAM 16GB、Matlab2017a。Weizmann動作數(shù)據(jù)集包括5 687幀和10種不同類型的行為類別:跑步、走路、雙腿原地跳躍、向前跳躍、彎曲、旋轉(zhuǎn)跳躍、側(cè)向跳躍、舉手等。此數(shù)據(jù)集中的視頻序列是用固定攝像機(jī)在簡單背景環(huán)境下拍攝的。但是,當(dāng)行為類別的數(shù)量較大時,它提供了一個很好的實驗環(huán)境來研究所提方法的識別精度。
圖5 Weizmann數(shù)據(jù)集Fig.5 Weizmann dataset
在9個不同的人身上,每種行為類型分別拍攝一次或幾次,總共產(chǎn)生93個視頻序列。采用了交叉驗證方法。在測試階段,對提出的模型進(jìn)行逐幀和逐視頻識別評估。具體來說,逐幀識別是指對每一幀執(zhí)行提出的識別算法,然后獲得每一幀的識別結(jié)果,而逐幀識別是指對整個視頻序列實現(xiàn)全局識別結(jié)果。
表1顯示了使用基于模糊的方法對Weizmann上的行為類進(jìn)行每幀識別的平均精度的混淆矩陣??梢钥吹?所提出的算法以較高的平均準(zhǔn)確率正確地識別了大多數(shù)動作,包括了最具挑戰(zhàn)性的行為類別之一——“原地跳”。其識別率為99.94%,24.35%的誤分類率是由于行為的相似性造成的。
表1 Weizmann人體動作數(shù)據(jù)集每幀平均精度的混淆矩陣Table 1 Confusion matrix of average precision per frame in Weizmann human motion data set
表2顯示,在Weizmann數(shù)據(jù)集上,所提出的算法優(yōu)于其他最新方法。與基于特征融合、基于多視圖、基于高階注意力、基于非合作式的算法相比,本文提出的方法的平均每幀準(zhǔn)確率分別提高了8.85%、4.96%、3.74%、1.4%。每個視頻識別性能比這4種方法分別提高了12.0%、8.3%、2.43%和0.84%。因此,實驗結(jié)果表明,本文基于模糊規(guī)則的行為識別具有較好的結(jié)果。
表2 Weizmann數(shù)據(jù)集上與傳統(tǒng)非模糊方法的識別精度比較Table 2 Comparison of recognition accuracy with different methods
本文提出了一個高效的模糊邏輯算法用來識別人體行為。使用基于模糊邏輯規(guī)則,從輸入的視頻序列和提取的人體輪廓中提取輪廓圖像。然后,根據(jù)提取的特征計算輸入特征。最后,利用所提出的模糊識別方法,基于輸入特征集對人的行為進(jìn)行識別。在Weizmann人類行為數(shù)據(jù)集上進(jìn)行了測試,與傳統(tǒng)方法相比,本文提出的方法有效提高了識別效率。