陳野,王哲龍,2,武東輝
1.大連理工大學控制科學與工程學院,遼寧大連116024
2.中國科學院沈陽自動化研究所機器人學國家重點實驗室,沈陽110016
體感網(wǎng)(BSN)是傳統(tǒng)無線傳感器網(wǎng)絡在人體區(qū)域監(jiān)測中的應用。體感網(wǎng)作為一種新興的人體監(jiān)測技術,具有強大的普遍監(jiān)測和計算能力,應用前景十分廣闊,受到了許多研究機構的重視。近年來,使用體感網(wǎng)監(jiān)測和識別人體動作成為研究的熱點之一[1]。
與傳統(tǒng)基于視頻的動作監(jiān)測平臺相比,應用BSN對人體動作進行監(jiān)測和識別具有諸多優(yōu)勢。首先,應用視頻進行監(jiān)測通常適用于較小的空間內(nèi),而一些人體動作(如跑步、劃艇訓練等)需要在戶外較大的空間進行,因此,應用視頻設備有時會受到空間環(huán)境的限制;其次,使用視頻進行監(jiān)測,可能受障礙物的遮擋、光線的制約以及顏色效果相近的影響,這樣會降低視頻識別的準確度,而傳感器網(wǎng)絡不受這些制約,還可以準確獲知人體運動的相關參數(shù)信息(如加速度信號、角速度信號等);此外,基于視頻平臺進行監(jiān)測費用昂貴,而傳感器節(jié)點成本較低,適合在許多實際應用中進行普及和推廣。
近年來,國內(nèi)外的很多科研機構開展了基于BSN對人體動作進行監(jiān)測和識別的研究,然而這些研究都是針對單人動作進行識別。如國內(nèi)的王萬良等人采用三軸加速度傳感器,應用隱馬爾科夫模型對手勢進行了識別[2];肖玲等基于壓縮感知技術對“站”、“坐”、“躺”等13種動作進行了識別[3];愛爾蘭的Bourke等人采用二軸陀螺儀對人體跌倒動作進行了監(jiān)測[4];瑞士聯(lián)邦理工學院的Am ft等人使用4枚慣性傳感器節(jié)點來監(jiān)測“吃”和“喝”時的手臂動作[5];香港理工大學的Lau等人使用加速度傳感器和陀螺儀對人體步態(tài)進行了分析[6];美國麻省理工學院的A lbinali等人使用可穿戴式傳感器對人體運動時的能量消耗進行了估計[7];英國的Pansiot等人應用BSN對游泳運動進行了監(jiān)測[8];美國德克薩斯大學的Ghasemzadeh等人對高爾夫訓練時手腕的揮桿動作進行了識別[9];此外,還有研究采用BSN對跑步動作、視頻游戲動作等進行了監(jiān)測和分析[10-11]。
上述研究都是針對單人動作進行識別,缺少對雙人交互動作的討論,本文將重點討論應用BSN識別出雙人交互動作。雙人交互動作在日常生活中非常普遍,如握手、擁抱等,也廣泛應用于工業(yè)生產(chǎn)裝配、競技體育比賽等領域中。與單人動作相比,雙人交互動作往往更加復雜,完成雙人動作所涉及到的肢體動作種類更多,肢體之間的配合及排列方式也更加多樣化,因此這是一個具有復雜場景的模式識別問題。如何有效地提取出雙人交互動作的特征,并對雙人交互事件進行建模和分析是極具挑戰(zhàn)性的問題。
目前,國內(nèi)外的科研機構采用BSN對雙人交互動作進行監(jiān)測和識別的研究還很少,處于起步階段。美國的Bajcsy等人使用人體傳感器網(wǎng)絡對醫(yī)療護理中協(xié)助病人“站立”和“坐下”等交互活動進行了識別和分類[12];南京大學的Wang等人采用耦合隱馬爾可夫模型和條件隨機場模型對智能家居中的一些交互活動,如整理餐桌、合作沏咖啡等動作進行了分析,其研究主要集中在智能家居[13];英國愛丁堡大學的A rvind等人采用BSN對雙人舞表演中的交互動作進行了監(jiān)測,但是A rvind只是建立了舞姿中兩人胸、腳等位置的物理模型,并沒有進一步研究有關雙人交互動作的識別方法[14]。在雙人交互動作中,既有單人行為獨立性的一面,也蘊含著雙人肢體行為間的交叉依賴,針對這些特點,文獻[15]給出了雙人交互動作識別的框架,但并未具體闡述有關模式識別階段的相關算法。
本文在此基礎上,針對日常生活中的雙人交互動作,提出了一種隱馬爾可夫模型(HMM)和馬爾可夫邏輯網(wǎng)(M LN)相結合的方法來進行建模和識別,并在實驗平臺中對其分類的效果進行了評估和驗證。在實驗平臺上對日常生活中的5個交互動作:“握手”、“擁抱”、“推打”、“拳擊”和“擊掌”進行了分析。實驗中通過固定在志愿者小臂上的加速度傳感器節(jié)點,采集5種交互動作時所產(chǎn)生的加速度信號。將采集到的信號進行特征提取,包含時域和頻域兩部分信息。最后,應用HMM和M LN模型來對雙人交互動作進行識別。
基于BSN的雙人交互動作識別具有自身的特點,需要融合兩人傳感器的相關數(shù)據(jù),目前已有的數(shù)據(jù)融合方法可以歸結為特征層數(shù)據(jù)融合和決策層數(shù)據(jù)融合兩種類型。特征層數(shù)據(jù)融合方式是將每個傳感器所采信號的特征向量進行融合,形成一個特征向量后來描述這個動作;而決策層數(shù)據(jù)融合方式是對每個傳感器的運動信號都進行分類,最后通過決策規(guī)則得到最終的識別結果。
在雙人交互動作中,既有單人行為獨立性的一面,也蘊含雙人肢體行為間的交叉依賴,針對這些特點,本研究采用決策層數(shù)據(jù)融合方式,將雙人交互動作的識別分為兩個層次的識別任務。其中,底層通過建立HMM對單人原子行為進行識別,HMM在手勢識別、人體日常動作識別中已獲得重要應用。高層引入一階邏輯知識庫,并采用M LN來實現(xiàn)交互行為的建模,最后通過決策規(guī)則識別出雙人交互動作,模型架構如圖1所示。
本文搭建的基于BSN的雙人交互動作監(jiān)測平臺包含硬件和軟件兩部分。硬件部分包含傳感器節(jié)點、接收節(jié)點以及遠程監(jiān)測服務器。其中,傳感器節(jié)點由傳感器模塊、能量模塊和無線發(fā)送模塊組成,如圖2所示。傳感器模塊包括微加速度傳感器和微陀螺儀,無線發(fā)送模塊將數(shù)據(jù)包按照IEEE 802.15.4標準協(xié)議發(fā)送到遠程的接收節(jié)點。接收節(jié)點安裝在遠程服務器上,由USB通信接口和信號接收模塊組成,負責接收和保存?zhèn)鞲衅鞴?jié)點傳來的數(shù)據(jù)。
圖1 雙人交互動作建模和識別框圖
圖2 BSN監(jiān)測平臺中所用節(jié)點硬件示意圖
平臺的軟件部分主要包含數(shù)據(jù)采集模塊、數(shù)據(jù)顯示模塊、數(shù)據(jù)存儲模塊和動作識別模塊。其中,數(shù)據(jù)采集模塊主要負責信號采集時一些參數(shù)的設定,包括設定采樣時間、采樣頻率以及信號傳輸?shù)牟ㄌ芈?;?shù)據(jù)顯示模塊負責實時顯示所采集信號的波形;數(shù)據(jù)存儲模塊主要負責將采集到的信號以指定格式保存到服務器中;動作識別模塊是軟件平臺的核心,該模塊通過分析采集到的加速度運動數(shù)據(jù),檢測活動窗口提取特征向量,并采用HMM和M LN識別出不同的雙人交互動作。
在實驗平臺上進行的5組雙人交互動作,分別是“握手”、“推打”、“擁抱”、“拳擊”和“擊掌”。圖3分別顯示了志愿者執(zhí)行“握手”和“推打”行為時的實驗場景。實驗中在志愿者小臂處固定傳感器節(jié)點,以獲取手部動作時所產(chǎn)生的加速度信號,圖4為右側志愿者執(zhí)行“握手”和“推打”動作時采集的加速度數(shù)據(jù)。
圖3 實驗中的“握手”和“推打”交互動作
圖4 右側志愿者的Y軸加速度數(shù)據(jù)
在獲得雙人交互動作的加速度數(shù)據(jù)后,通過設定門限閾值自動檢測動作窗口[16],并在每一動作觀測窗口提取信號的相關特征,形成特征向量。本實驗選擇提取的信號特征包括均值、方差、偏態(tài)和離散傅里葉變換的5個最大峰值,如表1所示,這些特征在已有的人體動作識別中已被廣泛采用[17]。這樣,在觀測窗口內(nèi)便提取出一個24維的特征向量。
實驗中每個志愿者動作時所產(chǎn)生的加速度信號,其樣本點組成一個Ns×1維的向量,即上述這些信號特征的計算方法如下:
3.2.1 基于HMM的單人動作識別
HMM是應用觀測序列來描述隱含未知狀態(tài)的一種概率模型,在語音分析、動作識別和生物序列識別等領域已獲得了重要應用。在HMM模型中,隱含狀態(tài)序列是一個馬爾可夫鏈,隱含狀態(tài)的狀態(tài)值不可見,只能通過給出的觀測序列來進行估計。一個HMM模型的完整參數(shù)集為λ=(π,A,B),其中π為狀態(tài)產(chǎn)生的初始概率;A為狀態(tài)轉(zhuǎn)移矩陣,用來表征狀態(tài)間進行轉(zhuǎn)移的概率;B為觀測矩陣,用來表征在某個狀態(tài)下輸出觀測值的概率。
本文應用HMM識別每一個體的單人原子行為,其中每個隱含狀態(tài)表示一種可能的手部動作,狀態(tài)間的轉(zhuǎn)移表示從一種手部動作到另一種手部動作的轉(zhuǎn)換,每個手部動作都對應一組輸出觀測值(即提取出的特征向量)。應用HMM進行單人原子行為識別的算法步驟如下:
(1)定義單人原子行為中的每一手部動作,為其設定標簽。
(2)為每一手部動作建立一個HMM模型,即每個手部動作用一個具有N個隱含狀態(tài)和M個狀態(tài)觀測的馬爾可夫模型來描述。
(3)特征矢量量化。對于每個手部動作特征觀測序列,應用K-M eans算法進行矢量量化,得到碼本。K-M eans算法是一種無監(jiān)督聚類算法,收斂速度很快。
表1 實驗中選擇提取的信號特征
(4)訓練模型參數(shù)。采用Baum-Welch算法訓練HMM模型。使用最大似然迭代學習方法(Expectation M axim ization,EM)進行參數(shù)估計,直至得到與手部動作訓練樣本最為接近的隱馬爾可夫模型。
(5)用訓練好的HMM模型識別單人原子行為。將一組手部動作特征序列用訓練好的K-M eans碼本,按前向遞推算法分別計算該序列在每個模型上的后驗概率,輸出最大的即為手部動作的識別結果。
3.2.2 雙人交互行為的語義建模
應用HMM模型識別單人原子行為可能存在誤差,這樣在結合兩個單人原子行為來決策雙人交互動作時,需要對其進行建模和分析。馬爾可夫邏輯網(wǎng)(M LN)作為統(tǒng)計關系學習的模型之一,將M arkov網(wǎng)和一階邏輯相結合,既保留了靈活的建模能力,又具有處理不確定性的能力,非常適合雙人交互行為的推理[18]。
在一階邏輯中,當一個世界違反了一個規(guī)則時,它發(fā)生的概率為零,而M LN可以削弱這一限制,即當一個世界違反了知識庫中的一個規(guī)則,它在M LN中可能發(fā)生,只是發(fā)生的概率降低了。規(guī)則的權值反映了它對可能世界的約束強度,權值越大,滿足和不滿足該規(guī)則的世界發(fā)生的概率差別就越大[19]。實際上,在一階邏輯知識庫中通過對每個規(guī)則分配權值便可以轉(zhuǎn)化為M LN。
對于一個馬爾可夫邏輯網(wǎng)L,它是二元組(Fi,wi)的集合,其中Fi是一階邏輯規(guī)則,它有一個非負的實值權重wi,對于有限的常數(shù)集C={c1,c2,…,cn},所生成的M arkov網(wǎng)ML,C有如下規(guī)則:
(1)L中每個閉原子對應ML,C中的一個節(jié)點,若閉原子為真,節(jié)點值為1;否則為0。
(2)L中每個規(guī)則Fi對應ML,C中的一個特征值,若此閉規(guī)則為真,則對應的特征值為1;否則為0。
從上述規(guī)則和定義可以得出,一個閉M arkov網(wǎng)的概率分布如下:
其中,ni(x)是規(guī)則Fi在x中所有取真值的閉規(guī)則的個數(shù),x{i}是出現(xiàn)在規(guī)則Fi中的原子集合的狀態(tài),且φi(x{i})=ewi,Z是歸一化因子。M LN的網(wǎng)絡結構確定后,它的權重可以從訓練集中學習得到,通常采用最大似然方法進行參數(shù)學習。規(guī)則Fi權重的對數(shù)似然函數(shù)梯度如下:
一個完備的知識庫是影響系統(tǒng)識別精確性的關鍵因素。本文中一階邏輯知識庫的規(guī)則是將雙人動作看做為兩個不同人原子行為的交互,并將單人原子行為和雙人交互動作均用一階邏輯謂詞表示,比如以Handshake(X)來表示單人的“握手”行為;兩人“握手”交互動作Handshake(p1,p2)的產(chǎn)生由兩個不同人的原子行為決定,即action(p1,label)action(p2,label)!equal(p1,p2)→Hand sh ake(p1,p2),規(guī)則的權重從訓練集中學習得到。
利用加速度信息采用HMM模型在識別單人肢體運動的應用中,已獲得了不錯的分類效果,而引入一階邏輯知識庫并訓練馬爾可夫邏輯網(wǎng)是通過決策規(guī)則提高交互動作的識別率,故本文所提方法的性能對所采集的數(shù)據(jù)信息不存在過多的依賴。但由于HMM模型的訓練和M LN的權重都需要使用訓練集得到,故在采集初期獲得數(shù)據(jù)信息較少的情況下,對方法的識別能力會有一定的影響。
本次實驗共有8名志愿者參加(4男,4女),年齡在22~28歲之間,實驗前志愿者被告知實驗目的、實驗過程以及實驗中所存在的風險,在實驗室中兩兩組合,分別進行5組雙人交互動作(C1“握手”,C2“擁抱”,C3“推打”,C4“拳擊”和C5“擊掌”)。為了獲得明確的動作定義和較為準確的慣性數(shù)據(jù),實驗全部在實驗室環(huán)境下進行。將加速度傳感器節(jié)點固定在志愿者的小臂上,設置信號采樣頻率為25 Hz,避免采樣頻率過高引起的丟包率上升。志愿者每個動作重復進行2次,這樣實驗中共采集到280個數(shù)據(jù)集(28組×5個動作×2次重復)。
本文中的雙人交互動作識別包括單人原子行為識別和雙人交互動作決策兩部分,單人原子行為的識別結果在很大程度上將影響最終的分類性能。實驗定義了9個具有語義的單人原子行為,分別是Subject A(A 1伸手,A 2摟抱,A 3躲避,A 4擊掌)和Subject B(B1伸手,B2摟抱,B3推打,B4拳擊,B5擊掌),分別對應實驗中進行的5組雙人交互動作(C1~C5)。本文使用K折交叉驗證(K-fold cross-validation)對實驗中所提方法的識別效果進行評估。交叉驗證進行10次,10次測試的平均結果作為最后的識別正確率。
如表2所示為單人原子行為和雙人交互動作識別結果的正確率。從表中可以看到,雖然應用HMM識別單人原子行為(Sub A和Sub B)存在一定的誤差,但M LN在高層進行決策并識別雙人交互動作時,表現(xiàn)了一定的糾錯能力,這得益于M LN在高層建模交互行為的靈活性。比如,當兩人執(zhí)行“握手”(C1)動作時,當Subject A的“伸手”(A 1)行為被錯誤地識別為“躲避”(A 3)行為時,由于Subject B的“伸手”(A 1)行為被正確識別,M LN最終正確地識別出兩人“握手”交互動作,其原因在于Subject A的“躲避”(A 3)行為可對應Subject B的兩種動作,即“推打”和“拳擊”(B3和B4)行為,而Subject B的“伸手”行為只對應Subject A的一種動作(A 1),這種不確定性前者顯然要大于后者,因此M LN能夠正確識別。
表2 單人原子行為和交互動作識別結果的正確率(%)
本文也選取了基于特征層數(shù)據(jù)融合的一些方法進行了比較,包括最小二乘法(Least-Squares M ethod,LSM)、k近鄰算法(k-Nearest Neighbor,kNN)和支持向量機(Support Vector M achine,SVM),以上這些方法同樣采用交叉驗證法進行驗證。圖5所示為使用不同識別方法得到的識別結果的正確率,C1到C5分別代表實驗中進行的5組交互動作。從圖5可以看出,基于特征層數(shù)據(jù)融合的一些方法都沒有取得理想的識別效果,而本文提出的HMM和M LN相結合的識別方法,獲得了較高的識別精度,能夠在基于BSN的雙人交互動作識別中得到應用。
圖5 使用不同方法得到識別結果的正確率
本文在動作識別的過程中,考慮了方法的計算量和復雜程度。通過設定門限閾值自動檢測活動窗口來提取特征向量,這在一定程度上避免了采樣數(shù)據(jù)的冗余,降低了計算的復雜度;采用無監(jiān)督聚類K-M eans算法碼本、量化,其計算簡單,收斂速度較快,為后續(xù)采用前向遞推算法快速計算模型的后驗概率提供了一定的保障,本文方法的實時性在實驗中得到了驗證。
建立了一個基于BSN的雙人交互動作監(jiān)測和識別平臺,應用傳感器節(jié)點所采集到的加速度信號來識別不同的雙人動作。針對雙人交互動作的特點,本文研究提出了一種HMM與M LN相結合的方法。HMM模型在單人動作識別中能夠有效地處理動作序列,為雙人交互行為語義建模提供了準確的語義輸入。M LN作為一種統(tǒng)計關系學習模型,在決策層具有處理不確定性的能力,非常適合用來建模高層的交互行為。在實驗平臺上初步設計了5組交互動作,包括“握手”、“擁抱”、“推打”、“拳擊”和“擊掌”。實驗結果表明,本文方法可以很好地表述雙人動作間的交互結構,獲得了較高的識別正確率,能夠在基于BSN的雙人交互動作識別中得到應用。由于本文實驗所采用的雙人交互動作類別仍然較少,將來工作的重點是創(chuàng)建大規(guī)模的數(shù)據(jù)來做進一步驗證,并考慮將該方法應用到多人交互動作識別中。
[1]Pantelopoulos A,Bourbakis N.A survey on wearable sensor based systems for health monitoring and prognosis[J].IEEE Transactions on Systems,Man,and Cybernetics:Part C Applications and Review s,2010,40(1):1-12.
[2]王萬良,楊經(jīng)緯,蔣一波.基于運動傳感器的手勢識別[J].傳感技術學報,2011,24(12):1723-1727.
[3]肖玲,李仁發(fā),羅娟.體域網(wǎng)中一種基于壓縮感知的人體動作識別方法[J].電子與信息學報,2013,35(1):119-125.
[4]Bourke A,Lyons G.A threshold-based fall-detection algorithm using a bi-axial gyroscope sensor[J].Medical Engineering and Physics,2008,30(1):84-90.
[5]Am ft O,Junker H,Troster G.Detection of eating and drinking arm gestures using inertial body-worn sensors[C]//Proceedings of the 9th IEEE International Symposium on Wearable Computers,2005:160-163.
[6]Lau H,Tong K.The reliability of using accelerometer and gyroscope for gait event identification on persons with dropped foot[J].Gait and Posture,2008,27(2):248-257.
[7]A lbinali F,Intille S,Haskell W,et al.Using wearable activity type detection to improve physical activity energy expenditure estimation[C]//Proceedings of the 12th ACM International Conference on Ubiquitous Computing.[S.l.]:ACM,2010:311-320.
[8]Pansiot J,Lo B,Yang G.Sw imm ing stroke kinematic analysis with BSN[C]//Proceedings of 2010 International Conference on Body Sensor Networks(BSN).[S.l.]:IEEE,2010:153-158.
[9]Ghasemzadeh H,Loseu V,Guenterberg E,et al.Sport training using body sensor networks:a statistical approach to measure wrist rotation for golf swing[C]//Proceedings of the 4th International Conference on Body Area Networks.[S.l.]:ICST,2009:2-9.
[10]Strohrmann C,Rossi M,A rnrich B,et al.A data-driven approach to kinematic analysis in running using wearable technology[C]//Proceedings of the 9th International Conference on Wearable and Implantable Body Sensor Networks,2012:118-123.able Body Sensor Networks,2009:312-317.
[11]Mortazavi B,Chu K C,Li X,et al.Near-realistic motion video games with enforced activity[C]//Proceedings of the 9th International Conference on Wearable and Implantable Body Sensor Networks,2012:28-33.
[12]Bajcsy R,Giani A,Tom lin C,et al.Classification of physical interactions between two subjects[C]//Proceedings of the 6th International Workshop on Wearable and Implantable Body Sensor Networks,2009:187-192.
[13]Wang L,Gu T,Tao X P,et al.Recognizing multi-user activities using wearable sensors in a smart home[J].Pervasive and Mobile Computing,2011,7(3):287-298.
[14]A rvind D K,Valtazanos A.Speckled tango dancers:real time motion capture of two-body interactions using on body wireless sensor networks[C]//Proceedings of the 6th International Workshop on Wearable and Implant-
[15]Chen Y,Wang Z L,Shang H,et al.Activity recognition and coordination analysis of two-body interactions using wearable sensors[C]//Proceedings of the 2013 International Conference on Image Processing,Computer Vision,and Pattern Recognition,2013.
[16]劉蓉,劉明.基于三軸加速度傳感器的手勢識別[J].計算機工程,2011,37(24):141-143.
[17]Rltun K,Barshan B,Tuncel O.Comparative study on classifying human activities with miniature inertial and magnetic sensors[J].Pattern Recognition,2010,43(10):3605-3620.
[18]韓磊,李君峰,賈云得.基于時空單詞的兩人交互行為識別方法[J].計算機學報,2010,33(4):776-784.
[19]Richardson M,Domingos P.Markov logic networks[J].Machine Learning,2006,62(1/2):107-136.