謝伙生,羅洪文
(福州大學 數(shù)學與計算機科學學院,福建 福州 350591)
通常,人體行為可以使用人體骨骼的運動軌跡來刻畫,骨骼數(shù)據(jù)可以很好地描述人體運動的動態(tài)特征。同時,骨骼數(shù)據(jù)大幅度降低了視頻幀包含的數(shù)據(jù)量,例如,在使用Kinect體感攝像機采集的NTU-RGB+D[1,2]數(shù)據(jù)集中,每一幀骨骼數(shù)據(jù)只包含了人體的25個關節(jié)點,每個關節(jié)點僅僅包含一個三維空間坐標點。目前,有許多方法通過將骨骼序列數(shù)據(jù)重構為二維網(wǎng)格結構,構造成“偽圖片”的格式,進而使用CNN、LSTM、GRU等網(wǎng)絡模型提取特征[3-6]。人體骨骼的自然連接是一種非歐幾里得結構,如果直接將其網(wǎng)格化會損失其中蘊含的重要的空間信息。為了解決這個問題,圖卷積神經(jīng)網(wǎng)絡被應用于基于骨骼數(shù)據(jù)的行為識別任務中,并且在多個大規(guī)模骨骼數(shù)據(jù)集上顯著地提升了識別準確率[7-12]。
本文探討了關節(jié)的全局信息與局部信息的信息共現(xiàn)性,提出將身體按部位進行分塊,在每一個分塊內部聚合關節(jié)的局部信息,并且利用自適應圖卷積神經(jīng)網(wǎng)絡[10,13-15]提取每個關節(jié)的全局信息,關聯(lián)全局信息與局部信息以此構建為一個完整的信息推理模型,達到局部信息增強全局信息的目的,使得整體模型的信息交流更加充分。此外,本文認為在時間維度上使用單一的卷積操作是不夠充分的,因此本文提出通過使用多層膨脹時間卷積網(wǎng)絡來提取骨骼數(shù)據(jù)在時間維度中的上下文依賴關系。通過堆疊多個時間卷積層,并且逐步擴大每一層的感受野,使得模型可以捕獲短期和長期時序上下文依賴關系。通過這種方式本文的模型能夠更加充分地提取骨骼序列的上下文依賴關系,進一步提升模型的推理能力。
圖神經(jīng)網(wǎng)絡可以大致分為兩種方式:①譜域,利用圖拉普拉斯矩陣的特征值和特征向量,這些方法利用圖的傅里葉變換在頻域進行圖的卷積;②空間域,直接迭代地聚合每個節(jié)點的鄰域信息以此更新每個節(jié)點的狀態(tài)。Kipf等[16]首先提出使用切比雪夫核的一階近似作為GCN的卷積核,并且在半監(jiān)督分類任務中表現(xiàn)出優(yōu)越的性能。Yan等[17]將GCN應用于基于骨骼的行為識別任務中,他們利用GCN提取關節(jié)的空間信息,TCN提取關節(jié)的時間上下文依賴關系,提出ST-GCN。Thakkar等[18]將人體分成數(shù)個獨立的分塊分別提取信息,最后匯總每個塊的信息,但是,他們忽略了關節(jié)的全局信息的重要性。Li等[13]將人體骨骼連接分為動作連接和結構連接,分別聚合信息,有效地提升了識別精度。Si等[19]提出一種網(wǎng)絡模型使用GCN提取空間信息,使用LSTM提取時間信息。Gao等[20]提出使用圖回歸構建時空維度中的人體骨骼拓撲結構,并使用高階切比雪夫核近似替代一階的切比雪夫核。Shi等[15]提出了一種自適應圖卷積神經(jīng)網(wǎng)絡,它可以通過數(shù)據(jù)驅動的方式自適應地學習人體骨骼的拓撲結構,他們從全局的角度考慮每個關節(jié)的全局相關性,忽略了關節(jié)的局部相關性也是一個重要而不可忽視的關鍵因素。Zhang等[14]提出了一種輕量級網(wǎng)絡結構,顯式地將關節(jié)類型和幀索引作為語義信息嵌入網(wǎng)絡中,論證了語義信息能夠很好地幫助模型理解行為動作。
通常,一個骨骼序列由T幀組成,每一幀中包含N個關節(jié),每個關節(jié)通常是一個三維空間坐標或者二維平面坐標。因此,可以將自然連接的骨骼序列構建為無向圖G=(V,E), 其中頂點集V={vti|i=1,…,N,t=1,…,T}, 邊集E由Es和Ef兩個子集組成,Es代表每一幀中關節(jié)之間的自然連接關系,Es={vtivtj|(i,j)∈H}, 其中H代表自然連接的骨骼邊集合。Ef代表相同的關節(jié)在連續(xù)的幀之間的連接關系,Ef={vtiv(t+1)i}。 令A表示人體骨骼自然連接的鄰接矩陣,A={0,1}N×N, 如果vivj∈Es, 則Aij=1, 否則Aij=0。 關節(jié)vi和其鄰域中其它關節(jié)的信息聚合方法可以定義為
(1)
圖卷積神經(jīng)網(wǎng)絡的詳細實現(xiàn)過程稍顯復雜,通過使用切比雪夫核的一階近似作為GCN的卷積核,可以將式(1)變換為式(2)
(2)
ST-GCN中的圖拓撲結構是人體關節(jié)的自然連接,它形式固定缺乏靈活性,在一些動作中非自然連接的關節(jié)之間相關性更強,固定形式的關節(jié)連接方式會導致模型推理能力不佳。文獻[10,13~15]采用數(shù)據(jù)驅動的方法自適應學習人體骨骼的圖拓撲結構,計算每個關節(jié)點與其它關節(jié)點之間的連通性以及連接強度,結果表明采用自適應圖卷積網(wǎng)絡的方式大幅度地提升了網(wǎng)絡的識別準確率。本文提出了一種分層次的時空圖卷積神經(jīng)網(wǎng)絡模型,從時間和空間兩個維度分別提取骨骼數(shù)據(jù)的信息。如圖1所示,在空間維度上,本文探討了關節(jié)全局相關性與局部相關性的信息共現(xiàn)關系,以數(shù)據(jù)驅動的方式自適應地學習關節(jié)的全局相關性,通過對身體部位分塊,構建每個分塊內部關節(jié)的局部相關性,關聯(lián)關節(jié)的全局信息與局部信息,達到局部信息增強全局信息的目的。此外,在每個GCN模塊后加入了SENet[21]注意力網(wǎng)絡模塊,使得活躍度高的關節(jié)受到更多的關注度;在時間維度上,本文通過堆疊多層的時間膨脹卷積網(wǎng)絡層,并且逐步擴大每一層的感受野,使得網(wǎng)絡模型可以兼具捕獲短期和長期時序上下文依賴關系。
圖1 網(wǎng)絡模型整體流程
對于原始的輸入數(shù)據(jù)fin∈R3×N×T, 通過在時間維度上執(zhí)行一階差分,獲得可以表征關節(jié)的運動方向和距離的運動矢量,其作為一種二階信息可以從關節(jié)的運動軌跡分析行為過程,具有很強的魯棒性。通過計算各個關節(jié)與人體骨骼的中心關節(jié)的相對位置,可以減少人體尺度不一致帶來的影響,相對于關節(jié)的三維空間坐標來說,相對位置具有更強的魯棒性。文獻[14]論證了顯式地將關節(jié)類型與骨骼幀索引輸入模型中,對于行為識別任務能夠起到語義增強的作用。不同模態(tài)的特征進行粗糙融合會造成特征尺度差異過大的問題,不利于模型推理,因此本文利用多層感知機(multilayer perceptron,MLP)先將不同模態(tài)的數(shù)據(jù)(三維空間坐標、運動矢量、相對位置、關節(jié)類型和幀索引,其中關節(jié)類型與幀索引編碼為one-hot向量)嵌入高維空中,以此平滑不同模態(tài)特征的差異性,并且融合多種特征作為網(wǎng)絡的輸入。特征融合的過程使用兩層MLP,由1×1卷積實現(xiàn),可以用數(shù)學模型描述如下
fout=σ(w2σ(w1fin+b1)+b2)
(3)
式中:w1和w2是參數(shù)矩陣,b1和b2是偏置向量,σ是ReLU激活函數(shù)。
3.2.1 構建全局自適應鄰接矩陣
在構建基于骨骼數(shù)據(jù)的圖卷積神經(jīng)網(wǎng)絡模型時,如何構建各個關節(jié)之間相關性是一個至關重要的工作。在ST-GCN中使用人體骨骼的自然連接構建骨骼拓撲圖,這方式最大的缺陷是缺乏靈活性,分析所有的行為都使用固定的關節(jié)鄰接關系,這種方式的效果并不理想。在文獻[10,13~15]的工作中,根據(jù)不同的輸入數(shù)據(jù)自適應地學習關節(jié)的鄰接關系,這種數(shù)據(jù)驅動的方式可以根據(jù)不同行為的特點,為關節(jié)之間的連通關系賦予不同的關注度,使得網(wǎng)絡模型在提取特征時可以重點關注于相關性高的關節(jié),具有良好的靈活性。
本文采用Ag=(PA+C) 的形式構建關節(jié)與關節(jié)之間的全局相關性,其中Ag表示全局鄰接矩陣,PA的大小與人體骨骼的自然連接所構造的鄰接矩陣A一致,并且是一個可訓練的矩陣,它利用A進行參數(shù)初始化,在訓練過程中PA可以自主學習調整參數(shù),進一步增加了關節(jié)連通的靈活性。C是一個自適應鄰接矩陣,它根據(jù)不同的輸入數(shù)據(jù),自適應地計算出不同關節(jié)之間的鄰接關系。與文獻[10,13~15]的工作相似,本文通過計算輸入數(shù)據(jù)中每個關節(jié)與其它關節(jié)之間的相關性來獲得自適應鄰接矩陣C∈RN×N。 對于輸入數(shù)據(jù)fin∈R3×N×T, 本文使用兩個嵌入函數(shù)將其嵌入到高維空間中以獲得C′×N×T的張量,并將它重塑為N×C′T矩陣和C′T×N矩陣,再通過矩陣乘法便可以得到N×N的張量,使用Softmax便可以得到關節(jié)的全局相關性自適應鄰接矩陣C。計算方法可以定義為
C=Softmax(θ(fin)Tφ(fin))
(4)
式中:θ=w1x+b1和φ=w2x+b2表示兩個嵌入函數(shù),兩者均由1×1卷積實現(xiàn)。
3.2.2 人體局部劃分策略
文獻[18]論證了通過將身體按部位劃分為不同的部分,并在各個部分內部分別聚合信息,可以有效地提高人體行為識別任務的識別準確率。在這一節(jié)中,本文根據(jù)人體骨骼的圖拓撲結構,提出了一種劃分策略,如圖2所示,將身體部位分為6塊,分別是:左臂、右臂、上主干、下主干、左腿、右腿,這種策略中存在著一些關節(jié)同時屬于不同的分塊,這意味著在使用圖卷積神經(jīng)網(wǎng)絡聚合信息時,這些分塊可以進行信息交流。將每個分塊單獨構造為一個圖,這樣一個骨骼圖就可以根據(jù)分塊劃分為多個子圖,因此可以為每個子圖構造對應的局部分塊鄰接矩陣Ai∈Asubset,Asubset={A1,A2,…,An}。 對于每個子圖內部的連通關系,本文將每個分塊內部的關節(jié)構造為彼此連通的關系,這就意味著每個分塊內部都是一個全連通圖,這種方式對于局部特征提取更為有效。
圖2 身體部位分塊策略
3.2.3 全局與局部的信息共現(xiàn)性
本文認為全局信息與局部信息是一種互補的關系,全局信息放眼于整體,從全局的角度關注信息的整體變化,提取到的是一種全局性的信息變化,然而也存在對局部信息的敏感度不足的問題。局部信息關注的則是信息的局部變化,對于細節(jié)信息更為敏感,然而也缺乏了對于信息的全局變化的感知能力。因此,僅僅關注于全局信息或是局部信息都是不夠充分的,只有將全局信息與局部信息相結合,使得彼此相互補充才能有效地提升網(wǎng)絡模型的信息提取能力。
根據(jù)3.2.1節(jié)可以得到全局自適應鄰接矩陣,通過式(5)可以實現(xiàn)聚合每個關節(jié)的全局信息,本文將其定義為G-GCN模塊(全局圖卷積神經(jīng)網(wǎng)絡模塊)。根據(jù)3.2.2節(jié)可以得到局部分塊的鄰接矩陣,通過式(6)可以在每個分塊內部聚合每個關節(jié)的局部信息,本文將其定義為L-GCN模塊(局部圖卷積神經(jīng)網(wǎng)絡模塊)。通過式(7)實現(xiàn)了加權融合關節(jié)的局部信息與全局信息,利用關節(jié)的局部信息增強全局信息,以此提高模型對整體信息的提取能力
fG - G CN=MAgfinwg
(5)
(6)
fo ut=fG - G CN+λfL- G CN
(7)
其中,Ag是全局鄰接矩陣,M是N×N的注意力矩陣。wg和wi是參數(shù)矩陣,λ是超參數(shù)。
對于在時間維度上的信息提取,現(xiàn)有的基于ST-GCN的方法使用單一的時間卷積網(wǎng)絡模塊提取骨骼數(shù)據(jù)的時序上下文依賴關系,這種單一的卷積層受限于卷積核的大小,無法提取到更加高水平的特征,因此無法充分地提取時序上下文依賴關系。TCN[22]在時間維度上通過使用膨脹卷積使單個卷積核在尺寸不變的前提下,增大卷積核的采樣間隔,使得卷積核擁有更大的感受野,能夠很好地提取更長時間的上下文依賴關系。
受到TCN的啟發(fā),本文采用多層膨脹時間卷積網(wǎng)絡在時間維度上進行信息提取,以此取代原先ST-GCNs中單一的時間卷積網(wǎng)絡層。如圖3所示,M-TCN模塊每一層從左至右依次為TCN、BN、ReLU和Dropout,通過堆疊多層TCN模塊并為每個模塊設置依次增大的膨脹因子d,使得網(wǎng)絡模型對于時序的上下文依賴關系的提取能力逐漸增強。此外,通過引入膨脹因子d可以使同等大小的卷積核擁有更大的感受野,并沒有增加額外的參數(shù)量。與單一的時間卷積網(wǎng)絡模塊相比,本文的M-TCN(多層時間膨脹卷積網(wǎng)絡模塊)可以兼具提取骨骼數(shù)據(jù)時序上的短期和長期上下文依賴關系,進一步增強了網(wǎng)絡模型對整體信息的提取能力。形式上,多層時間膨脹卷積網(wǎng)絡模塊可以定義為
(8)
圖3 M-TCN
NTU-RGB+D-60[1]是一個由Kinect體感攝像機采集的大規(guī)模且極具挑戰(zhàn)性的人體行為數(shù)據(jù)集,該數(shù)據(jù)集包含了多種數(shù)據(jù)流,如RGB圖像、RGB+D圖像以及骨骼數(shù)據(jù),其中骨骼數(shù)據(jù)被廣泛地應用于基于骨骼數(shù)據(jù)的人體行為識別任務中。在這個數(shù)據(jù)集中,一共包括56 880個視頻片段,每一幀都包含25個關節(jié),通過3臺不同設置的深度攝像機采集由40個志愿者分別執(zhí)行的60種行為動作視頻片段。文獻[1]中提供了兩種評估基準:Cross-Subject(CS)和Cross-View(CV)。此外,在兩個基準中均使用Top-1的識別準確率。
NTU-RGB+D-120[2]是ROSE lab最新發(fā)布的一個大規(guī)模人體行為數(shù)據(jù)集,它是NTU-RGB+D-60的擴展版本,包含了114 480個由106個志愿者執(zhí)行的120種不同的行為的視頻片段。文獻[2]提供了兩種評估基準:Cross-Subject(C-Subject)和Cross-Setup(C-Setup)。同樣地,在兩個基準中均使用Top-1的識別準確率。
(1)模型設置
在多模態(tài)特征融合模塊中,MLP層使用1×1卷積代替全連接層,特征的輸出通道分別為32和64,經(jīng)過5種模態(tài)的特征拼接后得到融合特征通道數(shù)為320,再使用兩個1×1卷積將特征維度分別降為128和64。在空間圖卷積網(wǎng)絡模塊中,本文的最終的模型使用五層GCN模塊來聚合關節(jié)的空間信息,每個GCN模塊由G-GCN模塊和L-GCN模塊組成,G-GCN模塊的輸出特征通道分別為128、128、256、256、256。輸出特征的通道數(shù)方面L-GCN模塊與G-GCN模塊保持一致,并且設置超參數(shù)λ為0.5。此外,GCN模塊中的所有的卷積操作都是通過1×1卷積操作實現(xiàn)的。在時間膨脹卷積網(wǎng)絡模塊中,本文最終的模型堆疊了三層時間膨脹卷積網(wǎng)絡,卷積核設置為1×3,膨脹因子d分別設置為1、2、4,輸出通道分別為256、256、512。此外,每一個GCN模塊和TCN模塊都使用了ReLU激活函數(shù)和批量正則化。
(2)訓練設置
本文的所有實驗均在兩塊Tesla P100 GPU、Pytorch深度學習框架、Python3.7的環(huán)境下完成的。本文使用Adam作為模型的優(yōu)化器,設置初始學習率為1×10-3,權重衰減因子為1×10-4。訓練過程的迭代次數(shù)設置為120次,使用MultiStepLR學習率調整策略,分別在第60、90、110個epoch衰減學習率為原來的十分之一,使用多分類交叉熵損失函數(shù)訓練本文的模型。此外,本文將NTU-RGB+D-60數(shù)據(jù)集和NTU-RGB+D-120數(shù)據(jù)集的批訓練大小均設置為64。
為了驗證本文所提出的方法的有效性,本文在NTU-RGB+D-60數(shù)據(jù)集上進行了消融實驗,并且構建了消融實驗的基準線:移除了GCN模塊的L-GCN模塊,保留G-GCN部分,設置TCN模塊為一層的時間卷積網(wǎng)絡,膨脹因子d取值為1,其它部分與主體網(wǎng)絡保持一致。
為了驗證M-TCN模塊的有效性,本文采用多層堆疊TCN的方式進行對比實驗,單層TCN模塊與基準線實驗設置一致;兩層堆疊TCN模塊,分別取膨脹因子d=1,2; 三層堆疊TCN模塊,分別取膨脹因子為d=1,2,4; 四層堆疊TCN模塊,分別設置膨脹因子為d=1,2,4,8。 實驗結果見表1,在NTU-RGB+D-60數(shù)據(jù)集的CV評估基準中,多層堆疊的TCN模塊相較于基準線的識別準確率均有了明顯的提升。其中,二層和四層堆疊TCN模塊相較于基準線分別提升了0.8%和1.2%,三層堆疊TCN模塊相較于基準線的識別準確率提升了1.4%。結果表明僅僅使用單一的TCN模塊提取骨骼序列的時序上下文依賴關系是不夠充分的,通過使用多層時間膨脹卷積網(wǎng)絡模塊,并且逐步擴大每一層的感受野,使得模型可以兼具提取骨骼數(shù)據(jù)在時序上的短期與長期上下文依賴關系。
表1 對比多層次TCN的識別準確率/%
對于超參數(shù)λ的取值,本文通過實驗對比λ在不同取值的情況下的識別準確率來確定最終的取值。在CV評估基準下,選取λ的值分別為0、0.25、0.5、0.75、1,執(zhí)行對比實驗。實驗結果如圖4所示,在CV評估基準下,網(wǎng)絡模型的識別準確率隨λ的不同取值變化而變化,當λ=0.5時達到最佳的識別準確率95.8%。根據(jù)λ的取值變化,在CV評估基準中模型的識別準確率的變化趨勢符合凸組合理論,因此本文最終選擇0.5作為超參數(shù)λ的取值。
圖4 λ取值不同時的實驗結果對比
如表2所示,在NTU-RGB+D-60數(shù)據(jù)集的CS評估基準中,在基準線的基礎上,通過增加L-GCN模塊,模型的識別準確率提升了0.8%;通過增加M-TCN模塊,模型的識別準確率提升了1.5%;通過增加L-GCN、M-TCN模塊使得本文的模型識別準確率提升了1.8%。在CV評估基準中,在基準線的基礎上,通過增加L-GCN模塊,模型的識別準確率提升了0.9%;通過增加M-TCN模塊,模型的識別準確率提升了1.4%;通過增加L-GCN、M-TCN模塊使得模型的識別準確率提升了1.9%。實驗結果表明,L-GCN模塊提取的局部信息增強了整體模型對于局部信息變化的感知能力,有效地提升了模型的識別準確率。M-TCN模塊通過多層膨脹卷積,使得網(wǎng)絡模型在時序上擁有逐步增大的感受野,因此網(wǎng)絡模型能兼具提取骨骼數(shù)據(jù)在時序上的短期和長期上下文依賴關系,使得模型在時間維度上的信息提取更為充分,進一步提升了模型的識別準確率。
表2 消融L-GCN及M-TCN組件的識別準確率/%
在NTU-RGB+D-60數(shù)據(jù)集的CV評估基準下,驗證集的混淆矩陣如圖5所示。其中,包含47種行為的識別準確率高于95%的水平,9種行為的識別準確率處于90%~95%的水平,4種行為的識別準確率低于90%的水平。標簽10對應的行為是“reading”,識別準確率為79%,模型錯誤地將12%的測試樣本預測為了“writing”。標簽11對應的行為是“writing”,識別準確率為78%,模型錯誤地將8%的測試樣本預測為了“reading”,將9%的測試樣本預測為了“typing on a keyboard”。標簽28對應的行為是“make a phone call/answer phone”,識別準確率為89%,模型錯誤地將3%的測試樣本預測為了“writing”,將3%的測試樣本預測為了“typing on a keyboard”。標簽29對應的行為是“typing on a keyboard”,識別準確率為81%,模型錯誤地將11%的測試樣本預測為了“writing”。由此可見,“reading”與“writing”在動作上相似度較高,模型對于這兩種行為的辨識能力存在一定的誤差。“writing”與“ty-ping on a keyboard”在動作上具有較強的相似度,模型對這兩種行為的區(qū)分能力存在不足之處。整體而言,網(wǎng)絡模型的識別準確率保持在較高的水平,對于區(qū)分度較大的行為,如“wear jacket”、“walking towards each other”,能夠達到100%的識別準確率。
圖5 混淆矩陣
在NTU-RGB+D-60數(shù)據(jù)集上,如表3所示,本文的方法在CS以及CV評估基準中分別取得89.3%與95.8%的識別準確率。與文獻 [3,23~26] 方法相比,本文的方法在兩種評估基準中準確率都有明顯的提升。相較于其它基于CNNs或是RNNs的方法,本文方法的識別準確率均有較大的提升。本文方法在與其它基于圖神經(jīng)網(wǎng)絡的方法進行比較時,識別準確率也在不同程度上有了提升,與具有代表性的ST-GCN[17]和2s-AGCN[15]相比,本文的方法在CS評估基準中識別準確率分別提高了7.8%和0.8%,在CV評估基準中準確率分別提高了7.5%和0.7%。與SGN[14]相比,本文的方法在CS和CV評估基準中的準確率分別提升了0.3%和1.3%。
表3 對比各方法在NTU-RGB+D-60中的識別準確率/%
在NTU-RGB+D-120數(shù)據(jù)集上,如表4所示,本文的方法在C-Subject與C-Setup兩種評估基準中分別取得了79.6%和80.7%的識別準確率。與文獻[1,3,24]方法相比,本文的方法的識別準確率有了較大的提升。相較于Part-Aware LSTM[1],本文方法的識別準確率在兩種評估基準中分別提升了54.1%和54.4%。相較于ST-GCN[17],本文的方法在C-Subject評估基準和C-Setup評估基準中的識別準確率分別提高了7.4%和9.2%。與SGN[14]相比,本文的方法在C-Subject評估基準中也提升了0.4%的識別準確率。
表4 對比各方法在NTU-RGB+D-120中的 識別準確率/%
本文提出的分層次時空圖卷積神經(jīng)網(wǎng)絡模型,探討了關節(jié)的全局與局部信息的共現(xiàn)性,實現(xiàn)了局部信息增強全局信息的目的,并構建了一個完整的空間信息推理模型。此外,本文通過使用多層時間膨脹卷積網(wǎng)絡提取骨骼數(shù)據(jù)在時間維度中的上下文依賴關系,使得模型可以兼具捕獲短期和長期的時序上下文依賴關系,加強了模型對時間信息的提取能力。本文的模型在NTU-RGB+D-60和NTU-RGB+D-120數(shù)據(jù)集上均取得了較好的識別準確率。由于骨骼數(shù)據(jù)對外觀特征不敏感,導致本文模型識別諸如“reading”、“writing”等行為易混淆,今后的研究工作可以考慮結合彩色圖像的外觀特征,提升模型對外觀敏感動作的識別準確率。