云南大學(xué)
作為一種重要的自然人機交互手段,人體動作識別因其廣泛應(yīng)用前景和重要理論意義,受到越來越多研究者的關(guān)注。從應(yīng)用領(lǐng)域看,人體動作識別在計算機體感游戲、虛擬現(xiàn)實、機器人控制等方面有廣闊的應(yīng)用前景,然而單個傳感器捕捉到的數(shù)據(jù)存在一定局限性,難以解決識別出現(xiàn)的各種問題。因此,云南大學(xué)項目團隊圍繞多加速度傳感器、多視覺傳感器及多源異構(gòu)傳感器的人體動作識別開展深入研究,取得創(chuàng)新性成果如下:
1)該研究構(gòu)建了多加速度傳感器特征一體化張量表達模型;結(jié)合長短期記憶網(wǎng)絡(luò)對時間序列信號建模的優(yōu)勢,通過增加主成分卷積網(wǎng)絡(luò)結(jié)構(gòu)降低了噪聲的影響。同時,采用多路加速度信號的集成學(xué)習(xí)結(jié)構(gòu)有助于進一步改善動作識別。
2)該研究揭示了在協(xié)方差估計矩陣中引入的正則化技術(shù)可以有效解決高斯密度模型中參數(shù)的估計;其次通過構(gòu)建面向復(fù)雜背景的顯著性檢測模型和張量排序保留判別分析模型,解決了視覺中常見的光線、遮擋、背景等因素影響下的目標特征表達問題。
3)該研究構(gòu)建了一種融合了柯西估計的算子來抑制傳感器間噪聲不平衡的問題;同時考慮到多源傳感器信號的復(fù)雜性以及應(yīng)用實時性,將相關(guān)分析級聯(lián)網(wǎng)絡(luò)模型作為一種多視角深度學(xué)習(xí)網(wǎng)絡(luò)來解決多源異構(gòu)傳感器數(shù)據(jù)融合問題。
研究團隊圍繞多傳感器下的人體動作識別三大科學(xué)難題,構(gòu)建了不同傳感器架構(gòu)下動作識別解決方案。相關(guān)研究成果不僅在學(xué)術(shù)影響層面產(chǎn)生了廣泛的影響,同時也產(chǎn)生了實際應(yīng)用價值,例如項目團隊通過與深圳市優(yōu)必選科技股份有限公司合作,將人體動作識別技術(shù)應(yīng)用于Alpha系列教育機器人、Cruzr系列服務(wù)機器人以及安巡視和安防士巡檢機器人,解決了該公司機器人研發(fā)和制造過程中人機交互的核心問題。項目總體研究框圖如圖1所示,具體科學(xué)發(fā)現(xiàn)如下:
圖1 研究框圖
在對加速度信號進行特征提取時,采用時域和頻域的方法,分析加速度傳感器三個軸向一段時間內(nèi)輸出的加速度信號。值得注意的是傳感器并非固定佩戴在人體的某幾個位置,因而獲取信號方向會隨著受測者動作幅度而改變,使得這兩類方法都存在一個共同的缺陷,時域或頻域的變化信息無法直接反映人體運動情況,使得動作識別精度不高。針對上述問題,通過研究加速度信號特征提取和特征表達的特點,發(fā)現(xiàn)了多源加速度傳感器特征在高維空間具有一致性的規(guī)律,構(gòu)建了基于多源加速度傳感器的張量框架(Tensor Manifold Discriminant Projections,TMDP),其框架如圖2所示。此外,盡管長短期記憶網(wǎng)絡(luò)(Long Short-term Memory,LSTM)可以直接對加速度時間序列信號進行建模,但在小樣本的情況下,噪聲的影響會使得信號識別精度大幅度降低。因此,提出基于主成分分析的2維長短期記憶網(wǎng)絡(luò)(Principal Component 2D Long Short-term Memory,PC-2DLSTM)和多列雙向長短時記憶網(wǎng)絡(luò)(Multicolumn BLSTM,MBLSTM)來解決小樣本學(xué)習(xí)問題。
圖2 基于TMDP的人體動作識別框架
在基于視覺的人體動作識別實際應(yīng)用場景中,存在跨攝像頭或者組間攝像頭的問題?,F(xiàn)有的典型度量學(xué)習(xí)算法已經(jīng)在大多數(shù)情況下獲得較好性能,但當樣本不足或視角條件變化很大時,這些方法識別效果不佳。主要原因是高斯分布存在估計偏差,過高估計協(xié)方差矩陣中大的特征值,將導(dǎo)致估計的度量矩陣偏差較大,從而使得度量學(xué)習(xí)模型的精度不夠。為了解決以上問題,提出了對偶正則化的KISS度量學(xué)習(xí)模型(Dual-Regularized KISS Metric Learning,DRKISS)。此外,作為一種典型的圖像特征學(xué)習(xí)方法,子空間學(xué)習(xí)方法希望找到某種更有優(yōu)勢新的低維特征子空間。然而,在對圖像特征處理時,一般先需要向量化特征,再利用子空間學(xué)習(xí)方法來對特征進行選擇,這不僅會破壞特征的空間結(jié)構(gòu),使得方法性能下降,還會使得維數(shù)災(zāi)難問題更嚴重。針對以上問題,提出了張量排序保留判別分析模型(Tensor Rank Preserving Discriminant Analysis, TRPDA)。
在圖像識別的過程中,圖像顯著性檢測也是一個至關(guān)重要的預(yù)處理步驟, 但由于顯著性對象本身的多樣性以及背景的復(fù)雜性,會產(chǎn)生大量與動作判別無關(guān)的圖像區(qū)域。為此,提出流形排序矩陣分解顯著性檢測模型(MR-based matrix factorization,MRMF)。MRMF通過融合圖像中的區(qū)域特征和局部空間的關(guān)聯(lián)信息,實現(xiàn)了更好的顯著性檢測性能。
由于單模態(tài)傳感器難以提取全面的人體動作信息,采用了多源異構(gòu)傳感器可以通過融合的方式,讓時間和空間特征在線索建模過程中相互補充。然而,基于多源傳感器的人體動作采集一直受到噪聲問題的困擾,以往的方法沒有考慮到噪聲對不同傳感器影響程度不同,無法發(fā)揮異構(gòu)傳感器組的優(yōu)勢?;谏鲜隹紤],提出了多視角柯西估計特征嵌入(Multi-view Cauchy Estimator Feature Embedding,MCEFE)的特征融合方法,其框架如圖3所示。
圖3 多視圖柯西估計特征嵌入流程
近年來,很多研究人員采用深度學(xué)習(xí)方法實現(xiàn)了單模態(tài)傳感器下人體動作識別。而基于多源異構(gòu)傳感器的人體動作識別本質(zhì)屬于多視角學(xué)習(xí),典型相關(guān)分析技術(shù)可以建模同一目標不同視角的相關(guān)信息,該信息可以反映目標內(nèi)在的公共屬性,有利于挖掘目標的本質(zhì)特征表示。為結(jié)合典型相關(guān)分析和深度學(xué)習(xí)的優(yōu)勢,提出了典型相關(guān)性級聯(lián)網(wǎng)絡(luò)(Canonical correlation analysis networks, CCANet),其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。CCANet給出了典型相關(guān)分析的一般深度網(wǎng)絡(luò)實現(xiàn)方法。該方法具備如下優(yōu)點:1)相比較于單視角方法,典型相關(guān)分析具有更好的魯棒性;2)相比較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型,典型相關(guān)分析級聯(lián)模型具有更明確的物理可解釋性;3)網(wǎng)絡(luò)可擴展性強。
圖4 CCANet網(wǎng)絡(luò)結(jié)構(gòu)示意圖