摘" 要: 針對基于射頻識別(RFID)的相位(Phase)信號的動作識別技術識別精度不高或不夠輕量化等問題,提出基于RFID的輕量化的動作識別方法。該方法通過格拉姆矩陣將一維數(shù)據(jù)轉(zhuǎn)化為二維圖像,將Phase轉(zhuǎn)換為格拉姆角場作為改進的MobileNet網(wǎng)絡輸入,通過格拉姆角場圖像所擁有的高階信號描述能力表現(xiàn)更多的幾何性質(zhì)和內(nèi)在數(shù)據(jù)結(jié)構(gòu),在減小異常數(shù)據(jù)對識別效果影響的同時提高識別性能并充分利用網(wǎng)絡。同時,將坐標注意力機制融合壓縮激勵機制,獲取相位信號中更豐富的上下文信息使模型更好地定位和識別目標,同時在保證不影響識別精度的情況下重新構(gòu)建網(wǎng)絡,減少模型參數(shù)以及所需計算量。該方法與傳統(tǒng)MobileNet相比,模型參數(shù)量僅為原模型的12.9%,同時識別率提高2.34%,每秒浮點運算次數(shù)也優(yōu)于原模型。實驗結(jié)果表明,該模型各個指標都表現(xiàn)出更優(yōu)的實驗結(jié)果,能夠完成動作識別的相關要求。
關鍵詞: 動作識別; 格拉姆角場; 多維注意力; MobileNet; 相位信號; 輕量化網(wǎng)絡
中圖分類號: TN911.7?34; TP391.4" " " " " " " " " "文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2024)17?0181?06
RFID?based lightweight action recognition method
YAN Haoqiang1, LIANG Kun2, ZHANG Yajun1, XU Huanyuan1, WANG Xingqiang1
(1. School of Software, Xinjiang University, Urumqi 830046, China;
2. Armed Police Crops, Urumqi 830000, China)
Abstract: In view of the low accuracy and the lack of lightweight of action recognition technology based on radio frequency identification (RFID) phase signals, a lightweight RFID?based action recognition method is proposed. The one?dimensional data is transformed into two?dimensional images by the Gram matrix. The phase signals are converted into the Gram angular field, which is taken as the input of the improved MobileNet. More geometric properties and intrinsic data structures of the image is exhibited by the Gramian angular field (GAF) images′ higher?order signal description capabilities, so as to improve the recognition performance of the method and utilize the network fully while reducing the influence of abnormal data on the recognition effect. The coordinate attention (CA) mechanism is integrated with the squeeze?and?excitation mechanism, so that the model can capture more abundant contextual information from the phase signals and obtain better object localization and recognition. The network is reconstructed to reduce the model parameters and the required computational load, without affecting its recognition accuracy. In comparison with the traditional MobileNet, the quantity of the parameter of the proposed model are only 12.9% of the original model, its recognition rate is improved by 2.34%, and its floating?point operations per second (FLOPs) is also superior to that of the original model. The experimental results show that the proposed model exhibits superior performance for all indexes and can fulfill the requirements for action recognition tasks.
Keywords: action recognition; GAF; multi?dimensional attention; MobileNet; phase signal; lightweight network
0" 引" 言
近年來,隨著物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)和工業(yè)4.0等智能化概念的提出,新型的計算模式和感知技術廣泛應用于生產(chǎn)和生活。隨著智能設備的廣泛使用,基于廣泛的智能設備的非接觸式無源動作識別逐漸受到關注,成為學術界的研究熱點之一[1]。
目前動作識別技術可以分為兩類:可穿戴式設備與非可穿戴設備。基于可穿戴式設備的動作識別大多是基于傳感器的識別系統(tǒng), 利用傳感器采集人體的動作數(shù)據(jù),對建立的人體運動模型進行分析,從而可對人體動作進行近似識別[2]。例如,文獻[3]讓用戶攜帶包含三軸線性加速度計和陀螺儀等設備的智能手機,通過分層提取特征的策略融合信息,采用神經(jīng)網(wǎng)絡對用戶動作進行識別。文獻[4]將三個電極片附著于人體腳踝與胸口,通過人體姿勢導致的信道衰減對人體姿勢進行識別。但基于可穿戴式設備的動作識別仍有一些問題,如設備的大小、重量和設計可能會影響用戶的舒適度。長時間佩戴設備可能會影響用戶的接受度,并且可穿戴式設備通常價格昂貴,還需定時對設備進行充電、檢修等維護步驟,這無疑極大影響了上述方法的普及與傳播。
非可穿戴設備的動作識別,如基于計算機視覺的動作識別使用相機或攝像機采集圖片,文獻[5]提出一種輕量型的雙流融合深度神經(jīng)網(wǎng)絡模型,并在開源數(shù)據(jù)集UCF101和HMDB51上進行實驗,結(jié)果表明該方法能夠?qū)崿F(xiàn)準確的活動識別。文獻[6]提出了一種正樣本不受數(shù)據(jù)增強限制的雙重最近鄰檢索動作識別算法DNNCLR,基于對比損失的自監(jiān)督學習方法識別人體骨架,從而進行人體動作識別。但基于計算機視覺的方法只能工作在沒有障礙物阻擋和充足的光照環(huán)境下[7]并且圖片或視頻可能暴露用戶隱私[8],使用戶受到安全威脅。而基于無線傳感的動作識別易部署且價格低廉,同時避免了用戶在使用時個人隱私泄露的風險。文獻[9]將標簽貼在桌子右側(cè),通過識別舉起左手、舉起右手、打盹和拿書四個動作來判斷學生的學習狀態(tài)。但上述方法均將原始的相位信號作為模型輸入,對信號中的離群點與異常點過于敏感,且目前基于深度學習的模型結(jié)構(gòu)比較復雜[10],神經(jīng)網(wǎng)絡層數(shù)過多,模型參數(shù)量大,增加了計算和存儲開銷,使模型不具有快速部署與響應的能力,無法在計算資源有限的設備上高效運行。基于以上問題,本文在MobileNetV3的基礎上構(gòu)建一個輕量化模型結(jié)構(gòu),實現(xiàn)高效的動作識別方案。本文主要貢獻如下。
1) 與傳統(tǒng)MobileNetV3相比,在保證識別率的同時精減了網(wǎng)絡結(jié)構(gòu),減少了網(wǎng)絡中模塊的數(shù)量和訓練所需的計算資源,加快了訓練速度。
2) 將相位信號通過格拉姆矩陣轉(zhuǎn)化為圖像數(shù)據(jù),減弱相位信號因為某些干擾產(chǎn)生的異常點影響獲取相位信號中更豐富的上下文信息,使模型更好地定位和識別目標,同時圖像數(shù)據(jù)能充分利用深度學習模型的性能,提高識別精度。
3) 引入坐標注意力機制,使模型不僅考慮通道維度上的注意力,還能捕獲特征遠程依賴關系,在另一個空間方向上保留精確的特征位置信息。獲取相位信號中更豐富的上下文信息使模型更好地定位和識別目標。
1" 格拉姆角場
格拉姆角場(Gramian Angular Field)是將時間序列數(shù)據(jù)轉(zhuǎn)換為圖像數(shù)據(jù)的編碼方法,保留信號完整信息的同時,保持著信號對于時間的依賴性。相位信號具有非平穩(wěn)和變相位等特點,圖像具有更強的高階信號描述能力,與一維信號相比,圖像數(shù)據(jù)具有更多的幾何性質(zhì)和內(nèi)在數(shù)據(jù)結(jié)構(gòu)。格拉姆角場的思想主要來源于線性代數(shù)中Gram矩陣的概念,由[k]維空間中任意[n]個向量的內(nèi)積組成的矩陣稱為Gram矩陣,它可以表示為:
[Gv1,v2,…,vn=lt;v1,v1gt;…lt;v1,vngt;lt;v2,v1gt;…lt;v2,vngt;???lt;vn,v1gt;…lt;vn,vngt;] (1)
式中[v1]~[vn]都是[k]維向量,每個向量的內(nèi)積可以表示為:
[lt;vx,vygt;=i=1nvxi?vyi] (2)
相位信號的Gram矩陣可以表示如下:
[Gx1,x2,…,xn=x1?x1…x1?xnx2?x1…x2?xn???xn?x1…xn?xn] (3)
式中[xi]為信號中第[i]個單位時間的相位值。再將相位數(shù)據(jù)從笛卡爾坐標系轉(zhuǎn)化為極坐標系,表達式為:
[θ=arccos(xi)," " x∈Xr=tiR," " i∈R] (4)
式中[R]為極坐標系張成空間的常數(shù)因子。通過GAF轉(zhuǎn)換算法可以生成一個保持時間依賴性的Gramian矩陣?;谟嘞液瘮?shù)的格拉姆角和場、基于正弦函數(shù)的格拉姆角差場分別定義如下:
[GASF=cos(θi+θj)n×nGADF=cos(θi-θj)n×n] (5)
采用GAF算法,通過縮放、轉(zhuǎn)換極坐標和三角函數(shù)計算三步,將相位信號轉(zhuǎn)換為二維圖像,從而將圖像深度學習網(wǎng)絡應用于序列分類的研究。轉(zhuǎn)換過程如圖1所示。
2" MobileNetV3改進
2.1" 注意力模塊改進
MobileNetV3[10]是一種輕量型的卷積神經(jīng)網(wǎng)絡,注意力機制為擠壓和激勵機制(Squeeze and Excitation Network),其結(jié)構(gòu)主要由全局平均池化層(Global Average Pooling)、全連接層(Fully Connected)、激活函數(shù)組成。由于卷積只在局部空間內(nèi)進行,很難獲得足夠的信息來提取信道(channel)之間的關系特征。為提取channel之間的關系,首先將每個channel上的空間特征編碼壓縮為一個全局特征,加入一個全連接層SE的結(jié)構(gòu),如圖2所示。
SE機制對通道關系進行建模重構(gòu)通道的權(quán)重,但SE只考慮通道維度上的注意力,無法捕捉空間維度上的注意力,而位置信息對于生成具有空間選擇性的注意力映射非常重要。
故本文引入坐標注意力(Coordinate Attention, CA)[11]。CA注意力與通道注意力不同的是通過使用二維全局池化,將特征張量轉(zhuǎn)換為一個單一的特征向量。CA注意力的關鍵在于將通道注意力分解為兩個一維特征編碼過程,它們分別在兩個空間方向上聚合特征[12]。這種方法的優(yōu)點是:它允許模型在一個空間方向上捕獲遠程依賴關系,同時在另一個空間方向上保留精確的位置信息[13]。CA注意力流程圖如圖3所示。
CA注意力的第一步是特征圖嵌入,將大小為[W×H×C]的輸入特征圖使用全局平均池化操作劃分為水平方向[X]特征圖和豎直方向[Y]特征圖。[X]、[Y]特征圖的大小均為[W×1×C]。計算公式如下:
[zhc(h)=1w0≤i≤Wxc(h,i)zwc(w)=1H0≤j≤Hxc(j,w)] (6)
式中:[zhc(h)]與[zwc(w)]為全局歸一化后的水平特征圖與豎直特征圖。將兩個特征圖拼接并通過1×1的共享卷積核運算降維為原來的[Cr]維,經(jīng)過批量歸一化處理后送入激活函數(shù),得到形如[(W+H)×1×Cr]的特征圖。計算公式如下:
[ft=σ(F1([Zh,Zw]))] (7)
式中[ft]是對水平方向和豎直方向進行編碼的中間特征圖,將中間特征圖通過兩個1×1卷積,得到一個與原始特征圖同樣大小的特征圖。將特征圖通過激活函數(shù)得到水平方向與豎直方向的注意力權(quán)重[gh]、[gw],如下所示:
[gh=σFh(fh)gw=σFw(fw)] (8)
式中:[gh]與[gw]為輸入同維度的變換函數(shù)。CA注意力的第三步是特征圖與權(quán)重修正操作,將[gh]和[gw]與原本的特征輸入圖通過殘差的方式連接,即對應位置元素相乘,得到CA的注意力特征圖。
[yc=xc×gh×gw] (9)
式中:[xc]為[W×H×C]的特征輸入圖;[yc]為[W×H×C]的特征輸出圖。本文模塊結(jié)構(gòu)如圖4所示。
2.2" 網(wǎng)絡結(jié)構(gòu)改進
MobileNetV3是一種輕量級卷積神經(jīng)網(wǎng)絡架構(gòu),專門用于在移動設備和嵌入式系統(tǒng)上進行高效的計算。
為使MobileNetV3能更好地完成本文任務,對MobileNetV3模型結(jié)構(gòu)與部分參數(shù)進行修改,相較于原始模型,本文模型參數(shù)量僅為0.7 MB。本文使用的網(wǎng)絡結(jié)構(gòu)參數(shù)如表1所示。
3" 實驗驗證
3.1" 實驗環(huán)境
硬件環(huán)境為:1個工作頻率為920.875 MHz的Impinj R420 RFID讀取器、1個RFID UHF圓極化天線、4個4 cm×4 cm標簽和1臺聯(lián)想R7000p計算機,該計算機配備2.5 GHz AMDR7處理器和16 GB內(nèi)存,RFID讀卡器使用低級讀卡器協(xié)議通信。軟件環(huán)境為Python 3.6、NVIDIA CUDA 9.2、CUDNN。
3.2" 數(shù)據(jù)集描述
本文實驗設置在面積約為7 m×10 m的教室,在教室中選取一個2.2 m×1.8 m的開闊區(qū)域作為實驗區(qū)域,周圍環(huán)境包括木質(zhì)課桌椅、玻璃以及混凝土墻等,如圖5所示。
本文數(shù)據(jù)集有5種動作(開合跳、深蹲、高抬腿、弓箭步、旋轉(zhuǎn)上身,下文用動作1~動作5代替)的實驗數(shù)據(jù),共有6位志愿者參與實驗,每位志愿者執(zhí)行指定動作約50次,數(shù)據(jù)集示例如圖6所示。
數(shù)據(jù)集中70%作為訓練集,30%作為測試集,具體動作樣本數(shù)量如表2所示。
3.3" 實驗結(jié)果
本文模型在訓練集上準確率、損失值變化曲線如圖7所示。
模型在訓練過程中,前30輪的準確率的上升與損失值下降速度較快,在接近50輪時模型的損失值接近平緩,準確率也達到最高值。
為展示所提模型在動作識別任務中的表現(xiàn),本文提供模型在測試集上得到的混淆矩陣,如圖8所示。
其中動作2與動作4為相似動作,都需要用戶蹲下并站起,而本文模型仍然保持平均92.8%以上的識別率,說明本文方法能區(qū)分動作之間較為細小的差距并加以識別。
模型性能對比結(jié)果如表3所示。從表3可知,本文模型平均準確率為96.56%。與原模型對比,本文模型參數(shù)量僅為原模型的12.9%,每秒浮點數(shù)運算(Floating?point Operations Per Second, FLOPs)相較于原模型提高了11%。在保證相近的模型處理速度下,本文模型相比MobileNetV3在數(shù)據(jù)集上識別準確率提高2.34%,由此可見改進模型具有較優(yōu)的輕量性和較高的識別率等優(yōu)勢。
為了驗證模型注意力模塊和格拉姆角場對模型效果提升的有效性,本文對這兩個部分做消融實驗。其中未加入格拉姆角場網(wǎng)絡模型中輸入的是原始信號波形圖,如圖6所示。每個模塊消融實驗結(jié)果如表4所示?;趯嶒灠l(fā)現(xiàn),格拉姆角場對于識別準確率有較大的提升,使原本模型準確率提升6.56%,CA機制使模型準確率又提升了1.83%。
為了進一步說明本文模型的有效性,本文與現(xiàn)有的主流輕量化模型MobileNet、MoCoViT、GhostNet[14]、ShuffleNet[15]等模型進行比較,在本文數(shù)據(jù)集上進行實驗,主要從模型參數(shù)量、FLOPs、準確率三個方面進行計算和記錄,實驗所得結(jié)果如表5所示。
從表5可以看出,與原始MobileNetV3模型相比,本文模型識別率有所提升,相較于DTW、MoCoViT、ShuffleNetV1、ShuffleNetV2等模型,本文模型從準確率上分別提高了16.24%、2.71%、3.22%、1.69%,與上述主流算法或模型相比,本文模型具有低參數(shù)量、低FLOPs和高準確率的特點,綜合性能較好。
4" 結(jié)" 語
本文借助格拉姆矩陣實現(xiàn)一維數(shù)據(jù)的圖像化處理,減少異常數(shù)據(jù)對識別效果的影響,提高識別精度。提出輕量化的人體動作識別模型,引入坐標注意力機制,增強方向相關的位置信息學習。本文模型通過減少模塊數(shù)與通道數(shù),減少網(wǎng)絡參數(shù)和計算量,相較于原始的MobileNetV3的參數(shù)量,本文模型參數(shù)量僅為原模型的12.9%,準確率相較于MobileNetV3提高了2.34%,在降低模型復雜度的同時提高了識別準確率。將本文網(wǎng)絡與其他主流輕量型識別網(wǎng)絡進行實驗對比,實驗結(jié)果表明本文模型具有最優(yōu)輕量性和良好準確率。接下來主要針對多人動作識別模型的識別效果展開研究。
注:本文通訊作者為張亞軍。
參考文獻
[1] 王楚豫,謝磊,趙彥超,等.基于RFID的無源感知機制研究綜述[J].軟件學報,2022,33(1):297?323.
[2] 張鋆豪,何百岳,楊旭升,等.基于可穿戴式慣性傳感器的人體運動跟蹤方法綜述[J].自動化學報,2019,45(8):1439?1454.
[3] 王歡,金立左.基于智能手機和神經(jīng)網(wǎng)絡的人體動作識別方法[J].工業(yè)控制計算機,2021,34(5):87?88.
[4] 吳秋雯,廖薇.基于可穿戴設備的姿勢識別方法研究[J].中國醫(yī)學物理學雜志,2023,40(8):1002?1008.
[5] 何冰倩,魏維,張斌.基于深度學習的輕量型人體動作識別模型[J].計算機應用研究,2020,37(8):2547?2551.
[6] 吳雨珊,徐增敏,張雪蓮,等.骨架數(shù)據(jù)增強和雙重最近鄰檢索自監(jiān)督動作識別[J].計算機科學,2023,50(11):97?106.
[7] KOU Z Y, ZHUANG Z Y, CHENG X Y. Real?time improper driving action recognition using TSM model with facial key points and temporal variations in pixels [C]// Proceedings of the 8th International Conference on Intelligent Computing and Signal Processing. [S.l.: s.n.], 2023: 1750?1754.
[8] QIU Q, WANG T C, CHEN F L. LD?Recognition: Classroom action recognition based on passive RFID [J]. IEEE transactions on computational social systems, 2024, 11(1): 1182?1191.
[9] BU Y L, XIE L, GONG Y Y, et al. RF?Dial: Rigid motion tracking and touch gesture detection for interaction via RFID tags [J]. IEEE transactions on mobile computing, 2022, 21(3): 1061?1080.
[10] PRASAD S B R, CHANDANA B S. Mobilenetv3: A deep learning technique for human face expressions identification [J]. International journal of information technology, 2023, 15(6): 3229?3243.
[11] 韓巖江,王偉,王峰萍.融合坐標注意力和BiFPN的YOLOv5s交通標志檢測方法[J].國外電子測量技術,2022,41(11):170?179.
[12] 王劍哲,吳秦.坐標注意力特征金字塔的顯著性目標檢測算法[J].計算機科學與探索,2023,17(1):154?165.
[13] 李正欣,張鳳鳴,李克武.基于DTW的多元時間序列模式匹配方法[J].模式識別與人工智能,2011,24(3):425?430.
[14] ZHENG Y, HE Q E. Research and comparison of lightweight U?Net based on GhostNets for medical and remote sensing images [C]// Proceedings of the 8th International Conference on Intelligent Computing and Signal Processing. New York: IEEE, 2023: 2082?2086.
[15] REZAEE K, MOUSAVIRAD S J, KHOSRAVI M R, et al. An autonomous UAV?assisted distance?aware crowd sensing platform using deep ShuffleNet transfer learning [J]. IEEE transactions on intelligent transportation systems, 2022, 23(7): 9404?9413.
[16] GUO Y X, QIU L K, ZHOU J P, et al. Single?camera gaze estimation based on ShuffleNetV2 [C]// Proceedings of the 5th International Conference on Power, Intelligent Computing and Systems. New York: IEEE, 2023: 677?682.
[17] DIB W, GHANEM K, ABABOU A, et al. Human activity recognition based on the fading characteristics of the on?body channel [J]. IEEE sensors journal, 2022, 22(8): 8049?8103.
[18] JI Y L, YANG Y, SHEN F M, et al. Arbitrary?view human action recognition: A varying?view RGB?D action dataset [J]. IEEE transactions on circuits and systems for video technology, 2020, 31(1): 289?300.
[19] LIU Q, ZHANG X Y, LIU Y X. GAF?MN: A new HRRP target recognition method based on Gramian angular field and matching networks in few?shot condition [C]// Proceedings of the International Conference on Radar. [S.l.: s.n.], 2021: 1288?1292.
[20] 朱相華,智敏.基于改進深度學習方法的人體動作識別綜述[J].計算機應用研究,2022,39(2):342?348.
[21] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13713?13722.