【關(guān)鍵詞】洗手動作識別;目標(biāo)檢測;注意力機制;編解碼結(jié)構(gòu)
【中圖分類號】Q189 【文獻標(biāo)識碼】A 【文章編號】2026-5328(2022)03--01
1 引言
中華人民共和國衛(wèi)生部[1]在2020年發(fā)布了《醫(yī)務(wù)人員手衛(wèi)生規(guī)范》,它規(guī)定了醫(yī)務(wù)人員洗手方法和外科沖洗手消毒方法。在臨床環(huán)境中引入手衛(wèi)生依從性的智能化檢測方式是十分必要的。2020年2月,邢政等人[2]發(fā)明一種洗手監(jiān)測裝置,該裝置使用傳感器檢測到手部后,執(zhí)行洗手響應(yīng),記錄使用者的信息并上傳至終端。2020年5月,杉村由花等人[3]研發(fā)出一種基于視頻的通用行為分析系統(tǒng)Actlyzer,該系統(tǒng)無需大量訓(xùn)練數(shù)據(jù),可以快速進行部署,同年被擴展應(yīng)用于洗手動作識別。Llorca D F等人[4]提出了基于支持向量機的洗手識別系統(tǒng),該系統(tǒng)使用顏色和運動分析進行手部區(qū)域分割,以雙手相連或分開這兩種狀態(tài)判斷使用者是否在洗手。本文對ResNet34網(wǎng)絡(luò)進行改進,提出了一種洗手動作實時識別方法。
2 洗手動作識別
2.1洗手動作識別模型
本文在編碼階段以ResNet34網(wǎng)絡(luò)為基礎(chǔ),結(jié)合卷積塊注意力模塊進行改進,本文網(wǎng)絡(luò)模型包括編碼器、解碼器和分類器三部分。編碼器由提取網(wǎng)絡(luò)由改進后的殘差結(jié)構(gòu)構(gòu)成。解碼器由平均池化層、Dropout層和全連接層構(gòu)成。平均池化層和全連接層對特征圖進行下采樣,減少網(wǎng)絡(luò)模型的計算量,Dropout層對上一層參數(shù)進行隨機丟棄,增加網(wǎng)絡(luò)的健壯性。分類器采用SoftMax分類算法,對網(wǎng)絡(luò)模型識別的準(zhǔn)確性進行調(diào)整,輸出識別結(jié)果。
2.2 殘差結(jié)構(gòu)改進方式
Woo S等人[5]提出的卷積塊注意力模塊是一種結(jié)構(gòu)簡單、性能優(yōu)異的注意力機制,由通道注意力模塊和空間注意力模塊構(gòu)成。
He K等人[6]提出了殘差學(xué)習(xí)網(wǎng)絡(luò),它改變了神經(jīng)網(wǎng)絡(luò)越深,學(xué)習(xí)效果越好的觀念,該網(wǎng)絡(luò)使得網(wǎng)絡(luò)層能根據(jù)其輸入來學(xué)習(xí)殘差函數(shù)而非原始函數(shù),基本組成單元是殘差結(jié)構(gòu)。該結(jié)構(gòu)由自上而下進行卷積運算的主分支與卷積核為1×1的捷徑分支兩部分構(gòu)成,捷徑分支只改變特征圖維度,不改變特征圖的尺寸。當(dāng)輸入殘差結(jié)構(gòu)的特征圖F維度為256時,卷積運算不對特征圖F的維度進行擴展處理,只是將運算結(jié)果的輸出維度設(shè)置為512。
改進后的殘差結(jié)構(gòu)結(jié)構(gòu)圖如圖1所示。CBAM模塊的位置在主分支與捷徑分支進行和運算之前,卷積核為3×3的網(wǎng)絡(luò)層之后。該結(jié)構(gòu)由自上而下進行卷積運算的主分支與不進行卷積運算的次分支兩部分構(gòu)成。次分支在反向傳播的計算中不參與主分支的權(quán)重路徑,這使得主分支的權(quán)重參數(shù)與沒有過經(jīng)過梯度衰減的權(quán)重相加,可以達到抑制過擬合的效果。在殘差結(jié)構(gòu)中加入CBAM,可以對模型參數(shù)進行微調(diào),使特征圖中的重要信息在通道和空間維度上被網(wǎng)絡(luò)關(guān)注。
3.1 實驗環(huán)境與評價指標(biāo)
本文設(shè)計的洗手動作識別方法在Windows10系統(tǒng)下搭建,硬件平臺配置如下:CPU為Intel(R) Core(TM) i7-7700K,內(nèi)存為32GB;GPU為NVIDIA GTX1080TI;2K網(wǎng)絡(luò)攝像頭;顯示器:Lenovo LT2024wA。
洗手動作識別的本質(zhì)是一個分類問題,因此本文采用了準(zhǔn)確率(Acc)、洗手動作的平均查準(zhǔn)率(Pavg)、平均查全率(Ravg)、平均特異度(Specificityavg)、平均調(diào)和平均數(shù)(F1avg)和參數(shù)量(N)為評價標(biāo)準(zhǔn)。準(zhǔn)確率(Acc)表示分類模型正確分類樣本類型的能力。
3.2 算法對比與分析
本文選取的ResNet、Vgg、MobileNet V2和EfficientNet模型與本文提出的洗手動作識別模型做對比,各個模型采用相同的數(shù)據(jù)處理方式和硬件條件進行訓(xùn)練。實驗結(jié)果如表1所示。表中,Acc表示各個模型在數(shù)據(jù)集中的準(zhǔn)確率; Pavg表示洗手動作的平均查準(zhǔn)率;Ravg表示平均查全率;Specificityavg表示平均特異度;F1avg表示調(diào)和平均數(shù)的平均值。
各個模型在本文數(shù)據(jù)集上的實驗結(jié)果如表1所示,在準(zhǔn)確率ACC和調(diào)和平均數(shù)F1avg方面,ResNet34的準(zhǔn)確率高于深層網(wǎng)絡(luò)VGG16、MobileNet v2,略高于EfficientNet-B0網(wǎng)絡(luò)。由于本文數(shù)據(jù)集的訓(xùn)練樣本小,深層網(wǎng)絡(luò)模型的結(jié)構(gòu)過于復(fù)雜,訓(xùn)練時的過擬合現(xiàn)象較為嚴(yán)重,在訓(xùn)練效果上反而不如網(wǎng)絡(luò)層數(shù)較少的ResNet34,但是相對于只有18層的ResNet18網(wǎng)絡(luò),其結(jié)構(gòu)過于簡單又不能較好的擬合特征信息,因此ResNet34達到了最好的效果。本文模型準(zhǔn)確率為71.9%,各洗手動作查準(zhǔn)率與查全率的調(diào)和平均數(shù)的平均值為0.675,比EfficientNet-B0、MobileNet v2、VGG16、ResNet34、模型提高了2.4%、9.3%、17%、1.3%。
本文以洗手動作為研究對象,對ResNet34進行改進,將其應(yīng)用于洗手動作識別任務(wù)中。實驗結(jié)果表明,這種神經(jīng)網(wǎng)絡(luò)模型的性能優(yōu)于其他識別網(wǎng)絡(luò)。本文提出的模型參數(shù)量較原網(wǎng)絡(luò),參數(shù)量有所增加,這使得模型在時間效率上有著較大的優(yōu)化空間;受數(shù)據(jù)集樣本數(shù)量的限制,后期訓(xùn)練時過擬合問題對識別準(zhǔn)確率依然有著較大影響,這兩方面有待進一步的優(yōu)化。
參考文獻:
中華人民共和國衛(wèi)生部. 醫(yī)務(wù)人員手衛(wèi)生規(guī)范:WS/T313—2019[J].中華醫(yī)院感染學(xué)雜志,2020,30(05):796-800.
邢政,謝迎春. 洗手監(jiān)測方法、洗手監(jiān)測裝置及電子設(shè)備. CN110796836A[P],2020-02-14.
杉村由花, 內(nèi)田大輔, 鈴木源太, 等. 映像から人の様々な行動を認識する 「行動分析技術(shù) Actlyzer」[C]//人工知能學(xué)會全國大會論文集 第 34 回全國大會 (2020). 東京都: 人工知能學(xué)會, 2020: 4Rin157-4Rin157.
Llorca D F, Parra I, Sotelo M á, et al. A vision-based system for automatic hand washing quality assessment[J]. Machine Vision and Applications, 2011, 22(2): 219-234.
Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV). Munich: ECCV, 2018: 3-19.
He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. New York: IEEE, 2016: 770-778.
作者簡介:胡志明(1995—),男,漢族,沈陽工業(yè)大學(xué)信息科學(xué)與工程學(xué)院碩士,主要研究方向為智能信息處理,遼寧省凌源市人。