• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進的Mask R-CNN的游泳池溺水檢測研究

      2021-04-02 12:06井明濤于騰馮夢瑤楊國為
      關(guān)鍵詞:注意力機制目標檢測圖像分割

      井明濤 于騰 馮夢瑤 楊國為

      摘要:? 針對傳統(tǒng)的前景檢測方法在復(fù)雜場景下存在精度低、速度慢且不能有效檢測目標動作輪廓等問題,本文主要對改進的Mask R-CNN的游泳池溺水檢測進行研究。采用實例分割網(wǎng)絡(luò)Mask R-CNN進行檢測與分割,實現(xiàn)溺水檢測,在Mask分支引入空間注意力引導(dǎo)模塊,設(shè)計了深度注意力分割模型SAG-Mask R-CNN,并在訓(xùn)練Mask R-CNN網(wǎng)絡(luò)時,嚴格按照視頻順序幀的順序輸入進行訓(xùn)練,確保Mask R-CNN網(wǎng)絡(luò)能學(xué)到溺水動態(tài)特征。同時,將前景檢測方法和模型Mask R-CNN進行對比實驗。實驗結(jié)果表明,與Mask R-CNN相比,深度注意力分割模型SAG-Mask R-CNN,在保持檢測高速度的同時,分割精度提升了15%~20%,提高了溺水檢測的準確性。該研究對減少游泳池中溺水事故的發(fā)生意義重大。

      關(guān)鍵詞:? 前景檢測; 深度神經(jīng)網(wǎng)絡(luò); 圖像分割; 注意力機制; 目標檢測

      中圖分類號: TP391.413; TP183文獻標識碼: A

      作者簡介: ?井明濤(1994-),男,山東人,碩士研究生,主要研究方向為機器學(xué)習(xí)和圖像處理。

      通信作者: ?楊國為(1964-),男,教授,主要研究方向為人工智能及機器學(xué)習(xí)等。 Email: ygw_ustb@163.com

      近年來,游泳池中溺水事故[1]頻發(fā),溺水事故與游泳場所[2]的環(huán)境[3]有關(guān),尤其在光線不足和人滿為患的深水復(fù)雜環(huán)境中,易發(fā)生溺水。游泳池多使用攝像機進行手動監(jiān)控,但耗費人力,容易漏檢,而且人類情緒和疲勞等因素影響監(jiān)視效果。在少數(shù)無人監(jiān)視中,常見算法是傳統(tǒng)的背景減除法[45],它是一種運動物體檢測算法,其思想是建立背景模型,使用背景參數(shù)模型對背景圖像的像素值進行近似,并將當前幀與背景圖像區(qū)分開,比較運動區(qū)域的檢測,差異較大的像素區(qū)域作為運動區(qū)域,較小差異的像素區(qū)域作為背景區(qū)域,并使用當前幀和背景模型進行減法運算,獲得前景目標。但背景建模通常受場景中許多動態(tài)變化因素的約束,例如水面的閃爍,照明的突然變化等,建模的質(zhì)量直接影響后續(xù)目標提取和目標跟蹤的工作,因此背景減除法在復(fù)雜環(huán)境下存在溺水檢測準確性低的問題。隨著計算機視覺技術(shù)的飛速發(fā)展,目標檢測技術(shù)取得了長足的進步。在目標檢測與識別的相關(guān)領(lǐng)域,如AlexNet[6],VGGNet[7],ResNet[8],F(xiàn)aster R-CNN[9]等領(lǐng)域,這些目標檢測方法雖然可以對目標進行分類定位,卻無法進行圖像分割。由于傳統(tǒng)背景減除法在復(fù)雜場景下存在準確率低、速度慢的問題,且Faster R-CNN等目標檢測方法無法進行分割圖像,不能更好的檢測目標的動作輪廓。針對以上問題,He Kaiming等人\[10\]引入實例分割方法Mask R-CNN進行溺水檢測,而且為了確保網(wǎng)絡(luò)能學(xué)習(xí)到動態(tài)特征,嚴格按照視頻順序幀的順序輸入進行訓(xùn)練。該網(wǎng)絡(luò)能容易地擴展到其他任務(wù),如估計人的姿勢,即人類關(guān)鍵點檢測,但在溺水檢測領(lǐng)域并未得到廣泛應(yīng)用,這將為Mask R-CNN引入溺水檢測提供可能性。此外,注意力機制可以關(guān)注重要特征,并抑制不必要的特征信息。基于此,本文在Mask R-CNN中添加了空間注意模塊,以提高分割和檢測的準確性。該研究可減少游泳池中溺水事故的發(fā)生。

      1深度注意力分割模型

      深度注意力分割模型是由backbone (ResNet+FPN)、RPN (region proposal network)、ROI Align (region of interest align)、class、box和SAG-mask (spatial attention-guided mask)六部分組合而成,深度注意力分割網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

      1.1Mask R-CNN

      Mask R-CNN(mask region-based convolutional neural networks)是一種實例分割網(wǎng)絡(luò),它基于Faster R-CNN,并在模型中添加了Mask分支。另外,使用ROI Pooling代替ROI Align,提高了準確性。它是一個多任務(wù)網(wǎng)絡(luò),可以同時完成檢測和分割任務(wù)。

      卷積backbone是由ResNet和特征金字塔網(wǎng)絡(luò)[11](feature pyramid network,F(xiàn)PN)組成。ResNet使用跨層連接來簡化訓(xùn)練,殘差塊(residual block)有兩種連接方式,采用BatchNorm[12]標準化處理,網(wǎng)絡(luò)性能不會隨網(wǎng)絡(luò)過深下降,ResNet殘差塊結(jié)構(gòu)如圖2所示。

      FPN來整合不同層次的特征信息,低層的位置信息較好,高層的語義信息較好,但位置信息較弱。FPN結(jié)構(gòu)可以融合不同層特征信息,獲得更好的特征信息。P2~P6是ResNet+FPN結(jié)構(gòu)產(chǎn)生的5個feature map,ResNet+FPN結(jié)構(gòu)圖如圖3所示。

      RPN的作用是獲取感興趣的區(qū)域ROI。將特征P2~P6輸入RPN網(wǎng)絡(luò),使用滑動窗口生成k個anchors。經(jīng)過訓(xùn)練,得到2k分和4k坐標,最后篩選得到網(wǎng)絡(luò)感興趣區(qū)域ROI(region of interest)。

      ROI Align(region of interest align)是解決Faster R-CNN的ROI Pooling中信息丟失問題。在ROI Pooling中,為了獲得固定大小的feature map,改變部分十進制坐標,導(dǎo)致了特征信息的丟失,但在ROI Align方法中,采用雙線性插值方法解決了該問題,保證了特征信息的完整性。

      Class模塊、Box模塊和Mask模塊分別用于分類、回歸和分割任務(wù),模型中三個部分同時進行訓(xùn)練,輸入為尺寸大小相同特征圖。分支Mask利用反卷積進行分辨率的提升,同時減少通道的個數(shù),最后輸出特征圖大小為14×14×80。

      1.2空間注意力引導(dǎo)模塊(spatial attention-guided mask,SAG-Mask)

      注意力方法廣泛應(yīng)用于目標檢測,它可以專注于重要的特征信息,降低其他信息的關(guān)注度,甚至?xí)^濾掉無關(guān)信息,能解決信息過載問題。其中,空間注意力方法[1314]關(guān)注的是信息區(qū)域的位置;通道注意力方法[1516]強調(diào)的是特征通道關(guān)注哪里。受空間注意機制[17]的啟發(fā),將空間注意力模塊引入Mask R-CNN網(wǎng)絡(luò),提出了深度注意力分割網(wǎng)絡(luò)SAG-Mask R-CNN。模塊SAG-Mask結(jié)構(gòu)如圖4所示。

      2實驗及結(jié)果分析

      2.1實驗數(shù)據(jù)集制作

      本實驗沒有開放式游泳池場景數(shù)據(jù)集,實驗中的訓(xùn)練數(shù)據(jù)集和測試樣本是在多個游泳池中制作。實驗中,使用羅技科技有限公司的可移動攝像機,在4個不同的室內(nèi)游泳池中,共拍攝200多分鐘的游泳池視頻。每18幀讀取一幅圖片,得到2 000多幅圖片,篩選保留代表性圖片組成實驗數(shù)據(jù)集[20]。數(shù)據(jù)集部分篩選圖如圖5所示。

      數(shù)據(jù)集四種狀態(tài)樣本數(shù)如表1所示。利用圖片標記工具Labelme標記圖片,生成對應(yīng).json文件。標記過程中,要對游泳池內(nèi)所有人進行標記,為了生成一個良好的數(shù)據(jù)集,輪廓線使用要精確。游泳池內(nèi)人的狀態(tài)分為四類:直立、游泳、站立和溺水,其中,溺水狀態(tài)是由人工模擬。最后將數(shù)據(jù)集轉(zhuǎn)換成COCO數(shù)據(jù)集格式,便于訓(xùn)練。四種狀態(tài)部分標記圖如圖6所示。

      實驗中,使用硬件NVIDIA和開發(fā)語言Python進行編程。為得到最佳模型,使用單個圖形處理器(graphic processing unit,GPU)、控制學(xué)習(xí)速率、訓(xùn)練時間和批次大小對模型進行訓(xùn)練。模型使用Facebook研究團隊發(fā)布的Pythorch深度學(xué)習(xí)框架進行訓(xùn)練,并將Mask R-CNN和SAG-Mask R-CNN模型的訓(xùn)練損失進行對比,模型訓(xùn)練損失對比如圖7所示。由圖7可以看出,相比于模型Mask R-CNN,SAG-Mask R-CNN的收斂速度更快,變化更加平緩,最終收斂的值更小,說明模型SAG-Mask R-CNN的性能比Mask R-CNN更好。

      2.4模型方法比較

      背景減除法建模方式多樣,本實驗采用高斯混合模型進行建模,并與Mask R-CNN模型在檢測速度、檢出率、誤檢率方面進行比較,Mask R-CNN模型和背景減除法對比結(jié)果如表2所示。由表2可以看出,Mask R-CNN模型的檢測速度與準確率均領(lǐng)先于背景減除法。

      在相同訓(xùn)練數(shù)據(jù)集上,使用不同的backbone來訓(xùn)練模型SAG-Mask R-CNN和Mask R-CNN,然后在相同的測試數(shù)據(jù)集上測試兩個模型的AP值,SAG-Mask R-CNN和Mask R-CNN測試AP值對比結(jié)果如表3所示。由表3可以看出,SAG-Mask R-CNN的AP值及檢測精度較高。

      采用ResNet-101骨干訓(xùn)練SAG-Mask R-CNN和Mask R-CNN兩個模型,并比較兩個模型在不同迭代輪數(shù)下測試的mAP值。Mask R-CNN和SAG-Mask R-CNN測試mAP值結(jié)果如表4所示。由表4可以看出,迭代次數(shù)越多,模型的映射值越高,性能越好。在相同迭代次數(shù)下,SAG-Mask R-CNN具有更高的性能。

      為更好的比較SAG-Mask R-CNN和Mask R-CNN模型的分割效果,在四個游泳池內(nèi)分別使用兩種模型進行測試,SAG-Mask R-CNN的測試結(jié)果如圖8所示,Mask R-CNN模型測試結(jié)果如圖9所示。通過對比兩個模型在四個游泳池的測試結(jié)果可以看出,圖8的分割效果明顯比圖9更加飽滿,分割細節(jié)更突出,圖9中存在漏檢、檢測置信度較低的情況。通過上述比較可知,深度注意力分割模型SAG-Mask R-CNN與Mask R-CNN相比,在溺水檢測的準確度和實例分割精度上都具有顯著提高。

      3結(jié)束語

      本文將實例分割模型Mask-R-CNN應(yīng)用于溺水檢測,通過實驗對比,與前景目標檢測方法相比,該模型檢測更快、更準確,并能有效檢測人類動作,這是傳統(tǒng)的檢測方法所無法做到的。此外,為了提高分割檢測精度,在模型中引入空間注意機制,提出了SAG-Mask R-CNN模型,可有效地抑制無用特征信息。通過實驗對比可知,SAG-Mask R-CNN模型比Mask R-CNN模型檢測更快、更準確。訓(xùn)練中,由于嚴格按照視頻順序幀輸入訓(xùn)練,可有效的學(xué)習(xí)溺水動態(tài)特征,提升了模型性能,與直接進行單個圖片訓(xùn)練的方法相比,模型特征提取效果顯著。而且與現(xiàn)有的方法相比,SAG-Mask R-CNN模型在分割和檢測方面具有更好的性能。該研究在實際溺水檢測領(lǐng)域具有廣闊的應(yīng)用前景,對減少溺水事件具有積極意義。本研究發(fā)現(xiàn),溺水檢測的時空信息十分重要,希望未來探索更多的時空信息,以便更準確地進行溺水檢測。

      參考文獻:

      [1]Wintemute G J, Cook P J, Wright M A. Risk factors among handgun retailers for frequent and disproportionate sales of guns used in violent and firearm related crimes[J]. Injury Prevention, 2006, 11(6):357-363.

      [2]Lin C Y, Yen W C, Hsieh H M, et al. Diatomological investigation in sphenoid sinus fluid and lung tissue from cases of suspected drowning[J]. Forensic Science International, 2014, 244: 111-115.

      [3]Brenner R A, Saluja G, Smith G S, et al. Swimming lessons, swimming ability, and the risk of drowning[J]. Injury Control and Safety Promotion, 2003, 10(4): 211-215.

      [4]Tang Q, Zhou Y, Lei J. Fast median filters based on histogram and multilevel staged search[C]∥International Conference on Image & Graphics. IEEE, 2007: 100-105.

      [5]Sullivan H W, Rutten L J F, Hesse B W, et al. Lay representations of cancer prevention and early detection: associations with prevention behaviors[J]. Preventing Chronic Disease, 2010, 7(1): A14.

      [6]Gulcehre C, Cho K, Pascanu R, et al. Learned-norm pooling for deep feedforward and recurrent neural networks[J]. Springer Berlin Heidelberg, 2013, 8724: 530-546.

      [7]Pfister T, Simonyan K, Charles J, et al. Deep convolutional neural networks for efficient pose estimation in gesture videos[C]∥Asian Conference on Computer Vision. Springer, Cham, 2014: 538-522.

      [8]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016.

      [9]Ren S, He K, Girshick R, et al. Faster R-CNN:? Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.

      [10]He K, Gkioxari G, Piotr Dollár, et al. Mask R-CNN[C]∥IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE Computer Society, 2020:? 386-397.

      [11]Wong F, Hu H. Adaptive learning feature pyramid for object detection[J]. IET Computer Vision, 2019, 13(8): 742-748.

      [12]Huang K Y, Chang W L. A neural network method for prediction of 2006 World Cup Football Game[C]∥International Joint Conference on Neural Networks. IEEE, 2010.

      [13]Yang C T, Liu J C, Huang K L, et al. A method for managing green power of a virtual machine cluster in cloud[J]. Future Generation Computer Systems, 2014, 37: 26-36.

      [14]Chen L, Zhang H, Xiao J, et al. SCA-CNN:? spatial and channel-wise attention in convolutional networks for image captioning[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016.

      [15]Hu J, Shen L, Sun G, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.

      [16]Xiang L X, He D, Dong W R, et al. Deep sequencing-based transcriptome profiling analysis of bacteria-challenged Lateolabrax japonicus reveals insight into the immune-relevant genes in marine fish[J]. Bmc Genomics, 2010, 11(1): 472-493.

      [17]Neumann M, Vu N T. Cross-lingual and multilingual speech emotion recognition on english and french[C]∥International Conference on Acoustics. 2018.

      [18]Lambers J V. An Explicit, Stable, High-order spectral method for the wave equation based on block gaussian quadrature[J]. IAENG International Journal of Applied Mathematics, 2008, 38(4): 333-348.

      [19]Al-Furaiji O J M, Tuan N A, Yurevich T V. A new fast efficient non-maximum suppression algorithm based on image segmentation[J]. International Journal of Advanced Computer Science and Applications, 2020, 19(2): 1155-1163.

      [20]Hamel B, Audran M, Costa P, et al. Reversed-phase high-performance liquid chromatographic determination of enoxacin and 4-oxo-enoxacin in human plasma and prostatic tissue. Application to a pharmacokinetic study[J]. Journal of Chromatography A, 1998, 812(1-2): 369-379.

      Abstract:?? Aiming at the problems of traditional foreground detection methods such as low accuracy, slow speed and ineffective detection of target motion contours in complex scenes, this paper mainly studies the improved Mask R-CNN swimming pool drowning detection. The instance segmentation network Mask R-CNN is used for detection and segmentation to achieve drowning detection. The spatial attention guidance module is introduced in the Mask branch, and the deep attention segmentation model SAG-Mask R-CNN is designed, and when training the Mask R-CNN network, the sequential input of video sequential frames is strictly followed for training to ensure that the Mask R-CNN network can learn the dynamic characteristics of drowning. At the same time, the foreground detection method and the model Mask R-CNN are used for comparative experiments. Experimental results show that, compared with Mask R-CNN, the deep attention segmentation model SAG-Mask R-CNN, while maintaining high detection speed, increases the segmentation accuracy by 15% to 20%, and improves the accuracy of drowning detection. The research is of great significance to reducing the occurrence of drowning accidents in swimming pools.

      Key words: foreground detection; attention mechanism; deep neural network; image segmentation; drowning detection

      猜你喜歡
      注意力機制目標檢測圖像分割
      基于深度學(xué)習(xí)的問題回答技術(shù)研究
      基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
      基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
      InsunKBQA:一個基于知識庫的問答系統(tǒng)
      視頻中目標檢測算法研究
      行為識別中的人體運動目標檢測方法
      一種改進的分水嶺圖像分割算法研究
      一種圖像超像素的快速生成算法
      基于魯棒性的廣義FCM圖像分割算法
      移動機器人圖像目標識別
      普陀区| 延川县| 遵义县| 岳普湖县| 调兵山市| 金堂县| 屏东县| 屯留县| 工布江达县| 河津市| 调兵山市| 吉首市| 伊吾县| 兴安盟| 育儿| 鄄城县| 高雄市| 花垣县| 香港 | 龙口市| 叙永县| 开原市| 黄石市| 邢台县| 台州市| 定西市| 浦城县| 新野县| 嵊州市| 瑞丽市| 韩城市| 东乌| 胶南市| 延川县| 洪雅县| 抚顺市| 孟村| 城固县| 盐亭县| 忻城县| 墨玉县|