• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于神經(jīng)網(wǎng)絡(luò)的姿態(tài)識(shí)別算法

      2020-01-05 07:00張劍書楊煉鑫王浩然樊英澤
      軟件導(dǎo)刊 2020年11期
      關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)

      張劍書 楊煉鑫 王浩然 樊英澤

      摘 要:公共場(chǎng)所視頻監(jiān)控網(wǎng)絡(luò)部署日益完善,智能視頻監(jiān)控技術(shù)在安防、交通等領(lǐng)域作用越來(lái)越大。針對(duì)視頻監(jiān)控?cái)?shù)據(jù)中的人類目標(biāo),提出一種基于計(jì)算機(jī)視覺的姿態(tài)識(shí)別方法。通過(guò)YOLO算法和AlphaPose模型完成對(duì)視頻中人類目標(biāo)檢測(cè)識(shí)別以及姿態(tài)估計(jì),在此基礎(chǔ)上分析人體關(guān)節(jié)之間的角度對(duì)姿態(tài)分類的影響,從中提取有效的分類特征,構(gòu)造并訓(xùn)練5層神經(jīng)網(wǎng)絡(luò)模型,完成對(duì)站、坐、躺最常見3種姿態(tài)分類。實(shí)驗(yàn)結(jié)果表明,訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率達(dá)到85%以上,識(shí)別速率大約為每秒30幀,在安防監(jiān)控、檢測(cè)人員摔倒、疾病報(bào)警等方面具有一定應(yīng)用價(jià)值。

      關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);目標(biāo)檢測(cè)識(shí)別;人體姿態(tài)估計(jì);姿態(tài)分類

      DOI:10. 11907/rjdk. 201698

      中圖分類號(hào):TP312 ??? 文獻(xiàn)標(biāo)識(shí)碼:A?????? 文章編號(hào):1672-7800(2020)011-0033-04

      Posture Recognition Algorithm Based on Neural Network

      ZHANG Jian-shu, YANG Lian-xin, WANG Hao-ran, FAN Ying-ze

      (School of Computer Engineering, Nanjing Institute of Technology, Nanjing 211167, China)

      Abstract:With the development of video surveillance network in public places, intelligent video surveillance technology plays an important role in security, transportation and other fields. In this paper, a computer vision based posture recognition method is proposed for human targets in video surveillance data. The detection, recognition and pose estimationof human targets in the video can be done through the YOLO algorithm and the AlphaPose model. On this basis, the influence of angles between human joints on posture classification is analyzed, and effective classification features are extracted from these angles. A five layer neural network model is constructed and trained to complete the classification of the three most common postures: standing, sitting and lying. The experimental results show that the accuracy rate of the trained neural network model can reach more than 85%, and the recognition rate is about 30 frames per second, and this method has a certain application value in security monitoring, staff falling and disease detection.

      Key Words:neural network; target detection and recognition; human pose estimation; pose classification

      0 引言

      人體姿態(tài)識(shí)別與動(dòng)作分類在智能視頻監(jiān)控、醫(yī)療健康、人機(jī)交互、安全認(rèn)證等領(lǐng)域有著廣泛應(yīng)用[1],一直以來(lái)都是學(xué)界和工業(yè)界的研究熱點(diǎn)。根據(jù)原始數(shù)據(jù)獲取方式的不同,常見的姿態(tài)識(shí)別方法分為兩類:傳統(tǒng)的基于可穿戴設(shè)備或傳感器設(shè)備的姿態(tài)識(shí)別和新興的基于計(jì)算機(jī)視覺的姿態(tài)識(shí)別[2]。傳統(tǒng)方法需要給目標(biāo)對(duì)象穿戴多種傳感器或光學(xué)標(biāo)志,并基于此采集目標(biāo)對(duì)象動(dòng)作信息,這種方法抗干擾能力強(qiáng),但是會(huì)影響目標(biāo)對(duì)象的運(yùn)動(dòng)且難以廣泛應(yīng)用于公共場(chǎng)所[3];基于視覺的方法則是通過(guò)分析圖片數(shù)據(jù)中的目標(biāo)對(duì)象各關(guān)節(jié)點(diǎn)位置,提取其關(guān)鍵節(jié)點(diǎn)信息和骨架信息,數(shù)據(jù)采集完全通過(guò)外部監(jiān)控?cái)z像頭完成,不會(huì)影響運(yùn)動(dòng)的舒適性,采集成本較低。

      在基于計(jì)算機(jī)視覺方法中,通過(guò)姿態(tài)估計(jì)從二維圖像或深度圖像中獲取人體骨架關(guān)鍵點(diǎn)是實(shí)現(xiàn)姿態(tài)識(shí)別的基礎(chǔ)[4]。傳統(tǒng)的姿態(tài)估計(jì)基于圖結(jié)構(gòu)[5]實(shí)現(xiàn),用通過(guò)人工設(shè)定的特征(HOG[6]、SHIFT[7])匹配關(guān)節(jié)點(diǎn),雖然效率較高但是算法的魯棒性和可擴(kuò)展性較差[8]。近年深度學(xué)習(xí)在機(jī)器視覺領(lǐng)域大放異彩,Toshev等[9]在2013年提出的DeepPose利用CNN提取目標(biāo)關(guān)節(jié)點(diǎn)坐標(biāo)信息,是第一個(gè)基于深度學(xué)習(xí)方法的姿態(tài)估計(jì)模型,相比于傳統(tǒng)模型準(zhǔn)確率更高。隨著DeepCut[10]、Mask Rcnn[11]以及AlpahPose[12]等一系列基于深度學(xué)習(xí)的姿態(tài)估計(jì)方法提出,目前深度學(xué)習(xí)方法成為基于視覺的姿態(tài)估計(jì)最常用方法。

      本文采用YOLO算法[13]和AlphaPose模型提取圖像中的人類目標(biāo)位置信息和骨骼關(guān)鍵點(diǎn)數(shù)據(jù),針對(duì)Microsoft COCO數(shù)據(jù)集[14]中的目標(biāo)和標(biāo)記數(shù)據(jù)構(gòu)建訓(xùn)練數(shù)據(jù)集并從中提取出有效的人體關(guān)節(jié)之間的角度特征,在此基礎(chǔ)上通過(guò)神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練人體姿態(tài)識(shí)別模型。本文提出的基于神經(jīng)網(wǎng)絡(luò)的姿態(tài)識(shí)別算法是對(duì)基于計(jì)算機(jī)視覺的姿態(tài)估計(jì)結(jié)果的進(jìn)一步分析與挖掘,判斷目標(biāo)姿態(tài)的類別信息,相比于傳統(tǒng)的基于可穿戴設(shè)備的姿態(tài)分類,該方法不需要目標(biāo)對(duì)象穿戴多種傳感器或光學(xué)標(biāo)志,數(shù)據(jù)采集成本低且實(shí)時(shí)性高,處理效率很高。

      1 基于神經(jīng)網(wǎng)絡(luò)的姿態(tài)識(shí)別

      姿態(tài)識(shí)別是通過(guò)一系列算法分析傳感器設(shè)備或攝像頭捕捉到的目標(biāo)對(duì)象原始信息,從而得到目標(biāo)對(duì)象姿態(tài)?;谟?jì)算機(jī)視覺的姿態(tài)識(shí)別步驟有姿態(tài)估計(jì)、構(gòu)建姿態(tài)數(shù)據(jù)集、特征提取和模型訓(xùn)練。

      1.1 姿態(tài)估計(jì)

      本文采用YOLO算法和AlphaPose模型從視頻或圖像中提取出人類目標(biāo)并對(duì)其進(jìn)行姿態(tài)估計(jì)。YOLO算法相比于RCNN系列算法[15]最大的特點(diǎn)就是速度快,它將目標(biāo)檢測(cè)任務(wù)作為回歸問(wèn)題解決,可以直接對(duì)輸入圖像應(yīng)用算法進(jìn)行目標(biāo)檢測(cè)和識(shí)別,得到物體類別信息和位置信息,如圖1所示。

      在完成目標(biāo)識(shí)別和定位后,需要從識(shí)別出的目標(biāo)中抽取出人類目標(biāo),并基于AlphaPose模型提取人體骨架信息。AlphaPose模型采用新的區(qū)域多人姿態(tài)估計(jì)框架,針對(duì)單人姿態(tài)估計(jì)(Single-Person Pose Estimator,SPPE)對(duì)目標(biāo)定位結(jié)果非常敏感的問(wèn)題,引入對(duì)稱空間變換網(wǎng)絡(luò)(Symmetric Spatial Transformer Network,SSTN)和參數(shù)化姿態(tài)非最大抑制(Parametric Pose Non-Maximum-Suppression,P-NMS),解決檢測(cè)框定位錯(cuò)誤和檢測(cè)框冗余問(wèn)題。最后通過(guò)姿態(tài)引導(dǎo)區(qū)域框生成器(Pose-guided Proposals Generator,PGPG)進(jìn)行數(shù)據(jù)增強(qiáng)。通過(guò)AlphaPose模型實(shí)現(xiàn)多人姿態(tài)估計(jì),得到圖2中每個(gè)目標(biāo)的17個(gè)骨架關(guān)鍵點(diǎn)位置數(shù)據(jù),如圖2所示。

      1.2 姿態(tài)數(shù)據(jù)集構(gòu)建

      基于開源數(shù)據(jù)集Microsoft COCO構(gòu)建姿態(tài)數(shù)據(jù)集。COCO數(shù)據(jù)集不僅包括目標(biāo)的類別信息和位置信息,還包括人類目標(biāo)的關(guān)節(jié)點(diǎn)數(shù)據(jù)。首先從所有圖片所對(duì)應(yīng)的5張圖片說(shuō)明文字標(biāo)簽(captions.json)中篩選出包含“stand”、“sit”和“l(fā)ie”這些與人體姿態(tài)相關(guān)的關(guān)鍵詞,然后將這些關(guān)鍵詞作為該圖片的姿態(tài)標(biāo)簽。由于這些圖片中包含的人類目標(biāo)數(shù)量不確定,因此姿態(tài)關(guān)鍵詞具體描述的哪個(gè)人目標(biāo)也不確定。為排除多個(gè)目標(biāo)干擾,根據(jù)每張圖片的實(shí)例標(biāo)簽(instances.json)標(biāo)記的所有目標(biāo)類別信息,從這些圖片中剔除包含多個(gè)人類目標(biāo)圖片??紤]到有些圖片中會(huì)存在遮擋或目標(biāo)出現(xiàn)在邊緣顯示不全問(wèn)題,需要檢查剩余圖片數(shù)據(jù)的關(guān)鍵點(diǎn)標(biāo)簽(keypoints.json)中的17個(gè)關(guān)鍵點(diǎn)(鼻子、左/右眼、左/右耳、左/右肩、左/右肘、左/右手腕、左/右髖部、左/右膝、左/右腳踝)位置數(shù)據(jù)是否為有效數(shù)據(jù),將關(guān)鍵點(diǎn)數(shù)據(jù)不全的圖片刪除,最后得到人體姿態(tài)數(shù)據(jù)集,共計(jì)3 000多張圖片和對(duì)應(yīng)標(biāo)簽,包含最常見的3種姿態(tài)。

      1.3 特征提取

      訓(xùn)練數(shù)據(jù)集中人類目標(biāo)位置標(biāo)簽和目標(biāo)關(guān)鍵點(diǎn)標(biāo)簽是數(shù)據(jù)的原始特征,如圖3所示。這些特征并不適合直接應(yīng)用到姿態(tài)識(shí)別中,因此需要從數(shù)據(jù)的原始特征中提取出姿態(tài)識(shí)別有效特征。

      當(dāng)人的姿態(tài)發(fā)生變化時(shí),各關(guān)節(jié)之間角度相應(yīng)也會(huì)發(fā)生一定變化,將圖1中的17個(gè)骨架關(guān)鍵點(diǎn)[xi,yi]兩兩相減得到136個(gè)向量,計(jì)算公式如下:

      分別計(jì)算這136個(gè)向量相互之間的夾角,為了方便后續(xù)計(jì)算,這里計(jì)算這些夾角的余弦值,以此作為備選特征,計(jì)算公式如下:

      根據(jù)公式(2)得到的余弦值共有9 180個(gè),數(shù)據(jù)量較大,若直接基于這些特征構(gòu)建神經(jīng)網(wǎng)絡(luò)則網(wǎng)絡(luò)結(jié)構(gòu)會(huì)很復(fù)雜,訓(xùn)練過(guò)程會(huì)耗費(fèi)很多時(shí)間,而這些特征是通過(guò)窮舉得到的,并沒(méi)有篩選,其中可能混雜很多無(wú)效特征。因此,需對(duì)這些余弦值特征進(jìn)一步提取,分別計(jì)算不同姿態(tài)和相同姿態(tài)目標(biāo)之間的余弦值方差,基于類內(nèi)特征方差大同時(shí)類間特征方差小的原則,構(gòu)造特征影響因子指標(biāo),篩選出特征影響因子最高的10個(gè)特征作為有效的人體姿態(tài)特征,如表1所示。

      1.4 模型訓(xùn)練

      基于BP神經(jīng)網(wǎng)絡(luò)構(gòu)建姿態(tài)分類模型。BP神經(jīng)網(wǎng)絡(luò)主要由輸入層、隱含層和輸出層3種結(jié)構(gòu)組成。針對(duì)上述訓(xùn)練數(shù)據(jù)集及提取出的10個(gè)有效姿態(tài)特征,構(gòu)建五層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型如圖4所示。

      圖2的網(wǎng)絡(luò)包含一個(gè)輸入層、3個(gè)隱含層和一個(gè)輸出層。其中,第一層是輸入層,輸入層的每個(gè)神經(jīng)元代表一個(gè)特征,因此輸入層由10個(gè)神經(jīng)元組成,采用[tanh]函數(shù)作為激活函數(shù),其表達(dá)式為

      第二層到第四層都是隱含層,第二層與第四層的作用類似,通過(guò)對(duì)輸入特征進(jìn)行多層次抽象,線性劃分不同類型數(shù)據(jù)。在第二層與第四層分別設(shè)置15個(gè)神經(jīng)元和12個(gè)神經(jīng)元,同時(shí)采用線性整流函數(shù)relu作為激活函數(shù)避免梯度彌散問(wèn)題,relu函數(shù)表達(dá)式如下:

      另外,考慮到神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜性以及訓(xùn)練數(shù)據(jù)量有限,在訓(xùn)練過(guò)程中可能會(huì)出現(xiàn)過(guò)擬合問(wèn)題,在第三層中引入dropout策略。在訓(xùn)練過(guò)程中隨機(jī)使上一層部分神經(jīng)元失活,以提高網(wǎng)絡(luò)的泛化能力。

      最后一層為輸出層,輸出為該目標(biāo)的姿態(tài)分別屬于不同類別的概率。輸出層的神經(jīng)元個(gè)數(shù)代表分類標(biāo)簽個(gè)數(shù),輸出的類別標(biāo)簽包括3類,因此輸出層的神經(jīng)元個(gè)數(shù)為3。輸出層選擇分類效果較好的softmax函數(shù)作為激活函數(shù)。

      神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練就是確定初始參數(shù),選擇合適的優(yōu)化器,然后根據(jù)訓(xùn)練數(shù)據(jù)集中的特征數(shù)據(jù)和標(biāo)簽數(shù)據(jù)不斷優(yōu)化網(wǎng)絡(luò)參數(shù)。

      2 實(shí)驗(yàn)結(jié)果分析

      將訓(xùn)練數(shù)據(jù)集中70%的數(shù)據(jù)作為訓(xùn)練集,剩下30%數(shù)據(jù)作為測(cè)試集,設(shè)置網(wǎng)絡(luò)的第三層dropout丟棄概率為0.3,迭代6 000次,分別選擇SGD(學(xué)習(xí)率設(shè)置為0.001)和Adam(設(shè)置學(xué)習(xí)率為0.001,指數(shù)衰減率[β1]和[β2]分別設(shè)置為0.9和0.99)作為優(yōu)化器,采用交叉熵誤差函數(shù)作為損失函數(shù),訓(xùn)練準(zhǔn)確率曲線和損失曲線如圖5所示。

      從圖5可以看出,采用Adam作為優(yōu)化器時(shí)模型收斂速度很快,在迭代了2 000次后就收斂了,在訓(xùn)練集上可以獲得更高的識(shí)別準(zhǔn)確率。采用精確率、召回率、F1分?jǐn)?shù)和準(zhǔn)確率作為評(píng)估模型性能指標(biāo),計(jì)算得到基于Adam優(yōu)化器訓(xùn)練的模型性能指標(biāo)如表2所示。

      從表2可以看出,無(wú)論是在訓(xùn)練集還是在測(cè)試集上,模型的準(zhǔn)確率都在85%以上,同時(shí)精確率、召回率和F1分?jǐn)?shù)也都在85%左右,具有較好的綜合性能。

      3 結(jié)語(yǔ)

      本文提出一種基于神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)識(shí)別算法,篩選Microsoft COCO數(shù)據(jù)集中的目標(biāo)和標(biāo)記數(shù)據(jù)構(gòu)建訓(xùn)練數(shù)據(jù)集,并結(jié)合特征工程獲取有效的人體姿態(tài)特征數(shù)據(jù),通過(guò)構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法得到人體姿態(tài)識(shí)別模型。實(shí)驗(yàn)結(jié)果表明,該模型具有較高的識(shí)別準(zhǔn)確率和識(shí)別效率,可直接應(yīng)用到智能視頻監(jiān)控系統(tǒng)中,結(jié)合目標(biāo)檢測(cè)、識(shí)別以及人體姿態(tài)估計(jì)算法,判斷視頻監(jiān)控覆蓋范圍內(nèi)所有人體目標(biāo)姿態(tài)。但目前訓(xùn)練樣本中的姿態(tài)類別有限,后期可通過(guò)手工標(biāo)注方法擴(kuò)展訓(xùn)練樣本,通過(guò)引入更多的姿態(tài)標(biāo)簽增強(qiáng)模型應(yīng)用范圍。

      參考文獻(xiàn):

      [1] 石躍祥,許湘麒. 基于改進(jìn)DenseNet網(wǎng)絡(luò)的人體姿態(tài)估計(jì)[J]. 控制與決策,2019,18(12):1-8.

      [2] 景元,吉愛紅,張曦元,等. 傳感器人體運(yùn)動(dòng)行為特征識(shí)別研究進(jìn)展[J].? 計(jì)算機(jī)工程與應(yīng)用,2019,18(1):23-28.

      [3] 楊凱,魏本征,任曉強(qiáng),等.? 基于深度圖像的人體運(yùn)動(dòng)姿態(tài)跟蹤和識(shí)別算法[J]. 數(shù)據(jù)采集與處理,2015,30(5):1043-1053.

      [4] 鄧益儂,羅健欣,金鳳林. 基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2019,55(19):22-42.

      [5] FISCHLER M A,ELSCHLAGER R A.The representation and matching of pictorial structures[J].? IEEE Transactions on Computers,1973,11(1): 67-92.

      [6] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]. Proceedings of International Conference on Computer Vision and Pattern Recognition,2005:886-893.

      [7] LOWE D G.Object recognition from local scale-invariant features[C]. Proceedings of the International Conference on Computer Vision,1999:1150-1157.

      [8] 李崤河,劉進(jìn)鋒. 二維人體姿態(tài)估計(jì)研究綜述[J]. 現(xiàn)代計(jì)算機(jī),2019,18(22):33-37.

      [9] TOSHEV A,SZEGEDY C.Deeppose:human pose estimation via deep neural networks[J]. IEEExplore,2013,65(8):1524-1531.

      [10] PISHCHULIN L,INSAFUTDINOV E,TANG S,et al. Deepcut:joint subset partition and labeling for multi person pose estimation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:4929-4937.

      [11] HE K,GKIOXARI G,DOLLáR P,et al. Mask R-CNN[C].? Proceedings of the IEEE International Conference on Computer Vision,2017:2961-2969.

      [12] FANG H S, XIE S, TAI Y W, et al. Rmpe: regional multi-person pose estimation[C]. Proceedings of the IEEE International Conference on Computer Vision,2017:2334-2343.

      [13] REDMON J,DIVVALA S,GIRSHICK R,et al. You only look once: unified, real-time object detection[J]. Computer Science,2015,45(12):458-467.

      [14] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: common objects in context[C]. European conference on computer vision. Springer, Cham, 2014:740-755.

      [15] REN S,HE K,GIRSHICK R,et al. Faster R-CNN: towards real-time object detection with region proposal networks[J].? IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(6):1841-1850.

      (責(zé)任編輯:杜能鋼)

      收稿日期:2020-06-25

      基金項(xiàng)目:南京工程學(xué)院校級(jí)科研基金項(xiàng)目(QKJ201803);江蘇省高等學(xué)校大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(201911276050Y)

      作者簡(jiǎn)介:張劍書(1992-),男,碩士,南京工程學(xué)院計(jì)算機(jī)工程學(xué)院助理實(shí)驗(yàn)師,研究方向?yàn)橐曨l圖像處理;楊煉鑫(1998-),男,南京工程學(xué)院計(jì)算機(jī)工程學(xué)院學(xué)生,研究方向?yàn)闄C(jī)器學(xué)習(xí);王浩然(2000-),男,南京工程學(xué)院計(jì)算機(jī)工程學(xué)院學(xué)生,研究方向?yàn)閳D像處理;樊英澤(1998-),男,南京工程學(xué)院計(jì)算機(jī)工程學(xué)院學(xué)生,研究方向?yàn)榕老x與數(shù)據(jù)采集。

      猜你喜歡
      神經(jīng)網(wǎng)絡(luò)
      基于遞歸模糊神經(jīng)網(wǎng)絡(luò)的風(fēng)電平滑控制策略
      BP神經(jīng)網(wǎng)絡(luò)在路標(biāo)識(shí)別上的應(yīng)用研究
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      基于Alexnet神經(jīng)網(wǎng)絡(luò)的物體識(shí)別研究
      基于BP神經(jīng)網(wǎng)絡(luò)的旋轉(zhuǎn)血泵生理控制
      基于神經(jīng)網(wǎng)絡(luò)MRAS的速度辨識(shí)仿真研究
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
      永丰县| 进贤县| 绥滨县| 遵化市| 安阳市| 临西县| 新宁县| 涟水县| 嘉峪关市| 保亭| 永清县| 章丘市| 巴塘县| 武强县| 枣庄市| 合川市| 丹凤县| 闽清县| 南和县| 青海省| 仪征市| 湘潭市| 皮山县| 涡阳县| 云龙县| 伊吾县| 哈密市| 保德县| 宣威市| 皮山县| 晋宁县| 德保县| 遂平县| 汝南县| 临洮县| 措勤县| 大姚县| 扎兰屯市| 贵州省| 雅安市| 河池市|