• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于OpenPose-slim模型的人體骨骼關(guān)鍵點檢測方法

      2019-01-06 07:27汪檢兵李俊
      計算機應(yīng)用 2019年12期
      關(guān)鍵詞:肢體

      汪檢兵 李俊

      摘 要:相較于2017年提出的在當(dāng)時檢測效果近乎最優(yōu)的RMPE模型與Mask R-CNN模型,原用于人體骨骼關(guān)鍵點檢測的OpenPose模型有著在保持精度近乎不變的情況下能大幅縮短檢測周期的優(yōu)勢,但同時該模型也存在著參數(shù)共享率低、冗余度高、耗時長、模型規(guī)模太大等問題。針對上述問題,提出了新的OpenPose-slim模型。該模型減小網(wǎng)絡(luò)寬度,減少卷積塊層數(shù),將原并列式結(jié)構(gòu)改成序列式結(jié)構(gòu)并于內(nèi)模塊加入Dense連接機制,其處理過程主要分為3個模塊:1)關(guān)鍵點定位模塊,檢測出人體骨骼關(guān)鍵點的位置坐標(biāo);2)關(guān)鍵點聯(lián)系模塊,把關(guān)鍵點位置連接成肢體;3)肢體匹配模塊,進(jìn)行肢體匹配得到人體輪廓。每一個處理階段之間關(guān)聯(lián)緊密。在MPII數(shù)據(jù)集、COCO數(shù)據(jù)集和AI Challenger數(shù)據(jù)集上的實驗結(jié)果表明,所提模型使用4個定位模塊和2個聯(lián)系模塊,并于每一個模塊內(nèi)部使用Dense連接機制是最佳結(jié)構(gòu),與OpenPose模型相比,在保持檢測精度基本不變的基礎(chǔ)上,測試周期縮短為原來的近1/6,參數(shù)量縮小了近50%,模型規(guī)??s小為近1/27。

      關(guān)鍵詞:人體骨骼關(guān)鍵點檢測;姿態(tài)檢測;肢體;Dense連接機制;序列式結(jié)構(gòu)

      中圖分類號: TP183文獻(xiàn)標(biāo)志碼:A

      Human skeleton key point detection method based on OpenPose-slim model

      WANG Jianbing1,2, LI Jun1,2*

      (1. College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan Hubei 430065, China;

      2. Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System

      (Wuhan University of Science and Technology), Wuhan Hubei 430065, China)

      Abstract: The OpenPose model originally used for the detection of key points in human skeleton can greatly shorten the detection cycle while maintaining the accuracy of the Regional Multi-Person Pose Estimation (RMPE) model and the Mask Region-based Convolutional Neural Network (R-CNN) model, which were proposed in 2017 and had the near-optimal detection effect at that time. At the same time, the OpenPose model has the problems such as low parameter sharing rate, high redundancy, long time-consuming and too large model scale. In order to solve the problems, a new OpenPose-slim model was proposed. In the proposed model, the network width was reduced, the number of convolution block layers was decreased, the original parallel structure was changed into sequential structure and the Dense connection mechanism was added to the inner module. The processing process was mainly divided into three modules: 1) the position coordinates of human skeleton key points were detected in the key point localization module; 2) the key point positions were connected to the limb in the key point association module; 3) limb matching was performed to obtain the contour of human body in the limb matching module. There is a close correlation between processing stages. The experimental results on the MPII dataset, Common Objects in COntext (COCO) dataset and AI Challenger dataset show that, the use of four localization modules and two association modules as well as the use of Dense connection mechanism inside each module of the proposed model is the best structure. Compared with the OpenPose model, the test cycle of the proposed model is shortened to nearly 1/6, the parameter size is reduced by nearly 50%, and the model size is reduced to nearly 1/27.

      Key words: human skeleton key point detection; attitude detection; limb; Dense connection mechanism; sequential structure

      0 引言

      隨著人工智能(Artificial Intelligence, AI)時代的到來,描述人體姿態(tài)、預(yù)測人體行為的應(yīng)用研究在不斷進(jìn)行。人體姿態(tài)檢測,實現(xiàn)關(guān)鍵物體分析,自動還原人體姿態(tài),在行為檢測(利用深度學(xué)習(xí)技術(shù)可以精確檢測人物異常行為)、行為識別(快速精確識別人體動作中的各種姿態(tài))、視頻捕捉(精確捕捉視頻的精彩瞬間)和計算機圖形學(xué)等領(lǐng)域都有著廣泛的應(yīng)用價值和豐富的業(yè)務(wù)場景。

      在人體骨骼關(guān)鍵點檢測的任務(wù)中,傳統(tǒng)模型方法存在以下一些難題:1)每張圖片的人數(shù)及出現(xiàn)位置不定,姿態(tài)各異,無法提前預(yù)知,給空間信息的獲取帶來困難;2)檢測周期會隨著識別人數(shù)的增加而不斷變長;3)檢測的魯棒性不強,泛化能力差,無法將對人體的檢測系統(tǒng)方便移植到其他的檢測系統(tǒng)中。 Cao等[1]提出了最新的OpenPose模型,相較于到2017年為止檢測性能各項指標(biāo)近乎最優(yōu)的RMPE(Regional Muti-person Pose Estimation)模型[2]和Mask R-CNN(Region-based Convolutional Neural Network)模型[3]有著在保持檢測精度基本不變的情況下能夠大幅度縮短關(guān)鍵點檢測周期的優(yōu)勢,但是也存在著參數(shù)共享率低、冗余度高、耗時長、模型太大等不足之處。

      本文在OpenPose模型[1]基礎(chǔ)上進(jìn)行改進(jìn),并提出了新的OpenPose-slim模型,對原模型的結(jié)構(gòu)主要作出如下改進(jìn):1)減小網(wǎng)絡(luò)結(jié)構(gòu)的寬度;2)減少3×3卷積核,增加1×1卷積核,不僅可以緩和降維,而且可以突出非線性,減少計算量;3)改并列式結(jié)構(gòu)為序列式結(jié)構(gòu),降低模型的復(fù)雜度;4)使用6個階段(4個關(guān)鍵點定位階段和2個肢體連接階段);5)前4個階段和后2個階段分別使用Dense連接機制,大幅提高了參數(shù)之間的共享率,并降低了參數(shù)冗余度。在MPII數(shù)據(jù)集、COCO(Common Objects in COntext)數(shù)據(jù)集和AI Challenger數(shù)據(jù)集[4]上的實驗結(jié)果表明,與OpenPose模型相比,所提模型在保持檢測精度基本不變的基礎(chǔ)上,測試周期縮短為原來的近1/6,參數(shù)量縮小了近50%,模型規(guī)??s小為近1/27。

      1 相關(guān)工作

      傳統(tǒng)的姿態(tài)檢測算法是基于模板匹配的幾何計算方法,關(guān)鍵是利用多種模板控件進(jìn)行多維度建模做出適用性更強的模板以適配整個人體結(jié)構(gòu),但都是基于人工或簡單算法實現(xiàn)的匹配,其工作量非常大,精度也很難達(dá)到預(yù)期要求。近幾年來,姿態(tài)檢測方法主要分為兩類:自頂向下方式(順序是先確定出人的位置,再檢測每人的可見關(guān)鍵點)和自底向上方式(順序是先檢測可見關(guān)鍵點,再確定其屬于哪個人)。近年來的姿態(tài)研究主要分為單人姿態(tài)研究和多人姿態(tài)研究。

      單人姿態(tài)方面,Ke等[5]在視頻多幀人體姿態(tài)檢測系統(tǒng)研究中提出姿態(tài)檢測本質(zhì)上是檢測模型的思想,組合兩個AlexNet模型的特征圖作為輸出,使用簡單數(shù)據(jù)增強的方法在

      FLIC數(shù)據(jù)集上的實驗結(jié)果表明相較于傳統(tǒng)檢測算法精度提高了5%;Newell等[6]提出Stacked Hourglass網(wǎng)絡(luò)結(jié)構(gòu),將自頂向下方向的下采樣與自底向上方向的上采樣進(jìn)行綜合處理,每個漏斗樣式的結(jié)構(gòu)按照一定模式組合在一起,該模型以正確估計關(guān)鍵點比例PCKh(Percentage of Correct Keypoints of head)@0.5=90.9%的優(yōu)異成績在2016年MPII競賽中暫居榜首。Chen等[7]對其做出了改進(jìn),采用生成對抗網(wǎng)絡(luò) (Generative Adversarial Network, GAN)的方法進(jìn)行微調(diào),整體精度提高0.2%。

      多人姿態(tài)方面,不同于單人姿態(tài),多人姿態(tài)另需考慮肢體匹配到人體的誤差,比較好的多人姿態(tài)研究在單人姿態(tài)應(yīng)用上的效果并不好。Rajchl等[8]提出了自頂向下的DeepCut網(wǎng)絡(luò)結(jié)構(gòu),首先找出候選的關(guān)鍵點,使用空間聯(lián)系優(yōu)化算法得到每一對關(guān)鍵點屬于哪個人,找到其內(nèi)在聯(lián)系;Insafutdinov等[9]又提出DeeperCut結(jié)構(gòu),添加殘差模塊,在MPII多人姿態(tài)數(shù)據(jù)集上表現(xiàn)出mAP(mean Average Precision)[10]為60.5%。Insafutdinov等[11]提出了名為ArtTrack的無約束多人跟蹤模型,使用稀疏體簡化圖結(jié)構(gòu)相較于DeeperCut不僅速度快20%,而且關(guān)鍵點匹配準(zhǔn)確率高5%。2017年, Fang等[2]提出了自頂向下RMPE模型,多人姿態(tài)檢測精度mAP [10]在MPII數(shù)據(jù)集上達(dá)到了76.7%;同年, He等[3]提出了自頂向下的Mask R-CNN新模型,該模型在實例語義分割任務(wù)中和關(guān)鍵點檢測任務(wù)中表現(xiàn)優(yōu)異,截至2017年,這兩種模型檢測評估結(jié)果近乎達(dá)到最優(yōu)。后來, Cao等[1]提出了自底向上全新的OpenPose模型,使用一種對關(guān)鍵點聯(lián)系的非參數(shù)表示方法——部分親和字段(Part Affinity Fields, PAFs )方法 [1,12],完成了從關(guān)鍵點檢測到肢體連接再到人體骨架的構(gòu)建過程,相較于前兩種模型,在MPII數(shù)據(jù)集和COCO數(shù)據(jù)集上的實驗結(jié)果表明檢測精度基本一致,但該模型在檢測周期上表現(xiàn)出了不隨人數(shù)的增加而延長的魯棒性;但與此同時,該模型也存在參數(shù)共享率低、冗余度高、耗時長、模型太大等不足之處。2 OpenPose模型

      OpenPose模塊示意圖如圖1所示。

      圖1(a)描述了OpenPose[1]的外部框架結(jié)構(gòu)。首先,輸入圖片經(jīng)過VGG-19結(jié)構(gòu)的前10層得到特征圖(feature map)F, 接著由特征圖作為多階段輸入,每一個階段分為兩部分:一部分是Localization模塊(圖1中的L(·)部分),用于關(guān)鍵點定位;另一個是Association模塊(圖1中的A(·)部分),用于連接候選關(guān)鍵點組成連接肢體。大體結(jié)構(gòu)共分為12(2×6)個階段,過多階段數(shù)會耗費更多計算資源,而且沒有參數(shù)跨層共享機制,容易生成較多冗余數(shù)據(jù)。

      圖1(b)描述了OpenPose[1]內(nèi)部網(wǎng)絡(luò)層結(jié)構(gòu),其中Convolution Block部分是3個3×3卷積核所組成的小殘差網(wǎng)絡(luò)結(jié)構(gòu),每隔一層都有跳躍連接。為了在提取高層特征信息和空間紋理信息的同時,也不會使得底層的信息被全部忽略,于是將底層的特征信息與高層的特征進(jìn)行一定程度上的連接,可解決層數(shù)過多時導(dǎo)致的梯度消失問題,使用多個3×3卷積核代替5×5或7×7卷積核也可一定程度上減少參數(shù)。其后使用1×1卷積核,不僅可用于升維和降維,并且可以增強非線性趨勢,使得網(wǎng)絡(luò)變得更深以提取更高層特征。

      3 OpenPose-slim模型

      圖2(a)描述了OpenPose-slim的外部框架結(jié)構(gòu),與OpenPose模型[1]在外部細(xì)節(jié)結(jié)構(gòu)上大體相同,不同之處在于外部結(jié)構(gòu)中使用序列式L-A結(jié)構(gòu),而不是并列式L-A結(jié)構(gòu),大體結(jié)構(gòu)只有6個小階段,相較于OpenPose模型[1]的12個大階段而言,大幅減小了參數(shù)使用量,也縮短了檢測處理時間;且參考文獻(xiàn)[13-14]提出的DenseNet,在Localization模塊和Assocation模塊中分別使用Dense連接結(jié)構(gòu),如此能提高參數(shù)的共享性,減少參數(shù)冗余量和模型大小。如實驗5.3節(jié)所示,在COCO數(shù)據(jù)集上的實驗結(jié)果表明:總計使用6個階段(分別在4個Localization階段與2個Association階段使用Dense連接機制)的效果最好,相較于(3-L,3-A)結(jié)構(gòu)精度高,表明Localization的過程優(yōu)化所需要的層數(shù)比Association所需的層數(shù)更重要;相較于(4-L,2-A)和(4-L(Dense),2-A)結(jié)構(gòu)精度也略高,表明Dense連接對精度提高和參數(shù)傳遞很有幫助。后面的實驗都是默認(rèn)在基于6階段(4-L,2-A)(Dense)的基礎(chǔ)上進(jìn)行。

      圖2(b)描述了OpenPose-slim模型的內(nèi)部結(jié)構(gòu),在原OpenPose模型[1]基礎(chǔ)上做出的改進(jìn)是每個Convolution Block中去掉了一個3×3卷積核,并在L-Block和A-Block中添加一個1×1卷積核分別用于升維和降維。該模型是原OpenPose模型[1]的改進(jìn)模型,在保持精度基本不變的前提下,大幅縮短了檢測周期且縮小了模型規(guī)模。

      表1詳細(xì)描述了OpenPose-slim模型每一個階段卷積核數(shù)目,R*與Y*分別代表左邊的Convolution Block與右邊的Convolution塊,OUTPUT代表該階段輸出的通道數(shù)。由表1可知,Localization模塊輸出的通道數(shù)高達(dá)1408,Association模塊輸出的通道數(shù)只有896,最后Detector的輸出通道數(shù)為(關(guān)鍵點數(shù)×關(guān)鍵點狀態(tài)),即14×3=42。

      4 模型整體研究過程

      本文模型整體研究過程主要分為三個模塊,如圖3所示,分別是:Localization(關(guān)鍵點定位模塊)、Association(關(guān)鍵點聯(lián)系模塊)和Matching(肢體匹配模塊)。關(guān)鍵點定位模塊主要是為了從圖像數(shù)據(jù)中獲取到每類候選關(guān)鍵點位置以及該關(guān)鍵點的置信度,關(guān)鍵點聯(lián)系模塊主要是為了從各個候選關(guān)鍵點中得到每一對異類關(guān)鍵點之間的候選肢體以及該肢體的置信度值,肢體匹配模塊是在候選肢體中進(jìn)行匹配以期選出合適的肢體構(gòu)建整個人體的骨架。

      4.1 Localization

      模型輸入端為彩色圖像數(shù)據(jù),從VGG-19的前10層提取高層特征信息得到特征圖Feature map,接著輸入到用作關(guān)鍵點分類和回歸的模型L(t)中,再經(jīng)過非極大值抑制 (Non-Maximum Suppression, NMS)算法[15]得到離散化的候選關(guān)鍵點集合和每個候選關(guān)鍵點的置信度圖Confidence map,每一個關(guān)鍵點的置信度圖分為x與y兩個方向上的向量,包括x方向上的向量信息和y方向上的向量信息,兩個方向上的合向量表示該關(guān)鍵點的置信度Confidence。除此之外,還有對每一個關(guān)鍵點的定位信息。

      4.2 Association

      根據(jù)從關(guān)鍵點定位階段輸出的每個候選關(guān)鍵點相對于第j號關(guān)鍵點的置信度,輸入A(t)中經(jīng)過PAFs算法[1,12]處理得到每一對候選關(guān)鍵點之間的候選肢體集合及每條候選肢體的置信度圖。

      首先,計算任意一點p在肢體c上的置信度,如式(1)所示:如果點p在肢體c上,則點p相對于肢體c的置信度為肢體c方向上的單位向量;否則為零向量。其中,判斷點p是否在肢體c上的方法如圖4(a)和式(2)~(3)所示。

      Ac(p)=ν, 點p在肢體c上

      0,其他 (1)

      0≤ν·(p-xj1)≤lc(2)

      |νT·(p-xj1)|≤σc(3)

      其中: j1與j2為兩個不同類的關(guān)鍵點;定義ν向量為從j1指向j2方向上的單位向量,νT向量為ν向量的垂直向量;lc為肢體c的長度;σc為肢體c的寬度;xj1表示候選關(guān)鍵點j1的位置坐標(biāo)。

      接著,使用定積分求出肢體c上所有點的置信度圖和代表肢體c的置信度Ec,由肢體c上所有點置信度在c上求定積分后單位化所得,目的是為了在后面作匹配的時候可以統(tǒng)一度量,如式(4)~(5):

      Ec=∫u=1u=0Ac(p(u))·dj2-dj1‖dj2-dj1‖2 du(4)

      p(u)=(1-u)·dj1+u·dj2(5)

      式中:p(u)代表取遍j1到j(luò)2之間的任意一點,其中0≤u≤1。

      4.3 Matching

      獲得每一條肢體置信度后,就按照某一種方案去作匹配,本文提供兩種匹配方案,分別是全連接匹配方式和最大二分圖匹配方式。將匹配結(jié)果中所有肢體置信度求和,找出最大的匹配結(jié)果為最終的候選匹配集合。

      三類關(guān)鍵點之間的兩種匹配方案如圖4(b)所示,圖中左右框代表兩個人,每一組關(guān)鍵點之間四條線(粗實線和細(xì)虛線)中的某一種線是一種匹配結(jié)果,其中粗實線是正確匹配方式,細(xì)虛線是錯誤匹配方式。全連接匹配方式是四條線全部考慮在內(nèi)的匹配方式,而最大二分圖匹配方式是粗實線或細(xì)虛線的兩條線匹配方式,它要求任意兩條線沒有公共節(jié)點。所以,含有公共點的細(xì)虛線是錯誤的匹配方式,其邊權(quán)和Ec為0;粗實線是正確的匹配方式,其邊權(quán)和Ec為2ν。

      不同模型在COCO數(shù)據(jù)集上的測試結(jié)果如圖5所示。圖5(a)是四種模型隨著關(guān)鍵點數(shù)目增加而引起的mAP[10]指標(biāo)在關(guān)鍵點上的平均加權(quán)變化曲線,圖中OpenPose-slim的關(guān)鍵點檢測數(shù)目略小于OpenPose模型[1] ,其檢測的mAP[10]指標(biāo)相較于OpenPose模型[1]僅差0.01。圖5(b)是四種模型隨著幀數(shù)不斷增加而計算出的FPS指標(biāo)的平均加權(quán)變化曲線,OpenPose-slim模型的FPS指標(biāo)約是OpenPose模型[1]的5倍,且不會隨著檢測幀數(shù)的增加而明顯減?。礄z測周期明顯變長),而Mask R-CNN模型[3]與RMPE模型[2]會隨著檢測幀數(shù)的變化而導(dǎo)致檢測周期變長。

      5.3 結(jié)構(gòu)對比實驗

      不同階段數(shù)分配方案的結(jié)果對比如表5所示。表5結(jié)果表明:6個Stages(4個的Localization 模塊和2個Association模塊分別使用Dense連接)效果最佳。由Stages=3和Stages=4所知,當(dāng)Stages使用較少時,表現(xiàn)出精度明顯不夠的情況;但是當(dāng)Stages過多時,如Stages=7,mAP [10]表現(xiàn)出下降趨勢。宏觀方面,原因是:隨著階段越來越多,后面的階段會不斷作局部參數(shù)優(yōu)化,而導(dǎo)致“斷層”現(xiàn)象,即高層特征提取器提取的信息和低層特征提取器提取的信息不能綜合起來,將閾值設(shè)置為0.90,則對于更高層信息的獲取就更難,表現(xiàn)出平均精度(AP)也會下降得非常大。微觀方面,原因是:隨著階段數(shù)的增加,梯度容易消失,在反向傳播過程中,參數(shù)更新非常細(xì)微以至于沒有變化,即使使用一定的殘差結(jié)構(gòu),但也只能解決部分問題,其根本性問題還是沒有完全解決。實驗結(jié)果中,使用(4-L 2-A)(Dense)結(jié)構(gòu)比包括(4-L 2-A)和(4-L(Dense) 2-A)在內(nèi)的其他結(jié)構(gòu)效果都好,表明Dense結(jié)構(gòu)對參數(shù)的共享效果相較于普通的殘差神經(jīng)網(wǎng)絡(luò)ResNet(Residual Network)要好,對精度的提高也會表現(xiàn)得更優(yōu)異。

      5.4 系統(tǒng)不足

      如圖6所示,OpenPose-slim模型也存在一些表現(xiàn)不足的問題:1)圖6(a)中,站在前面的人的手無法檢測出來,而被誤判為后面的人手;圖6(b)中,左右手錯亂交疊在一起,模型沒能準(zhǔn)確區(qū)分開。2)圖6(c)和圖6(d)中,人與人形雕塑出現(xiàn)判誤問題。

      6 結(jié)語

      本文提出的人體骨骼關(guān)鍵點檢測OpenPose-slim模型,是在先前研究的OpenPose模型[1]基礎(chǔ)上進(jìn)行的改進(jìn),可對人體骨骼關(guān)鍵點進(jìn)行精準(zhǔn)定位,并以連線的方式將人物的動作用計算機的視覺呈現(xiàn)出來。本文主要解決了以下問題:1)對原模型OpenPose[1]做出多處改進(jìn),在保證精度基本不變的情況下,大幅提高了時間效率,減少了參數(shù)計算量,縮小了模型規(guī)模,進(jìn)一步滿足了嚴(yán)任務(wù)高需求。2)從模型結(jié)構(gòu)角度分析使用何種模型結(jié)構(gòu)對本文模型最有利,實驗分析得出,使用Dense連接的6個階段(4個關(guān)鍵點定位階段+2個肢體連接階段)最為合適,不僅精度達(dá)到了最高要求,而且耗時相對較短。3)本文從三個大階段去分析整個姿態(tài)檢測的過程,包括關(guān)鍵點定位階段、關(guān)鍵點聯(lián)系階段和肢體匹配階段,這三個階段緊緊相連、相互制約、相互影響。

      與此同時,該檢測系統(tǒng)也存在一些局限性,有些問題沒有給出較好的解決方案:1)不足案例表現(xiàn)出多種待解決問題,如多姿態(tài)雜亂的圖片中肢體交疊在一起的問題,人物和人形雕塑無法分辨問題,占比面積較小的人體關(guān)鍵點無法精準(zhǔn)定位和檢測問題等。2)階段數(shù)過多會導(dǎo)致設(shè)備內(nèi)存溢出,故在結(jié)構(gòu)分析過程中只設(shè)計到7個階段,受到設(shè)備硬件要求,只能暫時對3~7個階段進(jìn)行分析對比,找到局部性最優(yōu)解。3)隨著Slim-Block的不斷增多和層數(shù)的不斷深入,使用DenseNet連接結(jié)構(gòu)的復(fù)雜性帶來高精度和參數(shù)共享優(yōu)化的同時也會帶來參數(shù)傳遞的冗余問題。4)模型僅限于有大量優(yōu)質(zhì)數(shù)據(jù)集的人體姿態(tài)檢測,對無大量優(yōu)質(zhì)數(shù)據(jù)集的其他類別無法完成檢測。5)模型規(guī)模還是偏大,仍然有可縮小優(yōu)化的空間。

      針對以上5個問題,接下來分別可從以下方向進(jìn)行研究:1)由于本文所述的關(guān)鍵點匹配方案存在由多節(jié)點姿態(tài)形式各異導(dǎo)致的關(guān)鍵點與其他人關(guān)鍵點之間出現(xiàn)錯配問題時有發(fā)生,可以從關(guān)鍵點匹配階段對模型進(jìn)一步優(yōu)化。2)可使用更優(yōu)的GPUs計算資源進(jìn)行實驗,找到該模型的最優(yōu)結(jié)構(gòu)。3)Veit等[20]提出新的可行的Adaptive-Inference領(lǐng)域,對于不同的應(yīng)用,通過合適的自適應(yīng)推理算法獲得最合適的模型。4)可在GAN研究領(lǐng)域和半監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)[21]研究領(lǐng)域做到高質(zhì)量數(shù)據(jù)增強效果,給姿態(tài)研究領(lǐng)域乃至深度學(xué)習(xí)領(lǐng)域的數(shù)據(jù)問題做出根本性貢獻(xiàn)。5)在保持精度和耗時基本不變的前提條件下或在滿足基本要求的范圍內(nèi),將模型慢慢做小,以適用于更底層的超低內(nèi)存容量,應(yīng)用在高需求的芯片硬件設(shè)備應(yīng)用場景,比如自動監(jiān)控等基礎(chǔ)設(shè)施中。

      參考文獻(xiàn) (References)

      [1]CAO Z, HIDALGO G, SIMON T, et al. OpenPose: realtime multi-person 2D pose estimation using part affinity fields [EB/OL]. [2018-12-30]. https://arxiv.org/pdf/1812.08008.pdf.

      [2]FANG H, XIE S, TAI Y W, et al. RMPE: regional multi-person pose estimation [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2353-2362.

      [3]HE K, GKIOXARI G, DOLLR P, et al. Mask R-CNN [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2980-2988.

      [4]WU J, ZHENG H, ZHAO B, et al. AI challenger: a large-scale dataset for going deeper in image understanding [EB/OL]. [2018-12-30]. https://arxiv.org/pdf/1711.06475.pdf.

      [5]KE L, QI H, CHANG M C, et al. Multi-scale supervised network for human pose estimation [C]// Proceedings of the 2018 IEEE International Conference on Image Processing. Piscataway: IEEE, 2018: 564-568.

      [6]NEWELL A, YANG K, DENG J. Stacked hourglass networks for human pose estimation [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9912. Cham: Springer, 2016: 483-499.

      [7]CHEN Y, SHEN C, WEI X, et al. Adversarial PoseNet: a structure-aware convolutional network for human pose estimation [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 1212-1230.

      [8]RAJCHL M , LEE M C H, OKTAY O , et al. DeepCut: object segmentation from bounding box annotations using convolutional neural networks [J]. IEEE Transactions on Medical Imaging, 2017, 36(2): 674-683.

      [9]INSAFUTDINOV E, PISHCHULIN L, ANDRES B, et al. DeeperCut: a deeper, stronger, and faster multi-person pose estimation model [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9910. Cham: Springer, 2016: 34-50.

      [10]HENDERSON P, FERRARI V. End-to-end training of object class detectors for mean average precision[C]// Proceedings of the 2016 Asian Conference on Computer Vision, LNCS 10115. Cham: Springer, 2016: 198-213.

      [11]INSAFUTDINOV E, ANDRILUKA M, PISHCHULIN L, et al. ArtTrack: articulated multi-person tracking in the wild [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1293-1301.

      [12]ZHU X, JIANG Y, LUO Z. Multi-person pose estimation for posetrack with enhanced part affinity fields [EB/OL]. [2018-12-30]. https://posetrack.net/workshops/iccv2017/pdfs/ML_Lab.pdf. // Proceedings of the 2017 IEEE International Conference on Computer Vision PoseTrack Workshop. Cham: Springer, 2017,1-4.

      [13]HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2261-2269.

      [14]黃奕暉,馮前進(jìn).基于三維全卷積DenseNet的腦膠質(zhì)瘤MRI分割[J].南方醫(yī)科大學(xué)學(xué)報,2018,38(6):661-668.(HUANG Y H, FENG Q J. Segmentation of brain tumor on magnetic resonance images using 3D full-convolutional densely connected convolutional networks [J]. Journal of Southern Medical University, 2018, 38(6): 661-668.)

      [15]HOSANG J, BENENSON R, SCHIELE B. Learning non-maximum suppression [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6469-6477.

      [16]李默涵,王宏志,李建中,等.一種基于二分圖最優(yōu)匹配的重復(fù)記錄檢測算法[J].計算機研究與發(fā)展,2009,46(S2):339-345.(LI M H, WANG H Z, LI J Z, et al. Duplicate record detection method based on optimal bipartite graph matching [J]. Journal of Computer Research and Development, 2009, 46(S2): 339-345.)

      [17]WANG Z, FENG Z, ZHANG P. An iterative Hungarian algorithm based coordinated spectrum sensing strategy [J]. IEEE Communications Letters, 2011, 15(1): 49-51.

      [18]PAPANDREOU G, ZHU T, KANAZAWA N, et al. Towards accurate multi-person pose estimation in the wild [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 3711-3719.

      [19]黃龍,楊媛,王慶軍,等.結(jié)合全卷積神經(jīng)網(wǎng)絡(luò)的室內(nèi)場景分割[J].中國圖象圖形學(xué)報,2019,24(1):64-72.(HUANG L, YANG Y, WANG Q J, et al. Indoor scene segmentation based on fully convolutional neural networks [J]. Journal of Image and Graphics, 2019, 24(1): 64-72.)

      [20]VEIT A, BELONGIE S. Convolutional networks with adaptive inference graphs [C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11205. Cham: Springer, 2018: 3-18.

      [21]徐毅瓊,葛臨東,王波,等.基于非監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的自動調(diào)制識別研究與實現(xiàn)[J].計算機應(yīng)用與軟件,2011,28(1):79-81,95.(XU Y Q, GE L D, WANG B, et al. On automatic modulation recognition based on unsupervised learning neural networks and its implementation [J]. Computer Applications and Software, 2011, 28(1): 79-81, 95.)

      This work is partially supported by the National Natural Science Foundation of China (61572381), the Fund from Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System (Wuhan University of Science and Technology) (znxx2018QN06).

      WANG Jianbing, born in 1998. His research interests include computer vision, adaptive reasoning.

      LI Jun, born in 1978, Ph. D., associate professor. His research interests include intelligent computing, machine learning.

      收稿日期:2019-06-06;修回日期:2019-07-30;錄用日期:2019-07-31?;痦椖浚簢易匀豢茖W(xué)基金資助項目(61572381);武漢科技大學(xué)智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室基金資助項目(znxx2018QN06) 。

      作者簡介:汪檢兵(1998—),男,江西九江人,CCF會員,主要研究方向:計算機視覺、自適應(yīng)推理; 李?。?978—),男,湖北黃石人,副教授,博士,主要研究方向:智能計算、機器學(xué)習(xí)。

      文章編號:1001-9081(2019)12-3503-07DOI:10.11772/j.issn.1001-9081.2019050954

      猜你喜歡
      肢體
      偏癱肢體康復(fù)訓(xùn)練護(hù)理在腦梗塞伴肢體偏癱患者護(hù)理中對ADL評分及生活質(zhì)量的效果
      一分鐘雕塑
      與秋天對話
      世界各地的肢體文化語言
      主題閱讀:奇妙的肢體語言
      世界各地的肢體語言
      肢體語言
      肢體戲劇訓(xùn)練在影視表演專業(yè)形體訓(xùn)練教學(xué)中的運用
      超級販賣機
      面試六禁忌
      中山市| 阳新县| 平遥县| 大埔区| 新安县| 丰县| 安国市| 凤山市| 梓潼县| 郎溪县| 桦南县| 游戏| 和田市| 安乡县| 普兰店市| 荃湾区| 满城县| 宣恩县| 庆阳市| 尚义县| 宁波市| 肃南| 浦江县| 斗六市| 儋州市| 凌海市| 敦煌市| 苏尼特左旗| 叶城县| 稷山县| 太保市| 恩平市| 许昌市| 长垣县| 梅州市| 三穗县| 林西县| 毕节市| 星子县| 崇仁县| 大安市|