• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      用于人體實(shí)例分割的卷積神經(jīng)網(wǎng)絡(luò)

      2021-09-10 07:22:44鞠成國(guó)王國(guó)棟
      關(guān)鍵詞:實(shí)例姿勢(shì)人體

      鞠成國(guó) 王國(guó)棟

      摘要:針對(duì)當(dāng)前的實(shí)例分割算法無(wú)法分割兩個(gè)高度重疊的人體對(duì)象,且量化的Mask實(shí)例與其ground truth之間的IoU的Mask質(zhì)量通常與分類分?jǐn)?shù)相關(guān)性不強(qiáng)等問(wèn)題,利用人體骨骼和姿態(tài)來(lái)對(duì)人體進(jìn)行分割,增加一個(gè)全新的Evaluation模塊,利用預(yù)測(cè)Mask與ground truth之間的IoU來(lái)描述實(shí)例分割質(zhì)量,提出了一種直接學(xué)習(xí)IoU的網(wǎng)絡(luò),能夠提高實(shí)例分割的質(zhì)量。為了獲得更加豐富的特征信息,采用ResNet和FPN網(wǎng)絡(luò)進(jìn)行特征提取,融合多層特征的信息,使分割結(jié)果更加準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明,提出的網(wǎng)絡(luò)框架對(duì)人體分割的結(jié)果更加準(zhǔn)確,具有更加優(yōu)越的魯棒性。

      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);FPN;Evaluation模塊

      中圖分類號(hào):TP291

      文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1006-1037(2021)01-0034-06

      基金項(xiàng)目:國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào):61901240)資助;山東自然科學(xué)基金(批準(zhǔn)號(hào):ZR2019MF050, ZR2019BF042)資助。

      通信作者:王國(guó)棟,男,博士,副教授,主要研究方向是人工智能、深度學(xué)習(xí)。E-mail:doctorwgd@gmail.com

      近年來(lái),由于對(duì)現(xiàn)實(shí)生活中應(yīng)用的大量需求,計(jì)算機(jī)視覺領(lǐng)域中有關(guān)“人”的研究越來(lái)越受到關(guān)注,例如:人臉識(shí)別[1-6],行人檢測(cè)[7-9]和跟蹤,異常行為檢測(cè)等。其中許多已經(jīng)在現(xiàn)實(shí)生活中產(chǎn)生了實(shí)用價(jià)值。在此之前,已經(jīng)有許多實(shí)例分割的算法[10-11],目前比較流行的主流的方法是基于深度學(xué)習(xí)的分割方法[12-14],例如:ResNet、Fast R-CNN、Faster R-CNN、Mask R-CNN、PANet[15-19]等網(wǎng)絡(luò)結(jié)構(gòu),對(duì)實(shí)例分割的算法基本類似:首先生成圖像中的多個(gè)候選區(qū)域,然后在生成的候選區(qū)域中,用非極大值抑制算法(NMS)從中刪除不符合要求的候選區(qū)域。但是,當(dāng)圖像中存在兩個(gè)高度重疊的對(duì)象時(shí),NMS會(huì)將其中的一個(gè)邊界框視為重復(fù)的候選區(qū)域并將其刪除,表示這些算法無(wú)法區(qū)分高度重疊的兩個(gè)對(duì)象。而人在生活中普遍會(huì)出現(xiàn)緊密相連的畫面,所以用上述基于候選框的方法存在某個(gè)人不能被分割出來(lái)從而造成實(shí)驗(yàn)結(jié)果的不準(zhǔn)確。除此之外,在當(dāng)前的網(wǎng)絡(luò)框架中,檢測(cè)的分?jǐn)?shù)(即假設(shè)由分類得分中最大的元素決定)由于背景雜波、遮擋等問(wèn)題,分類分?jǐn)?shù)可能較高,但Mask質(zhì)量較低,利用候選框得到的實(shí)例Mask的分?jǐn)?shù)通常與box分類置信度有關(guān),使用分類置信度來(lái)度量Mask質(zhì)量是不合適的,因?yàn)橹挥糜趨^(qū)分proposal的語(yǔ)義類別,而不知道實(shí)例Mask的實(shí)際質(zhì)量和完整性。通過(guò)對(duì)上述問(wèn)題的研究,本文發(fā)現(xiàn)利用人體骨骼的特殊性能夠更好的把圖片中的人精準(zhǔn)的分割出來(lái),從而避免了候選框所帶來(lái)的漏檢情況,所以本文利用人體骨骼對(duì)人體分割,通過(guò)人體的關(guān)鍵點(diǎn)將人體骨骼連接起來(lái),利用人體姿態(tài)[20-23]對(duì)人進(jìn)行準(zhǔn)確的分割;提出了一個(gè)全新的模塊Evaluation模塊,該模塊的作用是使IoU在預(yù)測(cè)的Mask及其ground truth的Mask進(jìn)行回歸,該模塊解決了Mask得分情況與其Mask質(zhì)量不匹配的情況。

      1 基本原理

      本文提出一個(gè)全新的模塊,用來(lái)計(jì)算Mask分支得到的Mask與ground truth對(duì)應(yīng)的Mask之間的像素級(jí)別的IoU值(以下簡(jiǎn)稱IoU),來(lái)衡量分割的精確程度。首先選用ResNet50網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),ResNet網(wǎng)絡(luò)事實(shí)上是由多個(gè)淺的網(wǎng)絡(luò)融合而成,避免了消失的梯度問(wèn)題,所以能夠加速網(wǎng)絡(luò)的收斂。

      網(wǎng)絡(luò)結(jié)構(gòu)采用FPN網(wǎng)絡(luò)[24]進(jìn)行特性提取。把低分辨率、高語(yǔ)義信息的高層特征和高分辨率、低語(yǔ)義信息的低層特征進(jìn)行自上而下的橫向連接,使得所有尺度下的特征都有豐富的語(yǔ)義信息。FPN網(wǎng)絡(luò)可以在增加較少計(jì)算量的前提下將處理過(guò)的低層特征和高層特征進(jìn)行累加,因?yàn)榈蛯犹卣骺梢蕴峁└訙?zhǔn)確的位置信息,高層特征能夠提供比較細(xì)節(jié)的信息,利用深層特征可以將復(fù)雜的目標(biāo)區(qū)分開來(lái);利用比較深層次的網(wǎng)絡(luò)來(lái)構(gòu)造特征金字塔,可以增加魯棒性[25-26]。FPN的大致內(nèi)容包括:自底向上、自頂向下和橫向連接。

      自底向上(Bottom-top):也就是特征提取網(wǎng)絡(luò),即較低層反映較淺層次的特征圖邊緣信息等;較高的層則反映較深層次的特征圖物體輪廓、乃至類別等。

      自頂向下(Top-bottom):上層的特征輸出特征圖比較小,但卻能表示更大維度的圖片信息。此類高層信息對(duì)后續(xù)的目標(biāo)檢測(cè)、物體分類等任務(wù)發(fā)揮關(guān)鍵作用。因此在處理每一層信息時(shí)會(huì)參考上一層的高層信息做其輸入,將上層特征圖等比例放大后再與本層的特征圖做橫向連接。

      卷積特征與每一級(jí)別輸出之間的表達(dá)關(guān)聯(lián):使用1×1的卷積即可生成較好的輸出特征,可有效降低中間層次的通道數(shù)目,使輸出不同維度的各個(gè)特征圖有相同的通道數(shù)目。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

      為了解決人體遮擋、重疊等不良因素,利用人體的骨骼特征來(lái)對(duì)人體進(jìn)行分割。人類骨架更適合用來(lái)區(qū)分兩個(gè)重合面積很大的人,相比邊界框,可以提供更清晰的個(gè)人信息。實(shí)例分割中,大多數(shù)分割框架都采用實(shí)例的置信度作為Mask質(zhì)量分?jǐn)?shù)。然而,被量化為Mask實(shí)例與其ground truth之間的IoU的Mask質(zhì)量通常與分類分?jǐn)?shù)相關(guān)性不強(qiáng),所以本文提出一個(gè)全新的模塊,用來(lái)計(jì)算Mask分支得到的Mask與ground truth對(duì)應(yīng)的Mask之間的像素級(jí)別的IoU值,來(lái)衡量分割的精確程度。整體網(wǎng)絡(luò)框架如圖2所示。

      借鑒AP指標(biāo),實(shí)例分割利用預(yù)測(cè)的Mask與ground truth的Mask之間的像素級(jí)相交過(guò)并(IoU)來(lái)描述實(shí)例分割質(zhì)量,提出了一種直接學(xué)習(xí)IoU的網(wǎng)絡(luò)。在本文中,IoU表示為Evaluation。通過(guò)將預(yù)測(cè)的Mask分?jǐn)?shù)來(lái)重新評(píng)估分割精準(zhǔn)程度。

      學(xué)習(xí)Evaluation不同于proposal classification或Mask prediction,需要將預(yù)測(cè)的Mask與object feature進(jìn)行比較。本文提出了一個(gè)名為Evaluation head的Mask預(yù)測(cè)網(wǎng)絡(luò),以Mask分支的輸出和由對(duì)齊模塊Affine-Align處理的RoI特征作為輸入,使用簡(jiǎn)單的回歸損耗進(jìn)行訓(xùn)練。大量的實(shí)驗(yàn)結(jié)果表明,本文的方法提供了一致和顯著的性能改進(jìn),這歸因于Mask質(zhì)量和Score之間的一致性。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

      本文提出的利用人體骨骼來(lái)進(jìn)行人體分割的打分機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)主要有以下特點(diǎn):通過(guò)FPN網(wǎng)絡(luò)采用多尺度融合的方式,各個(gè)層級(jí)都有豐富的語(yǔ)義信息;提出打分機(jī)制, 加入Evaluation分支,直接學(xué)習(xí)IoU的網(wǎng)絡(luò),通過(guò)計(jì)算IoU值,來(lái)衡量分割的精確程度。

      2 實(shí)驗(yàn)過(guò)程

      本文利用K-均值聚類生成的人體姿勢(shì)模板,生成的姿勢(shì)模板符合日常生活最普遍的姿勢(shì),半身和全身,其中全身分為前視圖和后視圖,如圖4所示。

      利用K-均值聚類人的姿勢(shì)聚集成集合S(S={S1,S2,……,Sn}),兩個(gè)姿勢(shì)之間的距離如式(1)、(2)

      其中,Pu是姿勢(shì)集合中Sn的平均值,并將Pu>0.5關(guān)鍵點(diǎn)作為有效點(diǎn),Cα表示人體關(guān)鍵點(diǎn)的坐標(biāo)。用式(1)、(2)定義兩個(gè)人之間的距離:(1)首先使用其邊界框裁剪每個(gè)實(shí)例的正方形RoI,然后將目標(biāo)及其姿勢(shì)坐標(biāo)放到RoI的中心;(2)將此平方RoI的大小調(diào)整為1×1,以便將姿勢(shì)坐標(biāo)都?xì)w一化為(0,1);(3)僅計(jì)算數(shù)據(jù)集中包含8個(gè)以上有效點(diǎn)的那些姿勢(shì),以達(dá)到姿勢(shì)模板的要求。有效點(diǎn)太少的姿勢(shì)無(wú)法提供有效的信息,并且會(huì)在K-均值聚類期間充當(dāng)離群值舍棄。最普遍的兩個(gè)姿勢(shì)就是半身姿勢(shì)和全身姿勢(shì)(全身后視圖和前視圖,如圖4所示),也符合日常生活,其他的姿勢(shì)通過(guò)放射變換矩陣盡可能的向其轉(zhuǎn)換。

      數(shù)據(jù)集有兩部分,COCO數(shù)據(jù)集和OCHuman數(shù)據(jù)集,COCO數(shù)據(jù)集是一個(gè)大型的、豐富的物體檢測(cè),分割和字幕數(shù)據(jù)集。但是在本文中COCO數(shù)據(jù)集使用僅含有人的圖片來(lái)進(jìn)行訓(xùn)練,由于公共數(shù)據(jù)集很少同時(shí)有人體姿勢(shì)和人體實(shí)例分割標(biāo)簽,COCO數(shù)據(jù)集是同時(shí)滿足這兩個(gè)要求的最大數(shù)據(jù)集,因此所有模型都在COCOPersons訓(xùn)練集中進(jìn)行,并帶有姿勢(shì)關(guān)鍵點(diǎn)和分割Mask的注釋;OCHuman數(shù)據(jù)集包含4 731張圖像中的8 110個(gè)人類實(shí)例, 每個(gè)人類實(shí)例都被一個(gè)或多個(gè)其他實(shí)例嚴(yán)重阻擋。使用MaxIoU來(lái)衡量被遮擋對(duì)象的嚴(yán)重性,MaxIoU> 0.5的那些實(shí)例稱為重度遮擋,并被選擇構(gòu)成此數(shù)據(jù)集。OCHuman平均每個(gè)人的平均MaxIoU為0.67,是與人類實(shí)例相關(guān)的最具挑戰(zhàn)性的數(shù)據(jù)集。見表1。

      3 實(shí)驗(yàn)結(jié)果

      在上述兩個(gè)數(shù)據(jù)集上評(píng)估了本文提出的方法:(1)OCHuman是最大的驗(yàn)證數(shù)據(jù)集,主要適用于被嚴(yán)重遮擋的人;(2)COCOPersons(COCO的人員類別)[28],其中包含日常生活中最常見的情況。實(shí)驗(yàn)中,對(duì)OCHuman數(shù)據(jù)集進(jìn)行測(cè)試,對(duì)人的遮擋和重疊進(jìn)行了測(cè)試,而COCO數(shù)據(jù)集僅訓(xùn)練“人”這一類別。

      實(shí)驗(yàn)結(jié)果如表2、表3、圖 5、圖6所示,本文提出的模型優(yōu)于Pose2seg模型,具有更好的穩(wěn)定性。首先,在OCHuman上的實(shí)驗(yàn)結(jié)果有比較明顯的提升,比Pose2seg提高了1.9AP,對(duì)于AP@0.5和AP@0.75也有不同程度的提升[29]。其次,由COCOPerson數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果可以看出,在一般情況下,本文提出的算法是可行的,對(duì)人體分割的精度有所提升。

      4 結(jié)論

      本文通過(guò)人體骨骼和Evaluation模塊(計(jì)算Mask分支得到的Mask與ground truth對(duì)應(yīng)的Mask之間的像素級(jí)別的IoU值,來(lái)衡量分割的精確程度)對(duì)人體進(jìn)行分割,提出的打分機(jī)制可以很好地預(yù)測(cè)Mask的質(zhì)量,利用FPN網(wǎng)絡(luò)很好的能夠融合多層特征圖的語(yǔ)義信息和人體特有的骨骼信息,能夠很好的對(duì)人體進(jìn)行分割。通過(guò)測(cè)試OCHuman數(shù)據(jù)集,結(jié)果表明,本文提出的Evaluation模塊對(duì)人體分割有明顯的提升。

      參考文獻(xiàn)

      [1]LIU S, ZHANG Y Q, YANG X S, et al. Robust facial landmark detection and tracking across poses and expressions for in-the-wild monocular video[J]. Computational Visual Media, 2017, 3(1):33-47.

      [2]MA X, LI Y L. Robust sparse representation based face recognition in an adaptive weighted spatial pyramid structure[J]. 2018, 61(1):101-103.

      [3]PENG O Y, YIN S Y, DENG C C, et al. A fast face detection architecture for auto-focus in smart-phones and digital cameras[J]. 2016, 59(12):1-13.

      [4]WANG J, ZHANG J Y, LUO C W, et al. Joint head pose and facial landmark regression from depth images[J]. Computational Visual Media, 2017, 2(3):1-13.

      [5]ZHANG Z P, LUO P, TANG X O, et al. Facial Landmark Detection by Deep Multi-task Learning[C]// European Conference on Computer Vision. Springer, Cham, 2014:633-647.

      [6]BRUNELLI R, POGGIO T. Face recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993, 15(10): 1042-1052.

      [7]MAO J, XIAO T, JING Y N, et al. What can help pedestrian detection? [C]// 30th IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, 2017: 6034-6043.

      [8]ZHANG L L, LIN L, LIANG X D, et al. Is faster R-CNN doing well for pedestrian detection?[C]// 14th European Conference on Computer Vision (ECCV). Amsterdam, 2016: 443-457.

      [9]ZHANG S, YANG J, SCHIELE B. Occluded pedestrian detection through guided attention in CNNs[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, 2018:6995-7003.

      [10] CHEN H, SUN K, TIAN Z, et al. BlendMask: Top-down meets bottom-up for instance segmentation[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:112-126.

      [11] LI Y, QI H, DAI J, et al. Fully Convolutional instance-aware semantic segmentation[C]// 30th IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 2017: 4438-4446.

      [12] BOLYA D, ZHOU C, XIAO F Y, et al. YOLACT++: Better real-time instance segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, (99): DOI:10.1109/TPAMI.2020.3014297.

      [13] HARIHARAN B, ARBELáEZ P, GIRSHICK R, et al. Hypercolumns for object segmentation and fine-grained localization[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, 2015: 447-456.

      [14] DAI J, HE K, LI Y, et al. Instance-sensitive fully convolutional networks[C]// 14th European Conference on Computer Vision (ECCV). Amsterdam, 2016: 534-549.

      [15] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, 2016:770-778.

      [16] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.

      [17] HE K M, GEORGIA G, PIOTR D, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 36(2):1-1.

      [18] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2018: 536-544.

      [19] HUANG Z, HUANG L, GONG Y, et al. Mask scoring R-CNN[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:127-136.

      [20] CHEN Y, WANG Z, PENG Y, et al. Cascaded pyramid network for multi-person pose estimation[C]// Conference on Computer Vision and Pattern recognition(CVPR). 2017:733-747.

      [21] FANG H S, XIE S Q, TAI Y M, et al. RMPE: Regional multi-person pose estimation[C]//16th IEEE International Conference on Computer Vision(ICCV).Venice, 2016:2353-2362.

      [22] LIFKOOEE M Z, LIU C L, LIANG Y Q, et al. Real-time avatar pose transfer and motion generation using locally encoded laplacian offsets[J]. Journal of Computer Science and Technology, 2019, 34(2):256-271.

      [23] XIA S H, GAO L, LAI Y K, et al. A survey on human performance capture and animation[J]. Journal of Computer Science and Technology, 2017(32):536-554.

      [24] LIN T, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// Conference on Computer Vision and Pattern Recognition (CVPR).2017:304-311.

      [25] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deeplab: Semantic image segmentation with deep convolutional Nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848.

      [26] LI M, ZHANG Z, HUANG K, et al. Estimating the number of people in crowded scenes by MID based foreground segmentation and head-shoulder detection[C]// 19th International Conference on Pattern Recognition (ICPR 2008), Tampa, 2009:447-456.

      [27] CAO Z, SIMON T, WEI S, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]// 30th IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 2016: 1302-1310.

      [28] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects in Context[C]//Europearn Corcference on Computer Vision. Springer, 2014:740-755.

      [29] ZHANG S H, LI R L, DONG X, et al. Pose2Seg: Detection free human instance segmentation[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 889-898.

      猜你喜歡
      實(shí)例姿勢(shì)人體
      人體“修補(bǔ)匠”
      人體冷知識(shí)(一)
      排便順暢,人體無(wú)毒一身輕
      倒掛在樹上,我的主要姿勢(shì)
      文苑(2020年5期)2020-06-16 03:18:10
      看書的姿勢(shì)
      解鎖咳嗽的正確姿勢(shì)
      奇妙的人體止咳點(diǎn)
      特別健康(2018年3期)2018-07-04 00:40:10
      完形填空Ⅱ
      完形填空Ⅰ
      發(fā)言要注意姿勢(shì)
      安仁县| 屏山县| 绍兴县| 万全县| 普兰店市| 宁乡县| 新平| 朔州市| 白沙| 普定县| 丰台区| 西乡县| 金阳县| 临桂县| 隆林| 云阳县| 抚松县| 隆化县| 新野县| 阜平县| 南开区| 陇川县| 黑山县| 馆陶县| 福泉市| 塔城市| 白银市| 东莞市| 东港市| 盐源县| 江津市| 清水河县| 乐山市| 玉屏| 贡觉县| 分宜县| 北辰区| 容城县| 松江区| 炎陵县| 安岳县|