王 凱,陳麗萍
(1.廈門醫(yī)學(xué)院,福建 廈門 361000;2.包頭醫(yī)學(xué)院 衛(wèi)生健康學(xué)院,內(nèi)蒙古 包頭 014030)
全監(jiān)督學(xué)習(xí)的快速發(fā)展為深度學(xué)習(xí)的可靠性奠定了基礎(chǔ),然而全監(jiān)督學(xué)習(xí)方法面臨著數(shù)據(jù)需求量過(guò)大的挑戰(zhàn)。具體來(lái)說(shuō),對(duì)于密集預(yù)測(cè)任務(wù),如目標(biāo)檢測(cè)和語(yǔ)義分割需要大量的標(biāo)記數(shù)據(jù),同樣,人體姿勢(shì)估計(jì)任務(wù)也需要很昂貴的標(biāo)注成本。給定大量的標(biāo)注訓(xùn)練數(shù)據(jù)對(duì)于訓(xùn)練姿勢(shì)估計(jì)以及各種識(shí)別深度學(xué)習(xí)模型(例如,對(duì)象識(shí)別[1]和人臉識(shí)別[2])極其關(guān)鍵。盡管用于人體姿勢(shì)估計(jì)的數(shù)據(jù)集的規(guī)模一直在增加(如圖像解析數(shù)據(jù)集中有305 張圖像[3],LSP 數(shù)據(jù)集中有2 000 張圖像[4],MPII 人體姿勢(shì)數(shù)據(jù)集中有25 000 張圖像[5]),但是與目標(biāo)識(shí)別任務(wù)相比,人體姿勢(shì)估計(jì)的大型數(shù)據(jù)集仍然遠(yuǎn)遠(yuǎn)不足(如ISVRC[6]中超過(guò)1 430 000 張圖像)。這是因?yàn)槿梭w姿勢(shì)標(biāo)注比目標(biāo)識(shí)別以及語(yǔ)義分割任務(wù)的窗口標(biāo)注和區(qū)域標(biāo)注復(fù)雜得多[7]。為了解決標(biāo)注數(shù)據(jù)不足的問(wèn)題,在結(jié)合半監(jiān)督學(xué)習(xí)(SSL)的姿態(tài)估計(jì)方法中,通過(guò)使用未標(biāo)記數(shù)據(jù)得到了較好的姿態(tài)估計(jì)效果。
最初的半監(jiān)督學(xué)習(xí)工作主要集中在分類任務(wù)上[8]。一般來(lái)說(shuō),通過(guò)偽標(biāo)簽的方法來(lái)探索未標(biāo)記的圖像,首先使用有監(jiān)督學(xué)習(xí)方式僅在已標(biāo)注的圖像上學(xué)習(xí)初始模型。然后,對(duì)于未標(biāo)記的數(shù)據(jù),應(yīng)用初始模型來(lái)獲得表示其類別的硬或軟偽標(biāo)簽。最后,在混合標(biāo)記數(shù)據(jù)和偽標(biāo)記數(shù)據(jù)的組合數(shù)據(jù)集上學(xué)習(xí)最終模型。其中尤為經(jīng)典的是自學(xué)習(xí)半監(jiān)督模型[9]。
半監(jiān)督學(xué)習(xí)方法雖然在部分研究任務(wù)中取得了較好的效果,但是仍然存在問(wèn)題,偽標(biāo)簽的選擇對(duì)后續(xù)模型的持續(xù)性訓(xùn)練影響很大,選擇置信度低的偽標(biāo)簽將降低模型的效果。基于這一問(wèn)題,該文提出了一種將真實(shí)標(biāo)簽與偽標(biāo)簽進(jìn)行混合自學(xué)習(xí)的方法,稱之為基于半監(jiān)督學(xué)習(xí)的運(yùn)動(dòng)員姿態(tài)提取技術(shù)(Athlete Pose extraction technology based on Semi-Supervised Learning,AP-SSL),并進(jìn)行了一系列實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,該方法能夠達(dá)到最佳的半監(jiān)督姿態(tài)估計(jì)效果。
該文提出的自監(jiān)督姿態(tài)估計(jì)網(wǎng)絡(luò)使用了兩個(gè)不同的訓(xùn)練集。自監(jiān)督姿態(tài)估計(jì)網(wǎng)絡(luò)模型如圖1(a)所示,首先基于真實(shí)標(biāo)簽數(shù)據(jù)集進(jìn)行姿態(tài)估計(jì)訓(xùn)練網(wǎng)絡(luò)模型的初始化訓(xùn)練,其姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)如圖1(b)所示。模型構(gòu)建過(guò)程中為了增強(qiáng)模型對(duì)有效區(qū)域特征的獲取能力,在編解碼主干姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)中使用了該文提出的硬注意力機(jī)制(Hard Attention Mechanism,HAM),其整體結(jié)構(gòu)如圖2所示。
圖1 自監(jiān)督姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2 硬注意力機(jī)制流程圖
硬注意力機(jī)制的構(gòu)建可以對(duì)有效特征進(jìn)行篩選,從而能夠準(zhǔn)確獲取有效特征的激活權(quán)重。
該文提出的硬注意機(jī)制的實(shí)現(xiàn)策略如下:
式中,Ws表示輸出權(quán)重大小。其具體實(shí)現(xiàn)流程如下:對(duì)于輸入數(shù)據(jù),首先基于全局最大池化MaxPool和全局平均池化AvgPool 進(jìn)行全局通道歸一化,再通過(guò)雙隱層的MLP 將數(shù)據(jù)縮放為描述符,并通過(guò)Sigmoid 進(jìn)行激活,最后設(shè)定閾值為0.5 對(duì)特征權(quán)重進(jìn)行深度篩選。獲取的權(quán)重與原輸入數(shù)據(jù)相乘后即可獲取硬注意力特征數(shù)據(jù)。
在編解碼網(wǎng)絡(luò)結(jié)構(gòu)中,添加硬注意力機(jī)制能夠促使網(wǎng)絡(luò)不斷關(guān)注有效特征,進(jìn)而提升整體模型的姿態(tài)提取效果。對(duì)添加了硬注意力機(jī)制的姿態(tài)估計(jì)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練過(guò)程中的部分特征進(jìn)行了可視化展示,如圖3 所示。圖3 中自左向右是隨著網(wǎng)絡(luò)層次的加深,硬注意力機(jī)制的輸出特征圖。亮度值高的區(qū)域代表網(wǎng)絡(luò)的關(guān)注區(qū)域。
圖3 硬注意力機(jī)熱力圖
從圖3 可以看出,隨著網(wǎng)絡(luò)層次的加深,硬注意力機(jī)制能夠促進(jìn)網(wǎng)絡(luò)逐漸關(guān)注人體姿態(tài)的關(guān)鍵節(jié)點(diǎn)部位。
損失函數(shù)的構(gòu)建能夠提升網(wǎng)絡(luò)結(jié)構(gòu)的性能,使得網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中快速收斂。文中構(gòu)建了聯(lián)合損失函數(shù),并且在訓(xùn)練過(guò)程中創(chuàng)新性的提出了自適應(yīng)損失擬合策略(Adaptive Loss Fitting strategy,ALF)來(lái)充分挖掘偽標(biāo)簽數(shù)據(jù)的信息?;谡鎸?shí)標(biāo)簽的損失函數(shù)Lloss如下:
式中,Ll1[10]和Ll2[11]損失函數(shù)定義如下:
式中,Yi為真實(shí)目標(biāo)值,f(Xi)為估計(jì)值。當(dāng)偽標(biāo)簽數(shù)據(jù)與真實(shí)標(biāo)簽數(shù)據(jù)進(jìn)行混合時(shí),由于偽標(biāo)簽的存在,無(wú)法有效評(píng)估損失函數(shù)的與實(shí)際損失的差距。為了解決這個(gè)問(wèn)題,首先構(gòu)建了聯(lián)合損失函數(shù)Ltotal,其定義如下:
式中,Lloss為真實(shí)標(biāo)簽的損失函數(shù),Uloss為偽標(biāo)簽損失函數(shù),λ為偽標(biāo)簽權(quán)重。自適應(yīng)損失擬合策略的實(shí)現(xiàn)方式如下:在訓(xùn)練過(guò)程中,Uloss是非可靠因子,因此,將Lloss設(shè)置為標(biāo)準(zhǔn)損失,當(dāng)Lloss不斷降低時(shí),認(rèn)為當(dāng)前的訓(xùn)練迭代是向著正確的方向擬合,此時(shí)λ設(shè)置為1;當(dāng)Lloss增加時(shí),將λ設(shè)置為0。
實(shí)驗(yàn)驗(yàn)證部分在裝有NVIDIA 2080TI 顯卡的服務(wù)器上進(jìn)行,其學(xué)習(xí)率設(shè)置為0.000 1。為了快速收斂,該文還使用Adam 優(yōu)化器[12]來(lái)訓(xùn)練模型,損失函數(shù)的設(shè)置將很大程度上影響模型的性能,該文選擇提出的Ltotal作為損失函數(shù),訓(xùn)練迭代次數(shù)為100,并且選擇姿態(tài)估計(jì)精度AP(Average Precision)為評(píng)價(jià)指標(biāo)對(duì)所提方法進(jìn)行評(píng)估。
實(shí)驗(yàn)過(guò)程中使用公共可用的LSP 擴(kuò)展數(shù)據(jù)集并對(duì)所提方法進(jìn)行了訓(xùn)練。LSP 數(shù)據(jù)集中的圖像使用了八個(gè)動(dòng)作標(biāo)簽(即與每個(gè)圖像相關(guān)的文本標(biāo)簽),包含田徑、羽毛球、棒球、體操、跑酷、足球、網(wǎng)球和排球等八個(gè)不同的運(yùn)動(dòng)姿態(tài)。LSP 的訓(xùn)練集共計(jì)1 200張圖像,其中,500 張作為真實(shí)標(biāo)簽數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練獲取初始化姿態(tài)估計(jì)網(wǎng)絡(luò)模型,另500 張無(wú)標(biāo)簽圖像獲取偽標(biāo)簽后,與真實(shí)標(biāo)簽數(shù)據(jù)進(jìn)行混合訓(xùn)練,選剩余200 張圖像作為測(cè)試集。
選擇不同的網(wǎng)絡(luò)結(jié)構(gòu)包括ResNet50[13]、ResNet 101[14]、ResNet152[15]和HRNetW48[16]作為主干網(wǎng)絡(luò),基于LSP 數(shù)據(jù)集對(duì)比全監(jiān)督姿態(tài)估計(jì)方法與該文提出的半監(jiān)督姿態(tài)估計(jì)方法,實(shí)驗(yàn)結(jié)果如表1 所示。此外,對(duì)部分實(shí)驗(yàn)結(jié)果進(jìn)行了可視化,如圖4 所示。其中,圖4(a)代表單獨(dú)使用真實(shí)標(biāo)簽的全監(jiān)督運(yùn)動(dòng)員姿態(tài)估計(jì)方法的實(shí)驗(yàn)結(jié)果,圖4(b)代表基于半監(jiān)督學(xué)習(xí)的運(yùn)動(dòng)員姿態(tài)估計(jì)方法的實(shí)驗(yàn)結(jié)果。
表1 姿態(tài)估計(jì)結(jié)果數(shù)據(jù)對(duì)比
圖4 實(shí)驗(yàn)結(jié)果可視化展示圖
對(duì)表1 以及圖4 中的數(shù)據(jù)進(jìn)行分析可以得出,基于偽標(biāo)簽與真實(shí)標(biāo)簽相結(jié)合的半監(jiān)督學(xué)習(xí)方式,能夠有效使用偽標(biāo)簽數(shù)據(jù),與單獨(dú)使用真實(shí)標(biāo)簽數(shù)據(jù)的全監(jiān)督學(xué)習(xí)方式相比較,在不同主干網(wǎng)絡(luò)結(jié)構(gòu)下,姿態(tài)提取精度最高提升了3.2%,充分驗(yàn)證了該文提出的基于半監(jiān)督學(xué)習(xí)的運(yùn)動(dòng)員姿態(tài)提取方法的有效性。
為了進(jìn)一步驗(yàn)證該文提出的硬注意力機(jī)制的有效性,以ResNet50 為主干網(wǎng)絡(luò)結(jié)構(gòu),在跳躍連接層分別添加硬注意力機(jī)制和不添加硬注意力機(jī)制,作為一組對(duì)比實(shí)驗(yàn),并基于LSP 數(shù)據(jù)集進(jìn)行了半監(jiān)督姿態(tài)估計(jì)效果驗(yàn)證。其實(shí)驗(yàn)結(jié)果如表2 所示。
表2 硬注意力機(jī)制的有效性驗(yàn)證結(jié)果
表2 實(shí)驗(yàn)結(jié)果表明,硬注意力機(jī)制的添加能夠增加1.4%的姿態(tài)估計(jì)精度,充分驗(yàn)證了硬注意力機(jī)制的有效性。
文中還分別對(duì)比了單獨(dú)的L1、L2損失函數(shù)和該文提出的聯(lián)合損失函數(shù)對(duì)網(wǎng)絡(luò)模型的影響,將不同損失函數(shù)應(yīng)用于該文提出的半監(jiān)督學(xué)習(xí)的運(yùn)動(dòng)員姿態(tài)提取網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)訓(xùn)練次數(shù)增加,相應(yīng)的姿態(tài)估計(jì)精度和損失函數(shù)如圖5 所示。對(duì)圖5 中的折線圖進(jìn)行對(duì)比分析可以看出,該文提出的聯(lián)合損失函數(shù)能夠加快模型收斂,進(jìn)一步驗(yàn)證了聯(lián)合損失函數(shù)的有效性。
該文提出了一種基于半監(jiān)督學(xué)習(xí)的運(yùn)動(dòng)員姿態(tài)提取方法,該方法通過(guò)混合學(xué)習(xí)的方式有效利用了未標(biāo)注數(shù)據(jù)。與傳統(tǒng)半監(jiān)督學(xué)習(xí)方式相比較,該方法構(gòu)建了自適應(yīng)損失擬合策略,能夠更加合理地對(duì)偽標(biāo)簽數(shù)據(jù)的訓(xùn)練損失權(quán)重進(jìn)行調(diào)整。并且還提出了硬注意力機(jī)制,以更加有效地提取上下文語(yǔ)義信息。最后,基于公開(kāi)的LSP 數(shù)據(jù)集,對(duì)該方法進(jìn)行了一系列實(shí)驗(yàn)驗(yàn)證。
基于半監(jiān)督學(xué)習(xí)的運(yùn)動(dòng)員姿態(tài)提取方法雖然取得了較好的運(yùn)動(dòng)員姿態(tài)估計(jì)效果,但是其模型計(jì)算量較大,接下來(lái)的研究工作將致力于構(gòu)建輕量級(jí)的半監(jiān)督學(xué)習(xí)模型,以更好地應(yīng)用于實(shí)際任務(wù)中。