漆愚 蘇菡 侯蓉 劉鵬 陳鵬* 臧航行 張志和
(1四川師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,成都 610101)(2成都大熊貓繁育研究基地,四川省瀕危野生動(dòng)物保護(hù)生物學(xué)重點(diǎn)實(shí)驗(yàn)室,成都 610086)(3四川省大熊貓科學(xué)研究院,成都 610081)
人類活動(dòng)對(duì)自然生態(tài)環(huán)境造成的嚴(yán)重破壞,直接導(dǎo)致大量物種的滅絕。遷地保護(hù)是生物多樣性保護(hù)的重要部分,是就地保護(hù)重要的補(bǔ)充。掌握遷地保護(hù)動(dòng)物的行為信息能夠更好地評(píng)估圈養(yǎng)動(dòng)物的身心健康以及動(dòng)物福利(李凱年,2012;周曉等,2013;陳緒玲等,2016)。大熊貓(Ailuropoda melanoleuca)為野生動(dòng)物保護(hù)的旗艦物種之一(Zhanget al.,2007),也是世界上遷地保護(hù)最成功的物種之一,其生存狀況受到國內(nèi)外研究者的高度關(guān)注。目前,圈養(yǎng)大熊貓面臨生活環(huán)境單一、活動(dòng)空間狹小、長期面對(duì)大量的旅游者等問題。這在某種程度上可能導(dǎo)致大熊貓的行為多樣性降低,刻板行為增加,進(jìn)而影響大熊貓的正常行為和生產(chǎn)性能表現(xiàn)(周杰瓏等,2012;楊勇等,2019)。在關(guān)于動(dòng)物健康和福利的研究中,行為定量分析起著至關(guān)重要的作用,通過對(duì)動(dòng)物持續(xù)監(jiān)測所獲得的行為數(shù)據(jù)進(jìn)行行為測定和量度分析,能較為準(zhǔn)確地反映動(dòng)物行為隨著生理健康變化而發(fā)生的動(dòng)態(tài)規(guī)律,是動(dòng)物行為學(xué)研究走向科學(xué)化和嚴(yán)謹(jǐn)化的重要一步,更是行為學(xué)數(shù)學(xué)建模的重要基礎(chǔ)(Liuet al.,2006;Rushenet al.,2011;Koolhaas and Van Reenen,2016)。大熊貓的行為與其身體狀態(tài)和健康密切相關(guān),不同的行為會(huì)傳遞不同的健康信息。行為是由不同姿態(tài)組合而成的,而姿態(tài)估計(jì)是行為分析的一個(gè)組成部分(Liet al.,2019),獲取姿態(tài)是了解行為的基礎(chǔ)(陳永康等,2019)。
目前在大熊貓健康監(jiān)測相關(guān)研究中,主要采用行為學(xué)觀察(Liuet al.,2006)和抽血化驗(yàn)等生物學(xué)方法對(duì)大熊貓健康狀況進(jìn)行監(jiān)測(李才武等,2012)。其中行為學(xué)觀察可借助于現(xiàn)代高速攝像機(jī)對(duì)大熊貓的行為進(jìn)行實(shí)時(shí)記錄,但人工手動(dòng)分析耗時(shí)耗力,且對(duì)于視頻的記錄觀察存在一定主觀性;抽血化驗(yàn)方法雖然對(duì)大熊貓健康狀態(tài)評(píng)估的可靠性較高,但該方法不僅對(duì)工作人員有嚴(yán)格要求,而且容易引起大熊貓的應(yīng)激反應(yīng),對(duì)大熊貓的身心健康帶來負(fù)面影響,不宜經(jīng)常性開展(陳艷等,2019)。因此,迫切需要新的技術(shù)對(duì)大熊貓的行為進(jìn)行快速智能識(shí)別,為輔助評(píng)估其健康狀態(tài)提供技術(shù)支持。
近年來,隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來越多的研究將先進(jìn)的計(jì)算機(jī)視覺技術(shù)、圖像處理和模式識(shí)別技術(shù)應(yīng)用于野生動(dòng)物保護(hù)。He等(2019)基于小熊貓面部圖像提出了小熊貓個(gè)體識(shí)別框架以促進(jìn)自動(dòng)識(shí)別。Wang等(2019)提出了一種深度學(xué)習(xí)方法用于研究大熊貓面部在性別分類上的可區(qū)分性。Schofield等(2019)提出了一種用于對(duì)野生黑猩猩(Pan troglodytes)進(jìn)行面部檢測、跟蹤和識(shí)別的全自動(dòng)深度學(xué)習(xí)框架。Feng等(2021)提出使用時(shí)空網(wǎng)絡(luò)將骨架特征與輪廓特征結(jié)合,自動(dòng)識(shí)別貓科動(dòng)物的動(dòng)作,從而對(duì)野生貓科動(dòng)物的保護(hù)起到輔助作用。這些研究充分證明了計(jì)算機(jī)技術(shù)在動(dòng)物保護(hù)領(lǐng)域的可行性。
姿態(tài)估計(jì)作為計(jì)算機(jī)視覺技術(shù)的熱門領(lǐng)域,目前已取得了不錯(cuò)的進(jìn)展,尤其是基于人體的姿態(tài)估計(jì)(Toshev and Szegedy,2014;Linet al.,2014;Fanget al.,2017)。姿態(tài)估計(jì)主要預(yù)測被檢測物體的身體關(guān)鍵點(diǎn)聯(lián)系,是姿態(tài)識(shí)別和行為分析的前提(張飛宇等,2021)。傳統(tǒng)的人體姿態(tài)估計(jì)方法側(cè)重于通過探索目標(biāo)圖像中關(guān)節(jié)之間的幾何關(guān)系來實(shí)現(xiàn)關(guān)節(jié)的檢測(Tianet al.,2012;Pishchulinet al.,2013),但其受限于人工特征的選取以及樹模型的建立,不適用于實(shí)際應(yīng)用。近年來,基于深度神經(jīng)網(wǎng)絡(luò)模型的方法取得了進(jìn)展(Pishchulinet al.,2016;Newellet al.,2016;Caoet al.,2017;Yanget al.,2017;Sunet al.,2019)。目前,基于深度神經(jīng)網(wǎng)絡(luò)模型的姿態(tài)估計(jì)方法大多采用“編碼—解碼”的網(wǎng)絡(luò)形式構(gòu)建高—低—高分辨率子網(wǎng)串行結(jié)構(gòu),通過每一個(gè)子網(wǎng)階段先對(duì)圖像進(jìn)行降采樣以得到低分辨率圖像,隨后再通過上采樣提升圖像分辨率,在高—低—高分辨率子網(wǎng)的連接過程中進(jìn)行特征融合。例如堆疊的沙漏網(wǎng)絡(luò)模型(Newellet al.,2016)、級(jí)聯(lián)金字塔網(wǎng)絡(luò)(Chenet al.,2018)等。然而這些串行網(wǎng)絡(luò)結(jié)構(gòu)在最后高分辨率特征提取階段都需要通過在低分辨率的特征圖上進(jìn)行上采樣得到高分辨率特征圖,而目前上采樣大多采用雙線性插值、最近鄰插值等方法,在這個(gè)過程中難免會(huì)損失很多細(xì)節(jié)信息。Sun等(2019)提出的HRNet與上述采用串行網(wǎng)絡(luò)結(jié)構(gòu)方法(Newellet al.,2016;Hu and Ramanan,2016;Chenet al.,2018)有很大的不同,它更專注于用學(xué)習(xí)可靠的高分辨率表示,其網(wǎng)絡(luò)在整個(gè)過程中保持高分辨率,一定程度上解決了中、低分辨率人體關(guān)鍵點(diǎn)檢測準(zhǔn)確率低的問題。
與人體姿態(tài)估計(jì)相比,動(dòng)物姿態(tài)估計(jì)的研究相對(duì)較少。由于標(biāo)記數(shù)據(jù)的缺乏,Cao等(2019)提出了一種跨域適應(yīng)方法,將動(dòng)物姿態(tài)知識(shí)從標(biāo)記的動(dòng)物類別轉(zhuǎn)換到未標(biāo)記的動(dòng)物類別,使用適度的動(dòng)物姿態(tài)數(shù)據(jù)集將學(xué)習(xí)到的知識(shí)應(yīng)用于多種動(dòng)物物種。Mu等(2020)從CAD動(dòng)物模型生成的合成圖像和真實(shí)圖像來應(yīng)對(duì)缺乏標(biāo)記數(shù)據(jù)的限制,利用空間和時(shí)間一致性來引導(dǎo)用未標(biāo)記的真實(shí)圖像合成數(shù)據(jù)進(jìn)行訓(xùn)練模型。Li和Lee(2021)設(shè)計(jì)了一個(gè)多尺度域適應(yīng)模塊,提出了一種從合成的動(dòng)物數(shù)據(jù)中學(xué)習(xí)的方法。Li等(2019)基于計(jì)算機(jī)視覺的牛姿態(tài)自動(dòng)估計(jì)技術(shù)并在構(gòu)建的奶牛圖像數(shù)據(jù)集上建立了3種深度級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型,用以執(zhí)行牛的姿態(tài)估計(jì)。Zhou等(2021)提出了一種基于圖形模型的結(jié)構(gòu)化上下文增強(qiáng)網(wǎng)絡(luò),對(duì)鼠類進(jìn)行姿態(tài)估計(jì),用于分析鼠類行為。AP-10K是第一個(gè)用于一般動(dòng)物姿態(tài)估計(jì)的大規(guī)模基準(zhǔn)(Yuet al.,2021)。上述關(guān)于動(dòng)物姿態(tài)估計(jì)的研究,要么著重于采用域適應(yīng)的方式解決數(shù)據(jù)匱乏的問題,要么著重于研究農(nóng)場中動(dòng)物肢體可變形性較弱的動(dòng)物姿態(tài)估計(jì)或者受限環(huán)境下的動(dòng)物姿態(tài)估計(jì)。相比而言,針對(duì)大熊貓姿態(tài)估計(jì)的研究面臨著大熊貓自身肢體可變形性較強(qiáng)所導(dǎo)致的自遮擋問題以及非受限環(huán)境下的各種挑戰(zhàn),而上述研究并不能完全滿足大熊貓姿態(tài)估計(jì)的要求,因此需要進(jìn)一步結(jié)合大熊貓的特點(diǎn)對(duì)其姿態(tài)估計(jì)進(jìn)行針對(duì)性研究。
姿態(tài)估計(jì)作為動(dòng)作識(shí)別和行為分析的前置任務(wù),是實(shí)現(xiàn)動(dòng)物體況信息的無接觸判別和異常信息預(yù)警的關(guān)鍵步驟(張飛宇等,2021)。準(zhǔn)確的動(dòng)物姿態(tài)估計(jì)是理解動(dòng)物行為的關(guān)鍵。若能采用計(jì)算機(jī)技術(shù)將大熊貓日常生活視頻數(shù)據(jù)進(jìn)行深度處理,轉(zhuǎn)換成大熊貓的姿態(tài)數(shù)據(jù),后期通過監(jiān)督學(xué)習(xí)的方法將大熊貓行為姿態(tài)進(jìn)行快速分類,就可實(shí)現(xiàn)大熊貓行為的自動(dòng)化識(shí)別。大熊貓和人體的肢體運(yùn)動(dòng)都具有較強(qiáng)的可變形性,使用姿態(tài)估計(jì)可以更高效地完成大熊貓姿態(tài)識(shí)別和行為分析,可以實(shí)現(xiàn)在無人監(jiān)控的情況下,及時(shí)發(fā)現(xiàn)大熊貓的身體狀態(tài)變化,了解其行為信息,例如移動(dòng)速度、站臥時(shí)長、活動(dòng)量等,從而更好地保護(hù)大熊貓并提高大熊貓的圈養(yǎng)福利。本文針對(duì)大熊貓姿態(tài)估計(jì)的研究建立了大熊貓2D姿態(tài)數(shù)據(jù)庫。同時(shí)借鑒人體姿態(tài)估計(jì)(Sunet al.,2019;Tang and Wu,2019;Yueet al.,2021),將大熊貓數(shù)據(jù)的特點(diǎn)和大熊貓姿態(tài)估計(jì)要求相結(jié)合,構(gòu)建了深度神經(jīng)網(wǎng)絡(luò)模型,用于實(shí)現(xiàn)大熊貓的姿態(tài)估計(jì)算法,可為大熊貓保護(hù)提供基礎(chǔ)數(shù)據(jù),輔助評(píng)估大熊貓的健康狀態(tài),提升圈養(yǎng)大熊貓的福利水平。
本文所采集的大熊貓姿態(tài)估計(jì)數(shù)據(jù)集,源于在成都大熊貓繁育研究基地拍攝的不同年齡段的大熊貓日常生活視頻。手動(dòng)選擇包含完整肢體的大熊貓個(gè)體,同時(shí)具有各種光照、視點(diǎn)、姿態(tài)和輕微遮擋的短視頻作為原始視頻數(shù)據(jù)(圖1a~c),為可用數(shù)據(jù)樣例;舍棄遮擋了大熊貓肢體1/3以上的視頻數(shù)據(jù)(圖1d~f),為不可用數(shù)據(jù)樣例。本文共收集了70只大熊貓的生活視頻122段。將每段視頻數(shù)據(jù)剪輯成約8 s的短視頻,并以30 fps的幀率對(duì)每個(gè)短視頻進(jìn)行分幀并每隔10幀抽取1幀作為實(shí)驗(yàn)數(shù)據(jù),總共得到大熊貓圖像6 315幀。
圖1 大熊貓視頻分幀圖像.a~c:可用數(shù)據(jù)樣例;d~f:不可用數(shù)據(jù)樣例Fig.1 Diagram of video framed image of giant panda.a-c:available data samples;d-f:unavailable data samples
為了降低數(shù)據(jù)相關(guān)性,本文將同一個(gè)視頻下的分幀圖像統(tǒng)一放在訓(xùn)練集或測試集中。具體地,對(duì)來自122段視頻共6 315幀大熊貓姿態(tài)估計(jì)數(shù)據(jù)集進(jìn)行劃分,其中將來自102段視頻的5 152幀圖像用于訓(xùn)練,將來自另20段視頻的1 163幀圖像用于測試,保證兩者沒有交叉。
本文對(duì)大熊貓的18個(gè)關(guān)鍵點(diǎn)進(jìn)行定義:耳朵(2),鼻子(1),手臂(6),腿(6),軀干(3),并以左上角和右下角的坐標(biāo)形式對(duì)大熊貓進(jìn)行目標(biāo)框標(biāo)注 (圖2)。
圖2 大熊貓姿態(tài)關(guān)鍵點(diǎn)標(biāo)記.1:右耳;2:左耳;3:鼻子;4:脖子;5:腰背部;6:臀部;7:右肩;8:右肘;9:右前爪;10:左肩;11:左肘;12:左前爪;13:右臀;14:右膝;15:右后爪;16:左臀;17:左膝;18:左后爪;19:大熊貓目標(biāo)框Fig.2 Diagram of the joint points of the giant panda.1:right ear;2:left ear;3:nose;4:neck;5:back;6:hip;7:right shoulder;8:right elbow;9:right front paw;10:left shoulder;11:left elbow;12:left front paw;13:right hip;14:right knee;15:right hind paw;16:left hip;17:left knee;18:left hind paw;19:the giant panda target box
本研究為圖像中大熊貓姿態(tài)估計(jì),首先根據(jù)數(shù)據(jù)標(biāo)注,對(duì)大熊貓個(gè)體進(jìn)行目標(biāo)框裁剪,其目的是為了減少背景的影響,讓模型更專注于目標(biāo)姿態(tài)的學(xué)習(xí);其次,為實(shí)現(xiàn)大熊貓姿態(tài)的精準(zhǔn)估計(jì),本研究在大熊貓關(guān)鍵點(diǎn)位置上生成理想高斯映射,這些映射比關(guān)節(jié)位置上的單點(diǎn)訓(xùn)練更有效,它們被用來訓(xùn)練模型生成每個(gè)關(guān)節(jié)位置對(duì)應(yīng)的高斯熱力圖。其對(duì)應(yīng)的二維高斯函數(shù)公式為:
其中I表示對(duì)應(yīng)關(guān)鍵點(diǎn)是否可見,可見為1,不可見為0。xlabel和ylabel分別為真值關(guān)鍵點(diǎn)的位置信息。x和y是圖像上每一個(gè)像素的位置。σ為標(biāo)準(zhǔn)差,用于控制函數(shù)的徑向范圍。σ值越大,遠(yuǎn)處像素點(diǎn)對(duì)中心像素點(diǎn)的影響越大,熱圖上的光圈半徑就越大,反之光圈半徑越小,這個(gè)σ值也使圖像中關(guān)節(jié)之間有足夠的分離。本文采用σ=3生成對(duì)應(yīng)的高斯熱力圖標(biāo)簽。
本文提出的大熊貓姿態(tài)估計(jì)框架主要分為兩個(gè)線性階段(圖3)。第一階段,以HRNet模型為主干并嵌入ASPP模塊(Chenet al.,2017),用以學(xué)習(xí)大熊貓身體關(guān)鍵點(diǎn)通用的共享表示;第二階段,根據(jù)大熊貓關(guān)鍵點(diǎn)之間的相關(guān)性,構(gòu)造多分支結(jié)構(gòu),每一個(gè)分支學(xué)習(xí)針對(duì)每組相關(guān)關(guān)鍵點(diǎn)的高級(jí)特征表示。
圖3 大熊貓姿態(tài)估計(jì)總體架構(gòu)圖.第一階段為共享特征表示,第二階段為多分支結(jié)構(gòu)學(xué)習(xí)特定的高級(jí)特征表示Fig.3 The proposed giant panda pose estimation framework.The first stage is shared feature representation,the second stage is multi-branched structures for learning specific high-level feature representations
大熊貓姿態(tài)估計(jì)體系結(jié)構(gòu)的處理流程如圖3所示。網(wǎng)絡(luò)首先使用卷積層(Conv)和批歸一化(BN)生成特征映射,其目的是學(xué)習(xí)一個(gè)基本特征作為待處理關(guān)鍵點(diǎn)信息的初始基本空間。具體來說,輸入圖像被輸入到兩個(gè)3×3 Conv層(每個(gè)Conv層后跟一個(gè)BN層和一個(gè)ReLU層)及一個(gè)ResNet-Bottleneck層,用于產(chǎn)生嵌入特征空間;緊接著,將生成的256張?zhí)卣鲌D送入HRNet網(wǎng)絡(luò)并且僅在高分辨率主干網(wǎng)絡(luò)上輸出得到加強(qiáng)后的特征表示,其輸出通道為32。然后將特征表示輸入到ASPP模塊,通過不同空洞率的多個(gè)并行空洞卷積層,使模型在擴(kuò)大感受野的同時(shí)獲取多尺度的上下文信息;最后網(wǎng)絡(luò)使用一組分支結(jié)構(gòu)來學(xué)習(xí)相關(guān)部件的特定表示,輸出得到本組各部分的預(yù)測熱圖。
1.2.1 大熊貓關(guān)鍵點(diǎn)的共享表示階段
采用HRNet作為大熊貓關(guān)鍵點(diǎn)共享特征提取階段的主干網(wǎng)絡(luò),通過將高分辨率子網(wǎng)作為第一階段,并逐步并行加入低分辨率子網(wǎng)從而形成更多的階段,同時(shí)通過重復(fù)跨并行卷積執(zhí)行多尺度融合,使每個(gè)由高到低的分辨率表示反復(fù)地接收來自其他并行表示的信息,從而產(chǎn)生豐富的高分辨率表示,避免了現(xiàn)有大多數(shù)串聯(lián)結(jié)構(gòu)方案在最后高分辨率特征提取中所造成的細(xì)節(jié)信息丟失。圖4展示了HRNet網(wǎng)絡(luò)模型的結(jié)構(gòu),從輸入到輸出共分為3個(gè)階段,由并行連接的子網(wǎng)構(gòu)成,每一個(gè)子網(wǎng)由上而下,每一級(jí)的分辨率都是上一級(jí)的一半,同時(shí)通道數(shù)增加2倍。由于3個(gè)階段相互連接融合使得網(wǎng)絡(luò)在保持高分辨率的同時(shí)增強(qiáng)了多尺度的信息融合。
由于大熊貓不同身體部位的比例差異較大,需要特征圖能夠捕捉多尺度信息。同時(shí),為解決網(wǎng)絡(luò)在特征提取階段為增大感受野而減小特征圖尺寸時(shí)存在信息丟失的問題,在HRNet模型末尾加入了ASPP模塊,使模型能夠在不降低分辨率的情況下,增大特征感受野,融合多尺度信息(圖5)。該模塊對(duì)傳入的特征表示進(jìn)行類似空間金字塔形式的常規(guī)卷積,從而捕獲多尺度上的下文信息。具體為ASPP模塊將輸入特征并行輸入到多個(gè)不同空洞率的空洞卷積層;此外,針對(duì)圖像級(jí)特征,采用全局平均池化(Global average pooling,GAP)對(duì)輸入特征進(jìn)行處理并通過1×1 Conv層將通道數(shù)設(shè)為32維,然后將特征進(jìn)行雙線性上采樣到指定空間維度,最后將所有輸出特征進(jìn)行融合,從而獲得多個(gè)尺度的上下文信息。
圖4 HRNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 HRNet network structure(Sun et al.,2019)
圖5 ASPP模塊示意圖Fig.5 Diagram of ASPP module(Chen et al.,2017)
1.2.2 大熊貓關(guān)鍵點(diǎn)的多分支結(jié)構(gòu)表示階段
由于大熊貓并不是所有關(guān)節(jié)之間的關(guān)聯(lián)性一致,對(duì)于不相關(guān)或相關(guān)性較弱的關(guān)節(jié),共享特征會(huì)降低模型性能,并導(dǎo)致一種負(fù)遷移現(xiàn)象(Olivaset al.,2019)。本文將大熊貓姿態(tài)估計(jì)設(shè)為同質(zhì)多任務(wù)學(xué)習(xí)問題,每個(gè)部位的定位作為一個(gè)不同的任務(wù),在相關(guān)任務(wù)之間共享表示,得到更緊湊且更具有泛化能力的模型(Caruana,1997;Ruder,2017;Tang and Wu,2019;Yueet al.,2021)。本文根據(jù)大熊貓的肢體關(guān)節(jié)以及顏色信息,將大熊貓關(guān)節(jié)點(diǎn)分為5組 (圖6)。
圖6 大熊貓關(guān)節(jié)點(diǎn)分組.通過虛線框?qū)⒋笮茇堦P(guān)節(jié)點(diǎn)分為5組,同一組的關(guān)節(jié)點(diǎn)顏色相同F(xiàn)ig.6 Diagram of the grouping of giant panda joints.The giant panda joint points are divided into 5 groups by the dotted frame,and the joint points of the same group have the same color
具體為將第一階段輸出得到的特征表示輸入到本文預(yù)先設(shè)定的5個(gè)分支中分別用于學(xué)習(xí)大熊貓相關(guān)關(guān)鍵點(diǎn)的特定表示。對(duì)于每個(gè)分支,我們首先應(yīng)用一個(gè)1×1 Conv層進(jìn)行維度變換,即從32到M(例如M=16)。再緊接N個(gè)Residual blocks層(例如N=1),最后再進(jìn)行1×1 Conv層回歸本組各部分的熱圖。其中,M和N為兩個(gè)超參數(shù),分別控制特定層的寬度和深度(Heet al.,2016),在本文中M=32,N=1。
本文將均方誤差(Mean squared error,MSE)作為預(yù)測熱力圖與真實(shí)熱力圖之間的損失函數(shù)公式:
其中K表示大熊貓關(guān)鍵點(diǎn)總數(shù);Pk(x,y)表示第k個(gè)關(guān)鍵點(diǎn)的預(yù)測熱力圖;Gk(x,y)表示第k個(gè)關(guān)鍵點(diǎn)的真實(shí)熱力圖;Ik表示第k個(gè)關(guān)鍵點(diǎn)是否可見,0為不可見,1為可見。
1.2.3 模型參數(shù)
根據(jù)卷積神經(jīng)網(wǎng)絡(luò)模型的特點(diǎn),為了保證輸入數(shù)據(jù)的共性,我們將原尺寸圖像在高度或?qū)挾壬蠑U(kuò)展到固定縱橫比,高度∶寬度=1∶1,然后將圖像裁剪到固定尺寸,最終將大熊貓姿態(tài)估計(jì)模型輸入尺寸調(diào)整為256×256。同時(shí),為了增強(qiáng)模型的魯棒性,我們?cè)谟?xùn)練集中使用了數(shù)據(jù)增強(qiáng),包括隨機(jī)旋轉(zhuǎn)(-30°,+30°)、隨機(jī)縮放(-40%,+40%)和隨機(jī)水平翻轉(zhuǎn)。
本文所用的模型中,采用按需調(diào)整計(jì)算學(xué)習(xí)率,首先將初始學(xué)習(xí)率設(shè)為1e-4,分別在第15、30、55個(gè)epoch對(duì)學(xué)習(xí)率進(jìn)行衰減,學(xué)習(xí)率變化因子為0.1。同時(shí)采用Adam優(yōu)化器算法執(zhí)行梯度優(yōu)化。網(wǎng)絡(luò)的輸入尺寸固定為256×256×3,即輸入圖像的長、寬、通道分別是256、256和3。將批次大小設(shè)為32,并訓(xùn)練60個(gè)epoch。同時(shí)基于本數(shù)據(jù)集,本研究在其他模型(Newellet al.,2016;Xiaoet al.,2018;Sunet al.,2019)上進(jìn)行實(shí)驗(yàn),其中Newell等(2016)將初始學(xué)習(xí)率設(shè)為3e-4,并分別在第40、55個(gè)epoch對(duì)學(xué)習(xí)率進(jìn)行衰減,其余參數(shù)均與上述一致。所有實(shí)驗(yàn)均使用Pytorch1.2.0在64位Ubuntu 16.04計(jì)算機(jī)上運(yùn)行,CPU為Intel E5-2698 2.20 GHz,GPU為NVIDIA Tesla V100。
在測試集進(jìn)行測試時(shí),本文采用正確關(guān)鍵點(diǎn)百分比(Percentage of correct key points,PCK)作為評(píng)估度量,計(jì)算檢測關(guān)鍵點(diǎn)與其對(duì)應(yīng)真實(shí)值間的歸一化距離落在一定范圍內(nèi)的檢測百分比。具體采用PCK@0.05作為評(píng)價(jià)標(biāo)準(zhǔn)公式:
其中i表示關(guān)節(jié)點(diǎn)的編號(hào),di表示第i個(gè)關(guān)鍵點(diǎn)的預(yù)測值和真實(shí)值(Ground truth)的歐式距離。d為1個(gè)個(gè)體的尺度因子。
本文首先設(shè)計(jì)了大熊貓姿態(tài)估計(jì)的對(duì)比實(shí)驗(yàn),用于評(píng)價(jià)本研究方法對(duì)大熊貓姿態(tài)估計(jì)的檢測性能,結(jié)果見表1。
表1 大熊貓姿態(tài)估計(jì)不同模型結(jié)果比較Table 1 Comparison results of pose estimation of giant panda
從結(jié)果可以看出,所有實(shí)驗(yàn)?zāi)P蛯?duì)大熊貓耳朵、鼻子的關(guān)鍵點(diǎn)檢測精度均達(dá)到了90%以上,而對(duì)于軀干和腿部的關(guān)鍵點(diǎn)檢測精度為68%~79%。與經(jīng)典網(wǎng)絡(luò)模型8-Stack-HG、Simple Baseline、HRNet32比較,本文所用模型在大熊貓耳朵、鼻子、軀干以及腿部的檢測結(jié)果均處于最優(yōu)(表1),證明了本文所用模型的有效性。對(duì)比模型預(yù)測的大熊貓姿態(tài)估計(jì)(見圖7)。
圖7 大熊貓姿態(tài)估計(jì)預(yù)測示例圖.前三列為對(duì)比模型預(yù)測的大熊貓姿態(tài)估計(jì),第四列為本文所用模型的預(yù)測結(jié)果,最后一列為姿態(tài)估計(jì)真實(shí)值Fig.7 Example image of giant panda pose estimation prediction.The first three columns are the giant panda pose estimates predicted by the comparison model,the fourth column is the prediction result of the model proposed in this paper,and the last column is the true value of the pose estimation
從圖7第2行可以看出,相較于8-Stack-HG和Simple Baseline模型,面對(duì)目標(biāo)前景與背景顏色信息相近,存在背景干擾時(shí),本文所用模型能夠準(zhǔn)確地預(yù)測出前景目標(biāo)的關(guān)鍵點(diǎn)位置;圖7第4行,當(dāng)大熊貓存在一定的自遮擋時(shí),相較于HRNet32,本文所用模型也能夠精準(zhǔn)地預(yù)測出大熊貓關(guān)鍵點(diǎn)位置。證明本文大熊貓姿態(tài)估計(jì)方法有效且所用模型在復(fù)雜環(huán)境下具有一定的魯棒性。
本文第二組實(shí)驗(yàn)為大熊貓姿態(tài)估計(jì)模型的消融實(shí)驗(yàn),用于驗(yàn)證本文所用模型中各個(gè)模塊對(duì)大熊貓姿態(tài)估計(jì)結(jié)果的影響(表2)。
表2 大熊貓姿態(tài)估計(jì)消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiment for giant panda pose estimation
本文以HRNet32為基準(zhǔn)模型,通過添加多分支結(jié)構(gòu)(Multi-Branches)使模型的檢測精度由80.31%提升至80.75%(表2),證明并不是所有大熊貓關(guān)節(jié)點(diǎn)都相互依賴、相互關(guān)聯(lián),通過對(duì)大熊貓的關(guān)鍵點(diǎn)進(jìn)行分組,能夠有效地提高關(guān)鍵點(diǎn)檢測的精確度(圖3)。緊接著,通過嵌入ASPP模塊(圖5)使模型捕獲更多的多尺度信息,從而將模型的檢測精度由80.75%提升至81.51%(表2)。最終本文所用模型在PCK@0.05指標(biāo)下達(dá)到了81.51%,檢測精度比基礎(chǔ)網(wǎng)絡(luò)模型HRNet32高了1.20%。
本文所用模型在測試集上的輸出結(jié)果,在拍攝角度良好、大熊貓遮擋較小的環(huán)境下,能夠精確地預(yù)測大熊貓的姿態(tài)關(guān)鍵點(diǎn)(圖8a)。但對(duì)于自遮擋嚴(yán)重、拍攝角度較差或周遭環(huán)境較暗的圖像,模型的預(yù)測性能相對(duì)較差,特別是針對(duì)大熊貓四肢和軀干的關(guān)鍵點(diǎn)預(yù)測(圖8b)。
圖8 本研究模型的大熊貓姿態(tài)估計(jì).a:拍攝角度良好,遮擋較小時(shí)的模型預(yù)測結(jié)果;b:周遭環(huán)境較暗,自遮擋嚴(yán)重時(shí)的模型預(yù)測結(jié)果Fig.8 The giant panda pose estimation of this study model.a:The prediction result of the model with good shooting Angle and small occlusion;b:The prediction result of the model with dark surrounding environment and serious self-occlusion
動(dòng)物的姿態(tài)估計(jì)對(duì)動(dòng)物的行為檢測、運(yùn)動(dòng)分析以及醫(yī)療救護(hù)都很重要,雖然目前有許多基于深度學(xué)習(xí)的動(dòng)物研究,但關(guān)于動(dòng)物的姿態(tài)估計(jì)很少被提及。本研究聚焦于大熊貓姿態(tài)估計(jì),一旦檢測到給定視頻段中每一幀大熊貓的骨架關(guān)鍵點(diǎn),就可以獲得大熊貓實(shí)例的骨架序列,對(duì)后續(xù)準(zhǔn)確和快速理解大熊貓行為打下堅(jiān)實(shí)基礎(chǔ)。此外,通過姿態(tài)估計(jì)還可以實(shí)現(xiàn)動(dòng)物的活動(dòng)監(jiān)測、跟蹤保護(hù)和身份識(shí)別(Liuet al.,2019)。
動(dòng)物的姿態(tài)估計(jì)是進(jìn)行動(dòng)物姿態(tài)識(shí)別、行為分析的前提(張飛宇等,2021),本文利用深度學(xué)習(xí)的方法,構(gòu)建了基于高分辨率網(wǎng)絡(luò)的大熊貓姿態(tài)估計(jì)模型。針對(duì)大熊貓不同部位的尺度差異性,本文以HRNet為基礎(chǔ)網(wǎng)絡(luò)引入ASPP模塊增強(qiáng)網(wǎng)絡(luò)捕獲多尺度信息的能力,其次將大熊貓姿態(tài)估計(jì)設(shè)為同質(zhì)多任務(wù)學(xué)習(xí)問題,引入多分支結(jié)構(gòu)來學(xué)習(xí)特定于每個(gè)大熊貓部位組的表征,并在與成都大熊貓繁育研究基地共建的大熊貓姿態(tài)估計(jì)數(shù)據(jù)集上取得了較好的結(jié)果(即精確率在PCK@0.05指標(biāo)下達(dá)到了81.51%)。由于大熊貓的視頻數(shù)據(jù)源于非受限條件下的視頻拍攝,因此存在一定的遮擋和光線影響,相較于大熊貓的四肢和軀干部位,大熊貓的頭部有較好的檢測結(jié)果(表1,本研究方法在大熊貓耳朵、鼻子的檢測精度均在98.00%以上,而軀干和四肢的檢測精度分別為75.84%和79.84%)。這是由于在大熊貓的日?;顒?dòng)中,其頭部很少存在遮擋,可見性相對(duì)較高,模型能夠很好地捕捉到關(guān)鍵點(diǎn)。然而對(duì)于大熊貓的四肢,更容易受到周遭環(huán)境的遮擋影響,而軀干部分除環(huán)境遮擋以外,還會(huì)受到自身遮擋的影響,致使模型無法很好地學(xué)習(xí)被遮擋關(guān)鍵點(diǎn)的關(guān)系。同時(shí)由于自遮擋的存在,當(dāng)大熊貓四肢處于側(cè)面平行狀態(tài)時(shí),模型容易誤標(biāo)左右肢體位置,導(dǎo)致其預(yù)測結(jié)果相對(duì)較低。
因此本文仍存在以下局限性:(1)大熊貓姿態(tài)數(shù)據(jù)源于各種視頻數(shù)據(jù),得到的視頻幀的拍攝角度差異較大,大熊貓的尺度也不一樣,在數(shù)據(jù)標(biāo)注和處理上具有挑戰(zhàn)性,也更為重要。(2)數(shù)據(jù)庫規(guī)模小。大熊貓的姿態(tài)變化多樣且受到自遮擋、光線變化等影響,姿態(tài)估計(jì)的有效性仍需在更大規(guī)模數(shù)據(jù)集上進(jìn)一步評(píng)估。(3)目前本文關(guān)于大熊貓姿態(tài)估計(jì)的研究僅局限于單只大熊貓個(gè)體。后續(xù)我們將進(jìn)一步開展對(duì)多只大熊貓個(gè)體的姿態(tài)估計(jì)研究,這對(duì)于研究者準(zhǔn)確理解大熊貓繁殖行為和育幼行為都將有重要意義。