王大正,張 濤
(江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無(wú)錫 214122)
當(dāng)前世界經(jīng)濟(jì)飛速發(fā)展且人口呈爆炸式增長(zhǎng),為了更好地保障社會(huì)治安,準(zhǔn)確估計(jì)各類復(fù)雜場(chǎng)景中的人數(shù)并預(yù)測(cè)其分布趨勢(shì)變得尤為重要,特別是在監(jiān)控治安、智慧交通等視覺相關(guān)領(lǐng)域.因此,人群計(jì)數(shù)和密度估計(jì)作為最基本的人群分析方法在近幾年也得到了廣泛研究.
傳統(tǒng)的人群計(jì)數(shù)方法包含基于檢測(cè)的方法[1]和基于回歸的方法[2],分別通過檢測(cè)后計(jì)數(shù)和直接特征回歸來(lái)估計(jì)圖中總?cè)藬?shù),其在人群分布相對(duì)稀疏和均勻的場(chǎng)景下表現(xiàn)尚可,卻嚴(yán)重囿于密集場(chǎng)景下的人群遮擋問題和由相機(jī)視角造成的多尺度問題.此外,這些方法均僅使用計(jì)數(shù)標(biāo)簽預(yù)測(cè)總?cè)藬?shù),并不關(guān)注人群的具體分布狀態(tài),這為各個(gè)場(chǎng)景下的人群狀態(tài)理解帶來(lái)了局限性.Pham等人[3]將圖片分塊,然后通過隨機(jī)森林方法學(xué)習(xí)每個(gè)塊的特征和塊中物體相對(duì)位置的映射,最后通過高斯核密度估計(jì)來(lái)生成密度圖.至此,人群計(jì)數(shù)開始由簡(jiǎn)單的回歸問題逐漸演化為密度估計(jì)問題[4].近幾年卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)憑借其優(yōu)秀的表征能力在計(jì)算機(jī)視覺任務(wù)中大放異彩,為人群的分布預(yù)測(cè)奠定了技術(shù)基礎(chǔ).Fu等人[5]首次使用CNN進(jìn)行人群計(jì)數(shù),有效地提高了計(jì)數(shù)精度;Zhang等人[6]設(shè)計(jì)了一個(gè)多列卷積神經(jīng)網(wǎng)絡(luò),通過3列不同大小的卷積核來(lái)控制感受野大小以學(xué)習(xí)不同尺度形態(tài)下的人頭特征,有效減少了因?yàn)橥敢暬蛉祟^遮擋對(duì)計(jì)數(shù)和密度估計(jì)造成的影響;Li等人[7]則使用空洞卷積代替上下采樣操作擴(kuò)大網(wǎng)絡(luò)感受野,在特征學(xué)習(xí)過程中保留了更多的細(xì)節(jié)信息,不僅顯著提高了計(jì)數(shù)精度,還生成了更高質(zhì)量的密度估計(jì)圖.
然而上述介紹的都是基于單任務(wù)監(jiān)督的方法,這些方法一般僅生成人群密度估計(jì)圖,然后將其上所有像素相加得到人群總數(shù),或者直接計(jì)數(shù).此舉會(huì)導(dǎo)致最終的預(yù)測(cè)結(jié)果中不僅包含由人頭特征產(chǎn)生的正確預(yù)測(cè),還包括背景區(qū)域上的誤判,這將對(duì)最終的計(jì)數(shù)結(jié)果產(chǎn)生不利影響[8].此外,基于多任務(wù)學(xué)習(xí)的計(jì)數(shù)方法證明了在不同任務(wù)中共享向量表達(dá)能夠讓模型的泛化效果顯著提升.Liu等人[9]針對(duì)人群密度問題將檢測(cè)方法和回歸方法結(jié)合到一起,并使用注意力模塊調(diào)整網(wǎng)絡(luò)參數(shù)在兩種模式中自動(dòng)切換,以此來(lái)提升人群密度估計(jì)精度.Sam等人[10]采用模型增長(zhǎng)的方式在訓(xùn)練過程中自動(dòng)劃分不同的密度等級(jí),并生成一組不同的模型在特定的數(shù)據(jù)上訓(xùn)練.由于其為基于分成聚類的模型,對(duì)于不同復(fù)雜度的數(shù)據(jù)集,也可以通過模型的調(diào)整和增長(zhǎng)得到出色的結(jié)果.Shen等人[11]則充分利用對(duì)抗性損失來(lái)減弱密度圖估計(jì)的模糊效果,并提出交叉尺度一致性追求損失來(lái)限制不同尺度人群帶來(lái)的誤差,既增強(qiáng)了密度圖的清晰度,又提升了模型的計(jì)數(shù)性能.這些方法通過不同任務(wù)間的協(xié)作來(lái)分別提高網(wǎng)絡(luò)的計(jì)數(shù)精度和密度估計(jì)能力,然而其均采用多列結(jié)構(gòu),雖然在一定程度上提升了模型性能,卻付出了一定的空間代價(jià),使得檢測(cè)效率不高.本文則傾向于使用單列結(jié)構(gòu),通過合理利用特征學(xué)習(xí)中不同階段語(yǔ)義的物理含義來(lái)自適應(yīng)地尋找感興趣區(qū)域,在幾乎不增加參數(shù)的前提下提高網(wǎng)絡(luò)的計(jì)數(shù)能力和密度估計(jì)能力.
本文提出雙任務(wù)交互下的四段監(jiān)督網(wǎng)絡(luò)(Four-stage supervised crowd counting network,F2SNet),通過計(jì)數(shù)監(jiān)督、早期分布優(yōu)化、終期分布修正模塊和背景抑制有效兼顧了計(jì)數(shù)準(zhǔn)確性和密度估計(jì)圖的分布一致性.Shanghai Tech[6]、UCF-CC-50[12]、UCF-QNRF[13]及JHU-CROWD++[14]4個(gè)常用人群數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果也充分證明了所提方法的有效性.
雙任務(wù)交互下的四段監(jiān)督人群計(jì)數(shù)網(wǎng)絡(luò)(F2SNet)的具體結(jié)構(gòu)如圖1所示,其由主干網(wǎng)絡(luò)、計(jì)數(shù)監(jiān)督、早期分布優(yōu)化、終期分布修正模塊以及背景抑制5個(gè)部分組成.其中,主干網(wǎng)絡(luò)使用具有良好遷移能力和學(xué)習(xí)能力的VGG19前16層卷積層提取基礎(chǔ)人頭特征,并且為了在保留更多細(xì)節(jié)的前提下學(xué)習(xí)人頭特征的不同尺度形態(tài),使用膨脹率為2的空洞卷積代替原結(jié)構(gòu)中的一組下采樣上采樣操作.計(jì)數(shù)監(jiān)督用來(lái)直接預(yù)測(cè)圖片總?cè)藬?shù),并生成評(píng)估各個(gè)位置上特征對(duì)計(jì)數(shù)任務(wù)重要程度的人群響應(yīng)圖來(lái)鎖定人群區(qū)域,其不考慮人群具體分布情況,僅從計(jì)數(shù)的角度來(lái)約束預(yù)測(cè)值與人數(shù)標(biāo)簽之間的誤差,以提升網(wǎng)絡(luò)的計(jì)數(shù)準(zhǔn)確性.早期分布優(yōu)化關(guān)注了淺層網(wǎng)絡(luò)對(duì)人頭特征的學(xué)習(xí)情況和早階段分布預(yù)測(cè)的準(zhǔn)確性,有效緩解了低級(jí)特征對(duì)后期計(jì)數(shù)的干擾.終期分布修正模塊在網(wǎng)絡(luò)進(jìn)一步擴(kuò)大感受野并使用高頻語(yǔ)義信息對(duì)預(yù)測(cè)圖加權(quán)后再一次監(jiān)督人群的分布預(yù)測(cè).背景抑制監(jiān)督懲罰了最終密度估計(jì)圖在背景區(qū)域上的誤判,以獲得更準(zhǔn)確的密度分布估計(jì)和更干凈的人群密度估計(jì)圖.4個(gè)部分將協(xié)同工作,利用網(wǎng)絡(luò)中不同階段語(yǔ)義信息的特性來(lái)自適應(yīng)地鎖定感興趣區(qū)域,分別從計(jì)數(shù)準(zhǔn)確度、分布一致性和背景誤判三方面來(lái)監(jiān)督網(wǎng)絡(luò)訓(xùn)練,彼此獨(dú)立工作卻又相互約束,計(jì)數(shù)監(jiān)督所產(chǎn)生的人群響應(yīng)圖將放大感興趣區(qū)域特征在密度估計(jì)任務(wù)中的貢獻(xiàn)度,同時(shí),對(duì)密度估計(jì)圖分布的監(jiān)督也將幫助人群響應(yīng)圖更好地鎖定前景區(qū)域.
圖1 F2SNet結(jié)構(gòu)Fig.1 Overall structure of F2SNet
2.2.1 計(jì)數(shù)監(jiān)督
人群計(jì)數(shù)任務(wù)最直接的目標(biāo)是準(zhǔn)確預(yù)測(cè)圖片中的總?cè)藬?shù).計(jì)數(shù)層用特征回歸的方法來(lái)尋找分辨力強(qiáng)的人群區(qū)域.將終期中間特征圖Ff使用1×1卷積處理為單通道密度圖作為用于計(jì)數(shù)的人群響應(yīng)圖Pc,如公式(1)所示:
Pc=conv1512(Ff)
(1)
其中conv1512(Ff)為通道數(shù)為512的1×1卷積.人群響應(yīng)圖Pc為人群圖片經(jīng)過層層學(xué)習(xí)后在最大感受野下所呈現(xiàn)的抽象的高級(jí)特征,其為特征提取器所篩選過的對(duì)最終計(jì)數(shù)任務(wù)非常重要的深層語(yǔ)義信息,反映了網(wǎng)絡(luò)對(duì)原人群圖片整體的理解情況.將人群區(qū)域響應(yīng)圖中所有像素值之和作為對(duì)原圖中總?cè)藬?shù)的預(yù)測(cè),具體計(jì)數(shù)損失函數(shù)Lcs定義為公式(2):
(2)
由于人群響應(yīng)圖為高級(jí)語(yǔ)義特征與人數(shù)標(biāo)簽之間映射,其像素值之間的差異諭示了不同位置特征對(duì)最終計(jì)數(shù)結(jié)果的貢獻(xiàn),也暗示了不同區(qū)域特征對(duì)計(jì)數(shù)任務(wù)的重要程度.人群響應(yīng)圖在原圖上的對(duì)應(yīng)如圖2所示,可以看到在經(jīng)過多層卷積核過濾后,人群響應(yīng)圖可以將人群區(qū)域從背景中甄別出來(lái),但是會(huì)不可避免地產(chǎn)生一些來(lái)自背景噪聲的錯(cuò)誤預(yù)測(cè),如圖2(c)方框標(biāo)識(shí)區(qū)域所示,這將會(huì)補(bǔ)償網(wǎng)絡(luò)對(duì)前景的預(yù)測(cè)不足,從而影響計(jì)數(shù).因此,為了進(jìn)一步強(qiáng)調(diào)人群區(qū)域,同時(shí)使對(duì)人數(shù)的預(yù)測(cè)更多來(lái)自于人頭特征,提出前景突出損失函數(shù)來(lái)監(jiān)督標(biāo)注點(diǎn)位置的預(yù)測(cè),其定義如公式(3)所示:
(3)
其中人群響應(yīng)圖與分布標(biāo)簽的乘積界定了網(wǎng)絡(luò)前景像素點(diǎn)上的預(yù)測(cè),監(jiān)督前景預(yù)測(cè)將會(huì)提高網(wǎng)絡(luò)對(duì)前景區(qū)域的關(guān)注度,從而增強(qiáng)該區(qū)域特征對(duì)計(jì)數(shù)的響應(yīng)能力.在計(jì)數(shù)損失函數(shù)的基礎(chǔ)上,前景關(guān)注損失將使得預(yù)測(cè)點(diǎn)凝聚在前景區(qū)域,從而有效減少背景噪聲對(duì)計(jì)數(shù)的干擾.
圖2 人群區(qū)域響應(yīng)圖在原圖上的對(duì)應(yīng)Fig.2 Correspondence of crowd response map on the original image
此外,人群響應(yīng)圖在人群越密集的區(qū)域?qū)?yīng)預(yù)測(cè)值越大,在分布相對(duì)稀疏的地方的預(yù)測(cè)則較為發(fā)散,這意味著其強(qiáng)調(diào)了密集區(qū)域.人群響應(yīng)圖作為高級(jí)語(yǔ)義特征與計(jì)數(shù)標(biāo)簽的直接映射結(jié)果,體現(xiàn)了網(wǎng)絡(luò)對(duì)原人群圖片的理解,暗示了不同特征對(duì)預(yù)測(cè)結(jié)果的重要性,同時(shí)給出了前景和背景的概念.在后續(xù)對(duì)早期分布以及終期分布的監(jiān)督中,將使用人群響應(yīng)圖對(duì)其進(jìn)行加權(quán)調(diào)整,突出關(guān)鍵信息并著重關(guān)注密集場(chǎng)景下的預(yù)測(cè),以得到更清晰準(zhǔn)確的人群密度估計(jì)圖.
2.2.2 早期分布優(yōu)化
在基于CNN的人群計(jì)數(shù)方法中,模型性能主要取決于特征提取器對(duì)目標(biāo)信息的表征能力,即其所提取的特征的質(zhì)量.特別是在感興趣目標(biāo)不突出且缺乏細(xì)節(jié)的人群計(jì)數(shù)任務(wù)中,對(duì)人頭特征的理解水平將直接影響計(jì)數(shù)精度和預(yù)測(cè)分布準(zhǔn)確度.
為了提高網(wǎng)絡(luò)對(duì)人頭信息的理解能力,提出早期分布優(yōu)化來(lái)監(jiān)督淺層網(wǎng)絡(luò)對(duì)人群分布的預(yù)測(cè),使得其能在感受野受限情況下更早地聚焦前景,從而突出人頭特征.如圖1所示,首先使用1×1卷積將早期特征提取過程中產(chǎn)生的中間特征圖Fe處理為單通道的早期中間密度圖Pe_mid,Pe_mid為由淺層網(wǎng)絡(luò)提取的低級(jí)特征所映射的、對(duì)人群密度分布預(yù)測(cè)的呈現(xiàn),反映了早階段下對(duì)人群概念的理解情況.其次,將Pe_mid與體現(xiàn)不同區(qū)域信息重要程度的人群響應(yīng)圖Pc進(jìn)行逐像素相乘重新調(diào)整特征權(quán)重,生成早期密度估計(jì)圖Pe,具體操作如公式(4)所示:
Pe=conv1512(Fe)?Pc
(4)
其中conv1512同樣為通道數(shù)為512的1×1卷積,為像素級(jí)乘法.
使用早期分布優(yōu)化損失函數(shù)Led來(lái)優(yōu)化早期密度估計(jì)圖Pe的分布,其由像素級(jí)歐氏距離定義,具體如公式(5)所示:
(5)
Pei為早期密度估計(jì)圖上的每個(gè)像素值,gti為人群分布標(biāo)簽在對(duì)應(yīng)位置上的真實(shí)人數(shù),為了與預(yù)測(cè)圖大小保持一致,所有參與計(jì)算的分布標(biāo)簽均為原標(biāo)簽3次下采樣操作后所得.早期分布優(yōu)化損失函數(shù)約束了淺層網(wǎng)絡(luò)對(duì)人群的密度估計(jì)與實(shí)際分布之間的一致性,在關(guān)注淺層網(wǎng)絡(luò)對(duì)關(guān)鍵特征的學(xué)習(xí)情況的同時(shí),自適應(yīng)地重新校準(zhǔn)了人群響應(yīng)圖中對(duì)不同區(qū)域特征的響應(yīng),幫助網(wǎng)絡(luò)更準(zhǔn)確地鎖定人群區(qū)域,并且促使由早期分布產(chǎn)生的梯度更多地來(lái)自于難例像素區(qū)域,以進(jìn)一步減少背景誤判.
對(duì)早期分布的監(jiān)督能夠幫助網(wǎng)絡(luò)提升其在早期階段對(duì)人頭與背景信息的辨別力,從而將后續(xù)的參數(shù)和計(jì)算力用于進(jìn)一步探尋關(guān)鍵特征區(qū)域以及細(xì)化修正人頭點(diǎn)分布.同時(shí),對(duì)淺層網(wǎng)絡(luò)的優(yōu)化同樣能夠提升計(jì)數(shù)網(wǎng)絡(luò)的魯棒性,減少人體軀干信息及復(fù)雜背景對(duì)計(jì)數(shù)的干擾,使得人群響應(yīng)圖中預(yù)測(cè)值更多來(lái)自于人頭特征,從而減少背景區(qū)域誤判對(duì)前景預(yù)測(cè)不足的補(bǔ)償,進(jìn)而提升網(wǎng)絡(luò)的計(jì)數(shù)能力.
值得一提的是,相比于整個(gè)網(wǎng)絡(luò),早期分布優(yōu)化模塊只是一個(gè)很小的組成部分,只增添了極小的參數(shù)量,卻明顯提高了計(jì)數(shù)精度.同時(shí),對(duì)淺層網(wǎng)絡(luò)的監(jiān)督也避免了訓(xùn)練過程中的梯度消失以及收斂過慢問題.
2.2.3 終期分布修正
在網(wǎng)絡(luò)使用空洞卷積擴(kuò)大感受野之后,終期分布修正模塊將進(jìn)一步整合高級(jí)語(yǔ)義信息來(lái)鎖定人頭位置.相比于早期階段由低級(jí)特征產(chǎn)生的對(duì)人群密度的估計(jì),終期的分布預(yù)測(cè)則來(lái)源于象征語(yǔ)義的高級(jí)特征,對(duì)圖片中所包含的人群信息有了更深層的理解,其由終期中間特征圖Ff學(xué)習(xí)而來(lái),如公式(6)所示:
Pfmid=conv1128(conv3128(conv3256(Ff)))
(6)
其中conv1128為通道數(shù)為128的1×1卷積,conv3128和conv3256分別為通道數(shù)為128和256的3×3卷積.終期密度估計(jì)圖Pf_mind展示了更深層次網(wǎng)絡(luò)對(duì)人頭特征的理解,對(duì)其進(jìn)行分布一致性監(jiān)督則幫助網(wǎng)絡(luò)對(duì)圖中的人群結(jié)構(gòu)和分布狀態(tài)有更全面和直接的把握.終期密度估計(jì)圖Pf_mind還進(jìn)一步強(qiáng)調(diào)了關(guān)鍵特征和人群在不同區(qū)域的密集程度,并且自主地分割了前背景區(qū)域,進(jìn)一步減少了密度圖中很多由背景誤判產(chǎn)生的噪聲.對(duì)終期分布的修正由公式(7)定義:
(7)
Pfmidi為終期密度估計(jì)圖中的每個(gè)像素值,終期分布監(jiān)督損失Lfd同樣使用像素級(jí)的歐式距離來(lái)約束同分布標(biāo)簽之間的一致性,且其在早期分布監(jiān)督的基礎(chǔ)上進(jìn)一步細(xì)化修正了人頭預(yù)測(cè)的具體分布.相比于同樣來(lái)自于高級(jí)特征卻僅在圖片和前景區(qū)域?qū)用嫔嫌捎?jì)數(shù)標(biāo)簽監(jiān)督的人群響應(yīng)圖,終期密度估計(jì)圖強(qiáng)調(diào)了單獨(dú)的人的概念,其具體體現(xiàn)為即使是在存在嚴(yán)重遮擋現(xiàn)象、分布極其密集的區(qū)域,網(wǎng)絡(luò)的預(yù)測(cè)范圍也更加向標(biāo)注點(diǎn)靠攏,減少了影響密度估計(jì)圖中標(biāo)注點(diǎn)四周大量的小峰值預(yù)測(cè),且其沒有忽略分散在稀疏場(chǎng)景下的個(gè)體,有效緩解了單張圖片中由于不同區(qū)域密度跨度過大而導(dǎo)致的漏判現(xiàn)象.
同樣,為了強(qiáng)調(diào)人群特征并抑制背景噪聲,通過將終期分布密度估計(jì)圖與人群響應(yīng)圖逐像素相乘的方式調(diào)整不同特征在最終分布中所占的比重,以得到能更好的呈現(xiàn)重要區(qū)域的密度估計(jì)圖P,并將其作為最終反映人群分布情況的密度估計(jì)圖進(jìn)行后續(xù)工作,如公式(8)所示:
P=Pfmid?Pc
(8)
2.2.4 背景抑制
為了進(jìn)一步抑制圖片中復(fù)雜的背景信息對(duì)計(jì)數(shù)和密度估計(jì)的干擾,同時(shí)生成能更準(zhǔn)確呈現(xiàn)人群分布的預(yù)測(cè)圖,本文還對(duì)最終輸出的密度估計(jì)圖進(jìn)行了背景誤判抑制處理.
與前景專注損失函數(shù)設(shè)計(jì)思路一致,背景損失函數(shù)將在分割預(yù)測(cè)圖中前背景區(qū)域的基礎(chǔ)上鎖定假陽(yáng)性預(yù)測(cè),通過懲罰非標(biāo)注點(diǎn)區(qū)域的預(yù)測(cè)值總和來(lái)降低背景信息的響應(yīng),其具體定義如公式(9)所示:
(9)
其物理意義為密度估計(jì)圖減去前景點(diǎn)預(yù)測(cè)后的預(yù)測(cè)值總和,其不僅包括被誤判的背景預(yù)測(cè),還包括未被標(biāo)記區(qū)域人頭特征對(duì)計(jì)數(shù)的響應(yīng).因此,背景損失不僅能夠有效提高網(wǎng)絡(luò)對(duì)前背景的甄別能力,還能使標(biāo)注點(diǎn)周邊區(qū)域的人頭預(yù)測(cè)值集中于標(biāo)注區(qū)域,使得在人群嚴(yán)重?fù)頂D區(qū)域和被遮擋所影響的預(yù)測(cè)更加明朗化.
在以上四段監(jiān)督中,計(jì)數(shù)層輸出的人群響應(yīng)圖作為對(duì)原人群圖片中所有特征重要性的評(píng)估將貫穿并作用于各個(gè)環(huán)節(jié),且直接決定計(jì)數(shù)結(jié)果.其過濾了低級(jí)特征中的背景噪聲,提升了早期分布監(jiān)督對(duì)淺層網(wǎng)絡(luò)的分布修正能力.此外,人群響應(yīng)圖還同樣為終期密度估計(jì)圖強(qiáng)調(diào)了人群區(qū)域,使得最終人群密度的呈現(xiàn)更加清晰明朗,尤其體現(xiàn)在在其所強(qiáng)調(diào)的密集區(qū)域.最終F2SNet的總體損失函數(shù)由公式(10)定義:
L=Lcs+Lf+Led+Lfd+Lbg
(10)
相比于堆疊卷積塊來(lái)完成各個(gè)任務(wù),F2SNet更側(cè)重于充分利用不同階段下不同任務(wù)所學(xué)特征本身的物理含義,其對(duì)網(wǎng)絡(luò)計(jì)數(shù)能力以及密度估計(jì)能力的提升并沒有以參數(shù)量作為代價(jià),恰恰相反,整個(gè)F2SNet的結(jié)構(gòu)相比于基礎(chǔ)特征提取器僅增加了兩個(gè)通道數(shù)為512、用于降維的1×1卷積.這體現(xiàn)了計(jì)數(shù)與密度估計(jì)雙任務(wù)交互協(xié)作的重要性.
本文在UCF-CC-50、Shanghai Tech、UCF-QNRF以及JHU-CROWD++這4個(gè)人群數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).UCF-CC-50是一個(gè)極其密集但樣本量非常小的數(shù)據(jù)集,每張圖片的人數(shù)從94~4543不等,平均為1280人,因此即使是最先進(jìn)的模型在其上的計(jì)數(shù)結(jié)果也遠(yuǎn)非最佳.Shanghai Tech是當(dāng)前最常用的人群數(shù)據(jù)集,其樣本量和分辨率都相對(duì)較小.其它由1198張圖片和330165個(gè)注釋組成,并且根據(jù)不同的密度分布被分為Part A和Part B兩部分.Shanghai Tech Part A為高密度場(chǎng)景圖片.Part B中人群的分布則相對(duì)稀疏,因受相機(jī)視角的影響,人頭的比例跨度很大.UCF-QNRF和JHU-CROWD++為近幾年新公開的大規(guī)模數(shù)據(jù)集,其中所包含的數(shù)據(jù)更加豐富,同時(shí)涵蓋了人群計(jì)數(shù)中更大范圍的瓶頸問題.UCF-QNRF包括1535張具有挑戰(zhàn)性的高分辨率圖像和大約125萬(wàn)個(gè)標(biāo)簽,它涵蓋了人群計(jì)數(shù)中更廣泛的瓶頸問題,包含更多樣化的場(chǎng)景以及視角、密度和光照變化,內(nèi)容更加豐富.JHU-CROWD++則有更多的圖像和更豐富的不利因素,如基于天氣的退化和光照變化.有別于之前所有數(shù)據(jù)集,JHU_CROWD++給每個(gè)人頭提供了一套豐富的標(biāo)簽,如頭部位置、遮擋級(jí)別、近似邊界框和其他圖像級(jí)別等.這兩者比之前的所有數(shù)據(jù)集均更全面、更有代表性,近年來(lái)也吸引了諸多研究者的關(guān)注.圖3展示了每個(gè)數(shù)據(jù)集中頗具有代表性的測(cè)試集人群圖像.
圖3 來(lái)自5個(gè)人群計(jì)數(shù)數(shù)據(jù)集的代表性示例Fig.3 Representative examples from five crowd counting datasets
本文采用人群計(jì)數(shù)中最通用的計(jì)數(shù)評(píng)價(jià)指標(biāo)平均絕對(duì)誤差(Mean Absolute Error,MAE)和平均平方誤差(Root Mean Square Error,RMSE)來(lái)評(píng)估不同方法間的性能,其定義如公式(11)和公式(12)所示:
(11)
(12)
本文實(shí)驗(yàn)均在顯卡配置為NVIDIA GTX 3090下的pytorch深度學(xué)習(xí)框架下運(yùn)行.使用由ImageNet[15]預(yù)訓(xùn)練的VGG19結(jié)構(gòu)作為基礎(chǔ)特征提取網(wǎng)絡(luò).對(duì)于不同數(shù)據(jù)集的訓(xùn)練周期均定為800代.訓(xùn)練期間使用權(quán)重衰減為1×10-4的Adam優(yōu)化器優(yōu)化模型參數(shù).初始學(xué)習(xí)率為5×10-5,其將隨著迭代自適應(yīng)地進(jìn)行調(diào)整.本文取驗(yàn)證集的最佳絕對(duì)誤差結(jié)果模型用于最終測(cè)試.
為了更充分地利用已有數(shù)據(jù)進(jìn)行實(shí)驗(yàn),訓(xùn)練圖像將被隨機(jī)裁剪和水平翻轉(zhuǎn)作為數(shù)據(jù)增強(qiáng).與DM Count[16]中的設(shè)置一致,在投入網(wǎng)絡(luò)訓(xùn)練之前,Shanghai Tech Part A和UCF-CC-50將被隨機(jī)裁剪成256×256分辨率的子圖,Shanghai Tech Part B和UCF-QNRF則被隨機(jī)裁出512×512,而JHU-CROWD++的裁剪尺寸為384×384,大小不足的圖像則按比例放大后再進(jìn)行裁剪.
將F2SNet在各個(gè)數(shù)據(jù)集上的運(yùn)行結(jié)果與近兩年來(lái)的優(yōu)秀方法進(jìn)行了比較,結(jié)果如表1和表2所示.與同樣使用VGG19作為基礎(chǔ)特征提取網(wǎng)絡(luò)且使用點(diǎn)監(jiān)督的Bayesian Loss和DM Count相比,F2SNet均在各個(gè)數(shù)據(jù)集上獲得了更優(yōu)的計(jì)數(shù)結(jié)果,這意味著在同等參數(shù)量下F2SNet要更高效,且更能適應(yīng)不同場(chǎng)景,具有更好的泛化能力.與近幾年的一些較好的方法比較,除了尺度跨度大且分布稀疏的Shanghai Tech Part B計(jì)數(shù)誤差比AutoScale高一些,其余均獲得更好的結(jié)果.這意味著所提的F2SNet在沒有使用更復(fù)雜結(jié)構(gòu)的前提下依然能擁有很好的計(jì)數(shù)能力,這也側(cè)面體現(xiàn)了使用雙任務(wù)交互模式監(jiān)督訓(xùn)練對(duì)于準(zhǔn)確計(jì)數(shù)的有效性.
表1 不同方法在Shanghai Tech和UCF-CC-50上的性能比較Table 1 Performance comparison of different methods on Shanghai Tech
表2 不同方法在UCF-QNRF和JHU-CROWD++上的比較Table 2 Comparison of different methods on UCF-QNRF and JHU-CROWD++
為了驗(yàn)證F2SNet對(duì)于密度估計(jì)任務(wù)的有效性,在Shanghai Tech Part A上進(jìn)行了密度估計(jì)圖質(zhì)量評(píng)估實(shí)驗(yàn),其結(jié)果如表3所示.本文采用衡量圖片間結(jié)構(gòu)相似性的SSIM指標(biāo)和反映像素點(diǎn)誤差敏感度的PSNR指標(biāo)來(lái)比較預(yù)測(cè)圖與分布標(biāo)簽間的一致性,其值越高意味著預(yù)測(cè)圖與標(biāo)簽越相似.由表3可見,F2SNet在兩項(xiàng)圖像質(zhì)量評(píng)價(jià)指標(biāo)上均獲得了更好的性能,這意味著相比于其他方法,F2SNet所生成的密度估計(jì)圖能夠能好地?cái)M合真實(shí)分布.
圖4展示了F2SNet所生成的密度估計(jì)圖的可視化結(jié)果,以顯示對(duì)人群密度分布的推理.這些圖像選自Shanghai Tech Part A中一些密集場(chǎng)景、人頭尺度跨度較大的場(chǎng)景以及缺乏顏色信息且人群分布稀疏的場(chǎng)景.由于主干網(wǎng)絡(luò)一致以及采用相同的點(diǎn)監(jiān)督形式,將預(yù)測(cè)圖與DM Count進(jìn)行了比較.由圖4可見,不管是在人群分布較為密集的區(qū)域還是相對(duì)稀疏的區(qū)域,F2SNet對(duì)于人頭的預(yù)測(cè)均比DM Count要集中,且準(zhǔn)確度更高.同時(shí),由于更關(guān)注重要響應(yīng)區(qū)域,因此即使是在人頭特征不充分且存在嚴(yán)重遮擋現(xiàn)象的分布極度密集的區(qū)域,F2SNet也能獲得更強(qiáng)調(diào)人頭作為單目標(biāo)的概念,使得預(yù)測(cè)分布更加清晰明朗.體現(xiàn)了F2SNet對(duì)于不同密度區(qū)域很好的適應(yīng)能力.
表3 各方法在Shanghai Tech Part A上的密度估計(jì)圖質(zhì)量比較Table 3 Comparison of density map of different methods on Shanghai Tech Part A
圖4 結(jié)果可視化Fig.4 Result visualization
從表4中可以看出,與參數(shù)量較少的模型相比,F2SNet的計(jì)數(shù)準(zhǔn)確性得到顯著提高;與近幾年精度較高的方法相比,
表4 不同方法空間復(fù)雜度分析Table 4 Analysis of the space overhead of different methods
在保持參數(shù)量較小的情況下,F2SNet明顯取得了更好的效果.這體現(xiàn)了所提方法的有效性,并給出了一個(gè)很好的權(quán)衡,F2SNet有一個(gè)可比較的空間開銷,同時(shí)大大改善了人群計(jì)數(shù)的準(zhǔn)確性.
為驗(yàn)證四段監(jiān)督以及雙任務(wù)交互訓(xùn)練對(duì)計(jì)數(shù)準(zhǔn)確性和密度分布估計(jì)的有效性,在Shanghai Tech Part A上進(jìn)行了一系列的消融實(shí)驗(yàn).其對(duì)應(yīng)實(shí)驗(yàn)結(jié)構(gòu)設(shè)計(jì)如圖5所示.首先將僅受計(jì)數(shù)標(biāo)簽監(jiān)督所得的計(jì)數(shù)結(jié)果作為比較基準(zhǔn),隨后依次單獨(dú)驗(yàn)證早期分布優(yōu)化模塊圖5(a)和終期分布細(xì)化模塊圖5(b)對(duì)計(jì)數(shù)及分布估計(jì)的重要性,再后驗(yàn)證雙階段分布監(jiān)督的作用圖5(c),再后驗(yàn)證背景抑制損失對(duì)密度估計(jì)圖中不同區(qū)域預(yù)測(cè)的修繕能力圖5(d),最后在計(jì)數(shù)層添加前景關(guān)注損失,來(lái)探索其對(duì)人群計(jì)數(shù)準(zhǔn)確度及分布估計(jì)的作用圖5(e).不同結(jié)構(gòu)所對(duì)應(yīng)的計(jì)數(shù)結(jié)果如表5所示.
圖5 四段監(jiān)督消融實(shí)驗(yàn)不同結(jié)構(gòu)對(duì)應(yīng)圖Fig.5 Diagrams corresponding to the different structures of the four-stage supervision ablation
表5 四段監(jiān)督消融實(shí)驗(yàn)Table 5 Ablation experiments of four-stage supervision
由表5可見,對(duì)每個(gè)階段及任務(wù)的監(jiān)督均能有效提升網(wǎng)絡(luò)的計(jì)數(shù)能力,這意味著在監(jiān)督不同階段分布的同時(shí)也會(huì)調(diào)整計(jì)數(shù)層中人群響應(yīng)圖上的權(quán)值分布,重新評(píng)判不同特征對(duì)于計(jì)數(shù)任務(wù)的貢獻(xiàn)度,每個(gè)結(jié)果的下標(biāo)部分為相對(duì)于比較基準(zhǔn)得到的精度提升.
為了體現(xiàn)其在特征提取過程中對(duì)人頭特征的掌控能力以及展示其各自對(duì)前景背景的甄別能力,將各個(gè)實(shí)驗(yàn)各個(gè)階段所得的密度估計(jì)圖進(jìn)行可視化,如圖6所示,其中和分別為4段監(jiān)督消融實(shí)驗(yàn)中不同結(jié)構(gòu)下所產(chǎn)生的人群響應(yīng)圖和最終密度估計(jì)圖的可視化結(jié)果,展示了訓(xùn)練過程中不同階段下4段監(jiān)督模塊輸出的密度圖,分別為人群響應(yīng)圖、早期分布估計(jì)圖、終期分布估計(jì)圖以及最終輸出的密度估計(jì)圖.由圖6可見,隨著對(duì)不同階段分布以及最終密度估計(jì)圖背景關(guān)注度的提升,僅用于計(jì)數(shù)的人群響應(yīng)圖開始強(qiáng)調(diào)人頭的概念,提升了標(biāo)注點(diǎn)四周特征的響應(yīng)程度,減少了大量來(lái)自上下文信息的低峰值預(yù)測(cè),能夠更好的為后續(xù)分布預(yù)測(cè)調(diào)整權(quán)重以及落點(diǎn).由圖6(Ⅱ)可見,在監(jiān)督了不同階段分布以及背景誤判后,最終密度估計(jì)圖對(duì)人群的分布情況呈現(xiàn)的要更加清晰明朗,尤其體現(xiàn)在人群密集分布區(qū)域,這體現(xiàn)了不同監(jiān)督方式對(duì)于準(zhǔn)確估計(jì)人群密度分布的能力.
圖6 消融實(shí)驗(yàn)可視化Fig.6 Results of ablation study
本文提出了雙任務(wù)交互下的四段監(jiān)督人群計(jì)數(shù)網(wǎng)絡(luò)(F2SNet),雙任務(wù)交互是指計(jì)數(shù)和密度估計(jì)協(xié)同工作,在保證計(jì)數(shù)準(zhǔn)確度的前提下,關(guān)注了人群的分布狀態(tài).四段監(jiān)督分別為計(jì)數(shù)監(jiān)督、早期分布優(yōu)化、終期分布修正和背景抑制,其分別從計(jì)數(shù)準(zhǔn)確度、分布一致性和背景誤判三方面來(lái)監(jiān)督網(wǎng)絡(luò)訓(xùn)練,彼此獨(dú)立工作卻又相互約束.F2SNet充分利用了不同階段下的特征語(yǔ)義信息,在幾乎不增加參數(shù)量的情況下大幅提高了計(jì)數(shù)精度,并生成了更高質(zhì)量的密度估計(jì)圖,尤其改善了極度密集區(qū)域的預(yù)測(cè)情況.實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性,并取得了與當(dāng)前先進(jìn)方法相比更具競(jìng)爭(zhēng)力的結(jié)果.此外,實(shí)驗(yàn)效果表明本文所提方法可以應(yīng)對(duì)各種復(fù)雜場(chǎng)景,并且包含更小的參數(shù)量,因此可以考慮將來(lái)部署到街道人群聚集區(qū)域或商場(chǎng)的人群密度監(jiān)控等場(chǎng)景中.下一步,則考慮通過調(diào)整網(wǎng)絡(luò)對(duì)前背景預(yù)測(cè)的關(guān)注度來(lái)進(jìn)一步緩解背景誤判,同時(shí)將考慮每個(gè)人頭的尺度大小并使用回歸框?qū)ζ溥M(jìn)行定位.