• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于間接—即時(shí)注意力優(yōu)化模塊的密集人群計(jì)數(shù)算法

      2023-06-23 14:37:12韓素玉王國(guó)棟王永劉瑞

      韓素玉 王國(guó)棟 王永 劉瑞

      摘要:針對(duì)網(wǎng)絡(luò)中注意力通常處于多通道狀態(tài),更新卻依賴單通道標(biāo)簽導(dǎo)致優(yōu)化困難的問(wèn)題,提出了一種間接—即時(shí)注意力優(yōu)化(IIAO)模塊。基于SoftMax-Attention策略,將多通道注意力在數(shù)學(xué)意義上轉(zhuǎn)化為單通道密度圖,同時(shí)自動(dòng)為特征金字塔模組提供自適應(yīng)多尺度融合服務(wù)。考慮到轉(zhuǎn)化方式的特殊性,設(shè)計(jì)了區(qū)域相關(guān)性損失函數(shù)(RCLoss)來(lái)檢索連續(xù)易錯(cuò)區(qū)域,平滑空間信息。實(shí)驗(yàn)結(jié)果表明,所提算法有效且性能更加穩(wěn)定。

      關(guān)鍵詞:人群計(jì)數(shù);注意力優(yōu)化;密度圖;softmax算法;特征金字塔

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1006-1037(2023)02-0050-08

      doi:10.3969/j.issn.1006-1037.2023.02.09

      基金項(xiàng)目:

      山東省自然科學(xué)基金(批準(zhǔn)號(hào):ZR2019MF050)資助;山東省高等學(xué)校優(yōu)秀青年創(chuàng)新團(tuán)隊(duì)支持計(jì)劃(批準(zhǔn)號(hào):2020KJN011)資助。

      通信作者:

      王國(guó)棟,男,博士,副教授,主要研究方向?yàn)樽兎謭D像科學(xué)、人臉識(shí)別、三維重建和醫(yī)學(xué)圖像處理和分析等。

      密集人群計(jì)數(shù)定義為檢索圖片或者視頻片段中人的數(shù)量,一般使用人頭作為計(jì)數(shù)單位,廣泛應(yīng)用在視頻監(jiān)控、車流控制、細(xì)胞計(jì)數(shù)、病蟲害預(yù)防等重要領(lǐng)域。隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,人群計(jì)數(shù)方法已經(jīng)從檢測(cè)[1]與回歸[2]過(guò)渡到密度估計(jì)[3-6],即每個(gè)像素點(diǎn)表示此位置為人頭中心的概率,以此將計(jì)數(shù)任務(wù)簡(jiǎn)化為概率的疊加。但在真實(shí)的密集場(chǎng)景中,一個(gè)魯棒的人群計(jì)數(shù)模型需要對(duì)嘈雜背景、尺度多變、相互遮擋、透視畸變等諸多問(wèn)題具備強(qiáng)大的泛化能力。注意力機(jī)制強(qiáng)調(diào)將計(jì)算重心偏向信號(hào)響應(yīng)強(qiáng)烈的區(qū)域,而非無(wú)差別地處理整幅圖像,被廣泛應(yīng)用在密集人群計(jì)數(shù)任務(wù)中。ASNet[7]算法考慮到圖像不同區(qū)域的計(jì)數(shù)性能異化,提出密度注意力網(wǎng)絡(luò),為卷積提取單元提供多尺度的注意力掩膜。RANet[8]算法使用兩個(gè)模塊分別處理全局與局部注意力,根據(jù)特征間的依賴關(guān)系進(jìn)行融合。由于直接生成精確的注意力圖比較困難,CFANet[9]通過(guò)人群區(qū)域識(shí)別器(CRR)和密度水平估計(jì)器(DLE)實(shí)現(xiàn)由粗到細(xì)的漸進(jìn)注意機(jī)制?,F(xiàn)有文獻(xiàn)大多致力于對(duì)注意力運(yùn)用方式的創(chuàng)新,而注意力損失校驗(yàn)時(shí),存在兩處不足:生成注意力標(biāo)簽需要人工閾值參與,魯棒性較差;目前只能制作單通道標(biāo)簽,而網(wǎng)絡(luò)中等待計(jì)算損失的注意力圖通常是多通道的。若采取卷積降維,損失的來(lái)源就會(huì)變成注意力圖本身以及降維引入的卷積參數(shù)兩部分,網(wǎng)絡(luò)無(wú)法針對(duì)性收斂;如果基于通道平均化,高響應(yīng)與低響應(yīng)特征將會(huì)被中和?;谝陨戏治?,本文提出一種間接—即時(shí)注意力優(yōu)化(IIAO)模塊,將損失計(jì)算的對(duì)象由多通道注意力圖轉(zhuǎn)化為單通道密度圖,以此規(guī)避注意力優(yōu)化難題;由于轉(zhuǎn)化得到的特征數(shù)據(jù)可能較為粗糙,設(shè)計(jì)了區(qū)域相關(guān)性損失(RCLoss)懲罰不規(guī)則的連續(xù)易錯(cuò)區(qū)域。

      1 密集人群計(jì)數(shù)算法

      本文建立一個(gè)適用于密集場(chǎng)景的人群計(jì)數(shù)模型,包括一個(gè)取自VGG-16模型的特征提取器作為骨干,一層卷積用于通道調(diào)整,兩個(gè)堆疊的IIAO模塊,以及另一個(gè)卷積層用于最終的預(yù)測(cè)圖回歸,如圖1所示。

      1.1 基礎(chǔ)特征提取單元

      將VGG-16的前13個(gè)卷積層與4個(gè)池化層放置在編碼器部分,用于提取不同層次的邊緣及紋理等低層次特征。然后使用雙線性插值對(duì)其輸出特征圖進(jìn)行2倍的空間上采樣,上采樣圖與第三次卷積得到的特征圖通過(guò)通道連接的方式合并,得到的特征圖經(jīng)過(guò)1×1卷積濾波器得到Fin。

      1.2 間接—即時(shí)注意力優(yōu)化算法

      如圖2所示,IIAO模塊包括兩個(gè)主要部分:ASP子模塊和SMA子模塊。Fin∈RC×H×W是IIAO模塊的輸入,其中C表示通道數(shù),H、W分別表示的高和寬均是原圖像的0.125倍,R為實(shí)數(shù)集。Fin每次經(jīng)過(guò)IIAO模塊都產(chǎn)生兩種不同類型的特征圖:Fout繼續(xù)向后傳遞,而Fwei將融合注意力直接與密度圖標(biāo)簽進(jìn)行損失計(jì)算。

      1)自適應(yīng)尺度金字塔(ASP)子模塊。ASP子模塊使用多列架構(gòu)獲取多尺度特征,伴隨著Fwei的生成自動(dòng)完成通道級(jí)別的多尺度特征融合任務(wù)(細(xì)節(jié)見(jiàn)SMA子模塊),緩解了每個(gè)分支的感受野固定在一定范圍內(nèi)的局限性。為減少參數(shù)開(kāi)銷,在ASP模塊開(kāi)始處設(shè)置一個(gè)1×1卷積把Fin的通道數(shù)壓縮到0.25C,然后擴(kuò)展為4個(gè)分支,每個(gè)分支均包含1×1,3×3,5×5等3種尺寸的卷積濾波器其中的兩個(gè)。每個(gè)分支中,第一個(gè)濾波器再將通道數(shù)縮小4倍,重整信息后第二個(gè)濾波器將之復(fù)原,此時(shí)每個(gè)分支中Fin的尺寸都為[0.25C, H, W]。最終,ASP得到的Fmul將與Fin原尺寸完全一致。

      2)SoftMax-Attention(SMA)子模塊。SMA子模塊接收殘差連接而來(lái)的Fin,過(guò)渡性注意力單元(TAU)為其提供上下文注意力,得到Fatt。具體地,為了便于運(yùn)算和提取不同層次的特征信息,TAU首先使用1×1卷積與ReLU激活函數(shù)來(lái)降低Fin的通道數(shù),得到Fin∈RCr×H×W,其中r是超參數(shù),指定縮減率。然后使用另一個(gè)1×1卷積核恢復(fù)通道數(shù),同時(shí)使用sigmoid函數(shù)調(diào)制以獲取全局上下文注意力,用Fatt∈RC×H×W表示。在此節(jié)點(diǎn)上,F(xiàn)att分為兩路,第一通路復(fù)刻傳統(tǒng)注意力機(jī)制,讓Fatt與Fmul對(duì)位相乘,發(fā)揮其監(jiān)督作用,增強(qiáng)Fmul中關(guān)鍵信息表達(dá)并抑制背景噪聲。二者乘積用Fout表示,傳遞到后續(xù)網(wǎng)絡(luò)

      在最后一個(gè)IIAO模塊后,使用1×1濾波器回歸Fout,得到最終預(yù)測(cè)圖Fpre。如果追求及時(shí)可靠的注意力,理應(yīng)在Fatt下一步內(nèi)核參數(shù)發(fā)生變化前立即對(duì)其進(jìn)行梯度更新,然而此時(shí)的Fatt處于多通道狀態(tài),而相應(yīng)標(biāo)簽只能是單通道的,因此需要降低維度。平均化意味著所有特征層賦予等同的權(quán)重,無(wú)差別對(duì)待關(guān)鍵信息與環(huán)境噪聲;如果采用卷積降維,則會(huì)引入額外可學(xué)習(xí)參數(shù),模糊了模型效果的參數(shù)來(lái)源。

      基于此,在第二通路提出SMA策略優(yōu)化注意力的損失更新流程,無(wú)需偽標(biāo)簽,同時(shí)沒(méi)有引入額外可學(xué)習(xí)參數(shù),可以在起到監(jiān)督作用后即時(shí)修正注意力內(nèi)核參數(shù)。具體地,每次Fatt經(jīng)TAU生成后,都由softmax函數(shù)在通道方向?qū)⑵錃w一化為[0,1]之間的概率分布,目的是學(xué)習(xí)Fmul中每個(gè)像素點(diǎn)所表達(dá)的特征信息在此位置所有通道層的動(dòng)態(tài)權(quán)重。然后將Fatt與Fmul相乘,注意,此時(shí)的結(jié)果不同于Fout。將所有通道累加,得到融合注意力于特征信息的權(quán)重密度圖,用Fwei∈R1×H×W表示,其中i∈1,H,j∈1,W

      至此,注意力損失計(jì)算的對(duì)象就在數(shù)學(xué)意義上由多通道注意力圖Fatt轉(zhuǎn)化為單通道密度圖Fwei,而密度圖標(biāo)簽容易制得且相對(duì)可靠。Fmul學(xué)習(xí)了多分支中每個(gè)通道的權(quán)重,而不同分支對(duì)不同尺度的特征具備不同的感知能力,因此得到Fwei的同時(shí),也完成了ASP模塊的特征融合任務(wù)。

      1.3 損失函數(shù)

      大多數(shù)研究選擇均方誤差損失函數(shù)來(lái)校驗(yàn)最終預(yù)測(cè)圖與標(biāo)簽之間的像素級(jí)誤差值,用Lpre表示

      其中,N代表單訓(xùn)練批次中圖片的數(shù)量,Θ指代網(wǎng)絡(luò)中一系列可學(xué)習(xí)參數(shù),Xi意為當(dāng)前參與訓(xùn)練的圖片,P(Xi;Θ)表示其相應(yīng)的預(yù)測(cè)結(jié)果圖,GGTi是對(duì)應(yīng)的標(biāo)簽。

      1.3.1 區(qū)域相關(guān)性損失函數(shù) 現(xiàn)實(shí)場(chǎng)景中不同密集程度的人群分布不均,均方誤差假設(shè)像素之間隔離且獨(dú)立,無(wú)法保證空間相關(guān)性。本文提出了區(qū)域相關(guān)性損失函數(shù)(RCLoss),搭配IIAO模塊可更高效的實(shí)現(xiàn)注意力優(yōu)化,運(yùn)行流程見(jiàn)圖3。

      RCLoss將Fwei與標(biāo)簽圖做差并求絕對(duì)值,得到Error map。設(shè)置滑動(dòng)窗口遍歷Error map,在得到的每個(gè)子窗口中尋找預(yù)測(cè)誤差較大的像素點(diǎn),以其位置本身的誤差值為基準(zhǔn)施加增量性懲罰,懲罰力度與錯(cuò)誤程度呈非線性正相關(guān)。為了確保子窗口之間信息的連續(xù)性,采用交錯(cuò)窗口,產(chǎn)生的重疊區(qū)域?qū)⒈恢貜?fù)分析,但只有極其易錯(cuò)的位置會(huì)被重復(fù)懲罰,直接忽略低敏感區(qū)域。首先計(jì)算Error map,用E∈R1×W×H表示

      假設(shè)滑窗的尺寸與步長(zhǎng)分別為k、s,計(jì)算窗口在水平與垂直兩個(gè)方向所能滑動(dòng)的最大次數(shù)Rmax與Dmax

      在每個(gè)子窗口內(nèi)都有預(yù)測(cè)誤差值最大的像素點(diǎn),稱為Hard點(diǎn),誤差值為MAXr,d{r∈[1,Rmax],d∈[1,Dmax]}。依次分析每個(gè)子窗口,懲罰誤差值逼近MAXr,d值的像素點(diǎn),懲罰的數(shù)量由常量threshold確定,懲罰的力度與自身預(yù)測(cè)的偏離程度相關(guān)。對(duì)于誤差在容忍區(qū)間內(nèi)的像素點(diǎn),使用MSELoss作為其損失;否則基于RCLoss,算法為

      其中,Lossr,d表示每個(gè)子窗口的損失值總和,i和j分別是其寬和高的迭代變量,EP和ET分別表示易錯(cuò)點(diǎn)和可容忍點(diǎn)。在每個(gè)子窗口內(nèi)首先確定Hard點(diǎn)并計(jì)算MAXr,d值,然后搜尋誤差值大于threshold與MAXr,d乘積值的易錯(cuò)點(diǎn),最后與其余可容忍點(diǎn)一起按式(7)計(jì)算。累加一個(gè)訓(xùn)練批次中所有可達(dá)的子窗口損失值,得到最終的RCLoss損失值

      1.3.2 統(tǒng)一目標(biāo)損失函數(shù) 網(wǎng)絡(luò)生成3個(gè)相同尺寸的密度圖,包括2個(gè)IIAO模塊輸出的Fwei和1個(gè)最終的預(yù)測(cè)圖Fpre。通過(guò)對(duì)不同任務(wù)的加權(quán),訓(xùn)練所需的統(tǒng)一目標(biāo)函數(shù)表述為

      其中,λ和γ是兩個(gè)損失函數(shù)的權(quán)重項(xiàng)。在所有數(shù)據(jù)集的實(shí)驗(yàn)中,二者都可以設(shè)置為固定值。

      2 實(shí)驗(yàn)設(shè)置

      2.1 數(shù)據(jù)集與標(biāo)簽

      ShanghaiTech[10]數(shù)據(jù)集分為兩部分:Part_A包含482張圖片,訓(xùn)練集300張,測(cè)試集182張;Part_B包含716張圖片,圖片大小固定為1 024×768,訓(xùn)練集400張,測(cè)試集316張。UCF_CC_50[2]數(shù)據(jù)集樣本數(shù)量有限,因此使用五折交叉驗(yàn)證作為統(tǒng)一的檢驗(yàn)方式,每張圖片標(biāo)注的目標(biāo)數(shù)量從94到4 543不等,平均為1 280。UCF-QNRF[11]數(shù)據(jù)集包含1 251 642個(gè)標(biāo)注點(diǎn)的1 535張高清圖片,訓(xùn)練集和測(cè)試集分別有1 201、334張圖片,目標(biāo)的密度范圍為[49, 12 865]。

      采用高斯函數(shù)模糊每個(gè)頭部注釋來(lái)生成密度標(biāo)簽,對(duì)于人群稀疏的數(shù)據(jù)集,如ShanghaiTech Part_B[10],采用固定尺寸的高斯核;對(duì)于場(chǎng)景較密集的其他數(shù)據(jù)集,則基于最近鄰算法的幾何自適應(yīng)核。

      2.2 實(shí)驗(yàn)參數(shù)

      除基礎(chǔ)特征提取單元之外,后續(xù)層的參數(shù)由高斯分布隨機(jī)初始化,均值為0,標(biāo)準(zhǔn)差為0.01。過(guò)渡性注意力單元(TAU)中的縮減率r=16。對(duì)于模型訓(xùn)練細(xì)節(jié),選擇Adam優(yōu)化器,初始學(xué)習(xí)率為0.0001,每100輪減半一次。權(quán)重項(xiàng)λ和γ分別設(shè)置為1.5和0.5。threshold在不同數(shù)據(jù)集中取值略有差異,將在消融實(shí)驗(yàn)中討論。

      2.3 評(píng)估指標(biāo)

      在人群計(jì)數(shù)任務(wù)中,有兩種主要的網(wǎng)絡(luò)性能評(píng)估指標(biāo):平均絕對(duì)均方誤差(MAE)和均方根誤差(MSE),MAE=1N∑Ni=1Pi-Gi,MSE=1N∑Ni=1Pi-Gi2,其中,N表示測(cè)試集中圖片的數(shù)量,Pi和Gi分別代表第i張圖片的預(yù)測(cè)數(shù)量和真實(shí)數(shù)量。

      3 分析與討論

      3.1 對(duì)比實(shí)驗(yàn)

      為驗(yàn)證IIAO算法的有效性,對(duì)比試驗(yàn)在4個(gè)官方數(shù)據(jù)集上進(jìn)行,結(jié)果見(jiàn)表1(最佳表現(xiàn)用粗體表示,次之用下劃線表示)。在ShanghaiTech Part_A數(shù)據(jù)集中,MAE指標(biāo)領(lǐng)先諸多算法,比第二名DKPNet[12]結(jié)果低2.21%;對(duì)于UCF_CC_50[2]數(shù)據(jù)集,IIAO在MAE指標(biāo)上領(lǐng)先第二名ASNet[7]13.18%,MSE領(lǐng)先13.41%。

      3.2 消融實(shí)驗(yàn)

      3.2.1 注意力不同降維方式對(duì)結(jié)果的影響 在對(duì)照試驗(yàn)中,Baseline沒(méi)有對(duì)Fatt計(jì)算損失,任其在梯度反傳時(shí)自學(xué)習(xí)。然后依據(jù)對(duì)Fatt降維方法的不同設(shè)置三組實(shí)驗(yàn),依次為按通道方向?qū)att平均化,利用1×1卷積將Fatt通道數(shù)降至1,使用SoftMax-Attention策略。實(shí)驗(yàn)基于JHU-CROWD++[22]數(shù)據(jù)集的val部分,為保證無(wú)關(guān)條件統(tǒng)一,所有實(shí)驗(yàn)組均只采用均方誤差損失。

      由表2可知,三組對(duì)照試驗(yàn)的所有指標(biāo)均呈現(xiàn)下降趨勢(shì)。但是組1的效果不及Bashline,因其背離了注意力機(jī)制的思想。組2和組3都領(lǐng)先Baseline,后者更低的計(jì)數(shù)誤差驗(yàn)證了本文假設(shè),即傳統(tǒng)注意力機(jī)制的損失計(jì)算流程確實(shí)存在可優(yōu)化空間,而本文基于SoftMax-Attention策略的IIAO模塊發(fā)揮了關(guān)鍵作用,同時(shí)針對(duì)Fwei使用RCLoss進(jìn)行優(yōu)化的新增實(shí)驗(yàn)組l取得了更好的效果。

      為了直觀展示SoftMax-Attention的效果,從每個(gè)數(shù)據(jù)集中選取了代表性樣本做計(jì)數(shù)測(cè)試,如圖4所示。其中每一橫排代表一種數(shù)據(jù)集,第一列是輸入原圖,最后一列是其對(duì)應(yīng)的標(biāo)準(zhǔn)標(biāo)簽數(shù)據(jù),中間兩列表示Baseline和SoftMax-Attention兩個(gè)實(shí)驗(yàn)組的實(shí)驗(yàn),可以看出后者的效果更逼近于標(biāo)簽,性能更好。同時(shí)為了觀察細(xì)節(jié)差異,使用紅框標(biāo)注出了圖片中的微小目標(biāo),放大可進(jìn)行更好的對(duì)比。

      3.2.2 分析RCLoss以及threshold波動(dòng)對(duì)結(jié)果的影響 本節(jié)實(shí)驗(yàn)同樣基于JHU-CROWD++[22]數(shù)據(jù)集,先將RCLoss更換為MSELoss視為參照基準(zhǔn),然后還原為RCLoss并多次調(diào)節(jié)threshold值作為對(duì)比,結(jié)果如圖5所示,其中灰色虛線代表參照基準(zhǔn),等同于threshold=1的特殊情況。詳細(xì)來(lái)看,如果threshold過(guò)小,懲罰區(qū)域會(huì)變多,相鄰區(qū)域甚至聯(lián)結(jié),高頻易錯(cuò)點(diǎn)難以突出;相反地,如果過(guò)大,懲罰條件會(huì)變嚴(yán)格,導(dǎo)致RCLoss無(wú)限退化為MSEloss。

      由中間的兩個(gè)細(xì)節(jié)放大圖可以看出,在使用RCLoss同時(shí)將threshold設(shè)置為0.95時(shí)計(jì)數(shù)表現(xiàn)最優(yōu)。需要注意的是,不同數(shù)據(jù)集的密度水平存在差異,因此增加了在不同數(shù)據(jù)集下threshold各自最優(yōu)取值的實(shí)驗(yàn),結(jié)果見(jiàn)表3。

      3.2.3 RCLoss中滑動(dòng)窗口的設(shè)置對(duì)結(jié)果的影響 本文使用滑動(dòng)窗口將Error map(50×50)分塊處理,為網(wǎng)絡(luò)提供更多的連續(xù)性候選區(qū)域,設(shè)定滑動(dòng)窗口尺寸和步長(zhǎng)時(shí),要求滑窗可以遍歷到圖中所有位置,同時(shí)保證padding=0。從滿足條件的可行方案中選出3組代表性的組合,增設(shè)不使用滑動(dòng)窗口策略的全窗口計(jì)算模式作為對(duì)照組,實(shí)驗(yàn)結(jié)果如圖6所示。

      可知,{尺寸=27, 步長(zhǎng)=23}是最優(yōu)組合,能夠生成重疊長(zhǎng)度為8的窗口,已知網(wǎng)絡(luò)感受野同樣為8,因此映射回原圖像中是64×64大小的區(qū)域,與較大人頭的尺寸接近,而大人頭出現(xiàn)在分割線上的可能性更大,此時(shí)重疊區(qū)域就能對(duì)分割線上的特征進(jìn)行跨窗口分析,從而使可能存在的正樣本不被分割線所破壞。

      3.2.4 IIAO模塊堆疊數(shù)量對(duì)模型的影響 IIAO模塊可以優(yōu)化注意力,但堆疊的數(shù)量未必越多越好。為此,實(shí)驗(yàn)驗(yàn)證時(shí)除了必要的MAE與MSE預(yù)測(cè)圖質(zhì)量指標(biāo)外,增加了對(duì)GFLOPs、Param size以及Inference time變量的監(jiān)督,因其對(duì)模型的訓(xùn)練難度和實(shí)用性有很大參考價(jià)值,結(jié)果見(jiàn)表4(測(cè)試圖片統(tǒng)一為400×400大?。?芍?,IIAO模塊數(shù)量為2時(shí)模型已經(jīng)趨于收斂,過(guò)多的模塊堆疊將導(dǎo)致特征的過(guò)度平滑,導(dǎo)致訓(xùn)練擬合;冗余的參數(shù)也會(huì)給計(jì)算機(jī)內(nèi)存帶來(lái)巨大壓力,缺乏實(shí)用性。因此,本文確定兩個(gè)IIAO模塊疊加的方案,在此設(shè)置下,對(duì)于576×720大小的圖片,推理時(shí)間為100 ms。

      4 結(jié)論

      本文提出的注意力優(yōu)化策略,采用基于SoftMax-Attention的IIAO模塊,將多通道注意力圖在數(shù)學(xué)意義上轉(zhuǎn)化為單通道密度圖,使網(wǎng)絡(luò)不再依賴于人工注意力標(biāo)簽。并提出了關(guān)注連續(xù)易錯(cuò)區(qū)域的RCLoss輔助IIAO發(fā)掘高潛區(qū)域,從而加速模型收斂,提高推理精度。在多個(gè)官方數(shù)據(jù)集的實(shí)驗(yàn)和對(duì)比證明本文提出的算法有效且性能更加穩(wěn)定。下一步研究將聚焦在真實(shí)場(chǎng)景中的人群定位,提高算法的實(shí)用性。

      參考文獻(xiàn)

      [1]TOPKAYA I S, ERDOGAN H, PORIKLI F. Counting people by clustering person detector outputs[C]// 11th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Seoul, 2014: 313-318.

      [2]IDREES H, SALEEMI I, SEIBERT C, et al. Multi-source multi-scale counting in extremely dense crowd images[C]// 26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, 2013: 2547-2554.

      [3]劉東華,魏賓,王國(guó)棟. 基于多尺度特征融合與注意力機(jī)制的人群計(jì)數(shù)算法[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,35(1):40-47.

      [4]陳磊,王國(guó)棟. 用于人群密度估計(jì)的多級(jí)融合卷積神經(jīng)網(wǎng)絡(luò)[J]. 青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,33(4):31-36.

      [5]楊旭,黃進(jìn),秦澤宇,等. 基于多尺度特征融合的人群計(jì)數(shù)算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2022,31(1):226-235.

      [6]萬(wàn)洪林,王曉敏,彭振偉,等. 基于新型多尺度注意力機(jī)制的密集人群計(jì)數(shù)算法[J].電子與信息學(xué)報(bào),2022,44(3):1129-1136.

      [7]JIANG X H, ZHANG L, XU M L, et al. Attention scaling for crowd counting[C]// 33th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Electr Network, 2020: 4706-4715.

      [8]ZHANG A R, SHEN J Y, XIAO Z H, et al. Relational attention network for crowd counting[C]// 17th IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, 2019: 6788-6797.

      [9]RONG L Z, LI C P. Coarse-and fine-grained attention network with background-aware loss for crowd density map estimation[C]// IEEE Winter Conference on Applications of Computer Vision Workshops (WACVW). Electr Network, 2021: 3675-3684.

      [10] ZHANG Y Y, ZHOU D S, CHEN S Q, et al. Single-image crowd counting via multi-column convolutional neural network[C]// 29th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, 2016: 589-597.

      [11] IDREES H, TAYYAB M, ATHREY K, et al. Composition loss for counting, density map estimation and localization in dense crowds[C]// European Conference on Computer Vision (ECCV). Munich, 2018: 532-546.

      [12] CHEN B H, YAN Z Y, LI K, et al. Variational attention: propagating domain-specific knowledge for multi-domain learning in crowd counting[C]// 18th IEEE/CVF International Conference on Computer Vision (ICCV). Electr Network, 2021: 16065-16075.

      [13] MA Z H, WEI X, HONG X P, et al. Bayesian loss for crowd count estimation with point supervision[C]// 17th IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, 2019: 6142-6151.

      [14] LIU L, LU H, ZOU H W, et al. Weighing counts: Sequential crowd counting by reinforcement learning[C]// European Conference on Computer Vision (ECCV). Glasgow, 2020: 164-181.

      [15] HU Y T, JIANG X L, LIU X H, et al. Nas-count: Counting-by-density with neural architecture search[C]// European Conference on Computer Vision (ECCV). Glasgow, 2020: 747-766.

      [16] ABOUSAMRA S, HOAI M, SAMARAS D, et al. Localization in the crowd with topological constraints[C]// Association for the Advancement of Artificial Intelligence (AAAI). Electr Network, 2021, 35(2): 872-881.

      [17] MA Z H, WEI X, HONG X P, et al. Learning to count via unbalanced optimal transport[C]// Association for the Advancement of Artificial Intelligence (AAAI). Electr Network, 2021, 35(3): 2319-2327.

      [18] XU Y Y, ZHONG Z M, LIAN D Z, et al. Crowd counting with partial annotations in an image[C]// 18th IEEE/CVF International Conference on Computer Vision (ICCV). Electr Network, 2021: 15570-15579.

      [19] CHENG J, XIONG H P, CAO Z G, et al. Decoupled two-stage crowd counting and beyond[J]. IEEE Transactions on Image Processing, 2021, 30:2862-2875.

      [20] WANG Q, BRECKON T P. Crowd counting via segmentation guided attention networks and curriculum loss[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(9):15233-15243.

      [21] LIN H, MA Z H, JI R R, et al. Boosting crowd counting via multifaceted attention[C]// 35th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, 2022: 19628-19637.

      [22] SINDAGI V A, YASARLA R, PATEL V M M. Jhu-crowd++: Large-scale crowd counting dataset and a benchmark method[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 44(5):2594-2609.

      阳春市| 海南省| 光泽县| 通州区| 江川县| 海盐县| 汝州市| 周至县| 商都县| 进贤县| 贡觉县| 邹城市| 德钦县| 裕民县| 普兰县| 修水县| 承德市| 天台县| 安远县| 惠东县| 巴彦淖尔市| 丰城市| 景德镇市| 民权县| 湖南省| 莱州市| 广昌县| 盐津县| 会东县| 凭祥市| 罗山县| 景德镇市| 吴忠市| 合山市| 论坛| 安顺市| 宜春市| 连南| 浦县| 靖西县| 山阴县|