楊浩杰,王璐,楊省偉
(1. 鐵道警察學(xué)院網(wǎng)絡(luò)信息中心,河南 鄭州 450053;2. 鐵道警察學(xué)院圖像與網(wǎng)絡(luò)偵查系,河南 鄭州 450053;3. 河南質(zhì)量工程職業(yè)學(xué)院計(jì)算機(jī)技術(shù)學(xué)院,河南 平頂山 467000)
隨著我國(guó)經(jīng)濟(jì)和社會(huì)的發(fā)展,汽車作為主要的交通工具步入了千家萬戶,城市交通擁堵等問題愈發(fā)嚴(yán)重。雖然我國(guó)已經(jīng)采取機(jī)動(dòng)車限行、提高停車費(fèi)、車牌搖號(hào)等措施限制城市的汽車總量,但卻難以從根本上解決城市交通擁堵的問題[1]。在汽車總量大、交通事故頻發(fā)的背景下,如何通過相關(guān)的技術(shù)手段在一定程度上緩解道路交通壓力成了學(xué)者們重要的研究方向。道路目標(biāo)檢測(cè)是保障道路交通安全的關(guān)鍵技術(shù),在當(dāng)前智慧交通的應(yīng)用大背景下,道路交通場(chǎng)景的繁雜性以及道路目標(biāo)的多樣化,給道路目標(biāo)的檢測(cè)帶來了困難。在復(fù)雜場(chǎng)景下,密集物體相互遮擋以及小目標(biāo)的檢測(cè)是影響檢測(cè)精度的關(guān)鍵因素。解決目標(biāo)檢測(cè)過程對(duì)中小目標(biāo)及遮擋目標(biāo)的誤檢和漏檢問題,是當(dāng)前目標(biāo)檢測(cè)的研究熱點(diǎn)[2]。
傳統(tǒng)的目標(biāo)檢測(cè)方法在圖像檢測(cè)方面彰顯了獨(dú)特的優(yōu)勢(shì),能夠在一定程度上實(shí)現(xiàn)對(duì)道路交通目標(biāo)的有效檢測(cè)。但由于道路交通場(chǎng)景中目標(biāo)尺度分布的特殊性和復(fù)雜多變性,傳統(tǒng)的基于手工特征的目標(biāo)檢測(cè)方法和經(jīng)典的深度學(xué)習(xí)目標(biāo)檢測(cè)方法在實(shí)際道路交通場(chǎng)景中的目標(biāo)檢測(cè)應(yīng)用上還存在著一定的困難,主要表現(xiàn)為無法提取到能夠適用于道路多目標(biāo)檢測(cè)的有效特征,從而影響目標(biāo)檢測(cè)的準(zhǔn)確性。目前,針對(duì)智慧公安及智慧交通領(lǐng)域中道路目標(biāo)檢測(cè)實(shí)際應(yīng)用需求,如何使用更具適用性的目標(biāo)檢測(cè)方法從復(fù)雜的道路交通場(chǎng)景中提取出更有效的特征并更精準(zhǔn)地檢測(cè)出道路目標(biāo),成了道路多目標(biāo)檢測(cè)中一個(gè)亟待解決的問題。
文章針對(duì)道路目標(biāo)精準(zhǔn)檢測(cè)中的技術(shù)難點(diǎn),以當(dāng)前先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)為基礎(chǔ),研究并提出了一種基于特征融合的特征學(xué)習(xí)和目標(biāo)檢測(cè)方法,為當(dāng)前復(fù)雜交通環(huán)境下的道路目標(biāo)檢測(cè)問題提供一些技術(shù)參考。
在當(dāng)前的視覺圖像處理領(lǐng)域,尤其是道路交通場(chǎng)景圖像中,很多使用深度神經(jīng)網(wǎng)絡(luò)方法的場(chǎng)景都是在同一尺寸感受野的單一尺度上進(jìn)行特征的提取和學(xué)習(xí)的。這種方法具有一定的可取之處,但在道路交通場(chǎng)景繁雜以及圖像上下文結(jié)構(gòu)信息復(fù)雜的視頻圖像場(chǎng)景中,單一尺度的特征學(xué)習(xí)方法表現(xiàn)出了一定的局限性[3]。因此,為了更進(jìn)一步地提高對(duì)道路交通場(chǎng)景各類復(fù)雜多目標(biāo)特征提取的性能,文章提出了一種基于多尺度特征融合的道路目標(biāo)特征學(xué)習(xí)方法。該方法通過多尺度方式的特征表達(dá),可以提升道路目標(biāo)特征的學(xué)習(xí)和表達(dá)能力,進(jìn)而也能夠提高網(wǎng)絡(luò)模型對(duì)圖像上下文結(jié)構(gòu)信息的捕獲能力。
基于多尺度特征融合的道路目標(biāo)特征學(xué)習(xí)模型如圖1 所示。
圖1 基于多尺度特征融合的目標(biāo)特征學(xué)習(xí)模型
從圖中可以看出,該目標(biāo)特征學(xué)習(xí)模型主要分為三個(gè)部分,即多尺度特征提取模塊、多尺度特征融合模塊和多尺度特征優(yōu)化模塊。
此模塊是為了解決單一尺度提取輸入數(shù)據(jù)特征時(shí)所表現(xiàn)出的提取特征表達(dá)能力不足的問題而設(shè)計(jì)的。在這種多尺度卷積核并聯(lián)結(jié)構(gòu)中,每一個(gè)卷積核具有一個(gè)與其他卷積核不同的尺寸,可以用來對(duì)輸入圖像數(shù)據(jù)在該尺度卷積核上進(jìn)行一次特征的提取,而不同尺寸的卷積核則可以同時(shí)對(duì)輸入圖像數(shù)據(jù)進(jìn)行并行式的特征提取,從而獲取到輸入圖像數(shù)據(jù)的不同尺度的特征。在多尺度特征提取的設(shè)計(jì)上,可以采用1×1 卷積核、3×3 卷積核、5×5卷積核、7×7 卷積核以及9×9 卷積核的不同卷積核尺寸。同時(shí)使用五個(gè)不同尺度的卷積核,將會(huì)提取到五個(gè)不同尺度的圖像特征。
根據(jù)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)思想,需要使用非線性激活函數(shù)對(duì)網(wǎng)絡(luò)模型進(jìn)行非線性激活,從而使其具有良好的非線性性能。設(shè)整個(gè)網(wǎng)絡(luò)的輸入圖像數(shù)據(jù)為X,并且該網(wǎng)絡(luò)模型包含多個(gè)卷積層,每個(gè)卷積層操作過程中的多尺度卷積核也都不相同,那么,各卷積層的帶有非線性激活函數(shù)的卷積操作表達(dá)式可以表示為:
在式(1)中,i代表某一卷積層的所有多尺度卷積核中的第i個(gè)卷積核,Wi表示第i個(gè)卷積核的權(quán)值參數(shù),Bi表示第i個(gè)卷積核的偏置參數(shù),σi表示第i個(gè)卷積核在卷積操作之后的非線性激活函數(shù)。而在卷積神經(jīng)網(wǎng)絡(luò)中,常使用的非線性激活函數(shù)是線性整流函數(shù)ReLU,因而,此處σi的表達(dá)式為:
上述式子中,x代表輸入到非線性激活函數(shù)中的卷積值。
在對(duì)輸入圖像數(shù)據(jù)進(jìn)行多尺度特征提取之后,每個(gè)卷積層得到了n個(gè)卷積特征圖(n亦為該卷積層中不同的卷積核的數(shù)目)。然后文章對(duì)這n個(gè)卷積特征圖進(jìn)行特征的融合操作和處理,即多尺度特征融合。在對(duì)這n個(gè)多尺度卷積特征圖進(jìn)行融合的時(shí)候,將特征融合方法設(shè)計(jì)為:對(duì)各個(gè)不同尺度卷積核得到的不同特征圖進(jìn)行疊加。疊加后的特征圖通道數(shù)等于多尺度特征提取過程中各個(gè)不同卷積核的總通道數(shù)。多尺度特征融合的原理如圖2所示。
圖2 基于多尺度的目標(biāo)特征融合原理
對(duì)這n個(gè)由不同尺度卷積核所得到的卷積特征圖使用上述基于多尺度的特征融合方法,則有:
在式(4)中,i代表某一卷積層的所有多尺度卷積核中的第i個(gè)卷積核,X表示輸入數(shù)據(jù)。
在對(duì)輸入圖像數(shù)據(jù)進(jìn)行多尺度特征提取的過程中,所使用的不同尺度的卷積核都有一定數(shù)量的通道數(shù),因此能從輸入圖像數(shù)據(jù)中提取到豐富的特征。然而,當(dāng)各個(gè)不同尺度的卷積核都具有較多的通道數(shù)并且對(duì)這些卷積核并聯(lián)式地進(jìn)行操作時(shí),多尺度特征的進(jìn)一步融合將會(huì)使融合后的通道數(shù)相當(dāng)多。因此,文章使用1×1 的卷積核對(duì)其進(jìn)行優(yōu)化處理。在具體的實(shí)現(xiàn)上,將1×1 的卷積核設(shè)計(jì)為少于特征融合后的特征通道數(shù),即可保證卷積操作之后的特征圖的通道數(shù)也相應(yīng)減少,而使用1×1 的卷積核又可以確保融合后的特征圖中所有的特征信息不會(huì)丟失。對(duì)多尺度特征融合后的特征圖進(jìn)行優(yōu)化的表達(dá)式如下:
該式中的X表示輸入的圖像數(shù)據(jù),f(X)表示進(jìn)行了多尺度特征融合后的輸出特征圖,W代表進(jìn)行優(yōu)化的權(quán)值參數(shù),B代表進(jìn)行優(yōu)化的偏置參數(shù),而σ則表示該卷積操作之后所使用的ReLU 非線性激活函數(shù)。
同時(shí),針對(duì)上述基于多尺度的目標(biāo)特征學(xué)習(xí)和提取方法,還可以進(jìn)行級(jí)聯(lián)式的設(shè)計(jì)和使用。其表達(dá)式為:
式(6)所表示的級(jí)聯(lián)式的目標(biāo)特征學(xué)習(xí)方法能夠更好地提取到原始圖像數(shù)據(jù)的特征,因此具備更好的表達(dá)性能。但在具體使用時(shí),還需考慮卷積計(jì)算時(shí)的時(shí)間性能,尋求最為適中的設(shè)計(jì)模型和相關(guān)網(wǎng)絡(luò)參數(shù)。
文章基于當(dāng)前經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)Faster-RCNN 模型,將所提出的基于多尺度的道路目標(biāo)特征學(xué)習(xí)方法提取出的道路目標(biāo)特征應(yīng)用到該模型中,充分利用基于多尺度方法所提取出的目標(biāo)特征進(jìn)而獲得更高效的表達(dá),構(gòu)建更加高效的目標(biāo)檢測(cè)方法和模型,更有效地實(shí)現(xiàn)對(duì)道路目標(biāo)的檢測(cè)。
文章所使用的Faster-RCNN 目標(biāo)檢測(cè)模型,是在原有Fast-RCNN 目標(biāo)檢測(cè)模型的基礎(chǔ)上,使用區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)代替Fast-RCNN 模型中的Selective Search(選擇性搜索)方法[4-5],即使用RPN 首先對(duì)圖像中的每個(gè)像素點(diǎn)生成錨框而形成的模型。當(dāng)總共有n個(gè)錨框大小以及m個(gè)錨框縮放比例時(shí),將會(huì)生成n×m個(gè)錨框。在卷積神經(jīng)網(wǎng)絡(luò)模型框架中對(duì)每個(gè)錨框進(jìn)行判斷,過濾掉那些屬于背景的錨框,而對(duì)那些屬于目標(biāo)的錨框進(jìn)行進(jìn)一步ROI(感興趣區(qū)域)池化以及邊框回歸處理等操作。圖3 為Faster-RCNN 目標(biāo)檢測(cè)模型中的錨框選取。
圖3 Faster-RCNN 目標(biāo)檢測(cè)模型中的錨框選取
實(shí)驗(yàn)基于以上Faster-RCNN 目標(biāo)檢測(cè)模型,在設(shè)計(jì)上將基于多尺度的目標(biāo)特征學(xué)習(xí)方法所獲取到的目標(biāo)特征輸出結(jié)果應(yīng)用到Faster-RCNN目標(biāo)檢測(cè)模型的RPN 中,使用表達(dá)性能更強(qiáng)的多尺度特征融合后的目標(biāo)特征進(jìn)行下一步的目標(biāo)檢測(cè),進(jìn)而從整體上達(dá)到更精準(zhǔn)的目標(biāo)檢測(cè)性能。
文章在Faster-RCNN 目標(biāo)檢測(cè)模型的基礎(chǔ)上,提出的基于特征融合的目標(biāo)檢測(cè)模型如圖4 所示。
圖4 基于特征融合的目標(biāo)檢測(cè)模型
實(shí)驗(yàn)使用KITTI 數(shù)據(jù)集所提供的數(shù)據(jù)圖像對(duì)文章所提出的方法進(jìn)行驗(yàn)證。KITTI 數(shù)據(jù)集是國(guó)際上當(dāng)前使用最為頻繁,并且具有較完備道路交通場(chǎng)景的計(jì)算機(jī)視覺相關(guān)算法評(píng)估的道路交通數(shù)據(jù)集。該數(shù)據(jù)集包含城市市區(qū)、公路、村莊等實(shí)景采集圖像,每張圖像中都包含不同類別的車輛和形態(tài)各異的行人等諸多復(fù)雜道路目標(biāo)。在實(shí)驗(yàn)的具體設(shè)計(jì)上,選取KITTI 數(shù)據(jù)集中具有代表性的圖像組成訓(xùn)練集和測(cè)試集。其中,組成訓(xùn)練集的圖片共有7 481 張,組成測(cè)試集的圖片共有3 600 張。使用文章所提出的方法,將基于多尺度的目標(biāo)特征融合方法提取出的特征輸入到Faster-RCNN網(wǎng)絡(luò)中,分析驗(yàn)證該方法用于Faster-RCNN 網(wǎng)絡(luò)后的目標(biāo)檢測(cè)性能。并在此基礎(chǔ)上,分別采用Faster-RCNN網(wǎng)絡(luò)和基于多尺度特征融合的Faster-RCNN 網(wǎng)絡(luò)對(duì)其進(jìn)行評(píng)測(cè)。實(shí)驗(yàn)平臺(tái)電腦配置為Windows7 64位,CPU i7 6700K,內(nèi)存16G,顯卡GTX1080(8G顯存)。
表1 為兩種方法下對(duì)平均精度均值mAP 這一目標(biāo)檢測(cè)性能指標(biāo)的對(duì)比統(tǒng)計(jì)分析。
表1 兩種方法下的道路目標(biāo)檢測(cè)性能統(tǒng)計(jì)
從表1 中可以看出,使用Faster-RCNN 網(wǎng)絡(luò)模型,對(duì)道路交通圖像中的各類目標(biāo)車輛的檢測(cè)準(zhǔn)確率為65.56%,對(duì)目標(biāo)行人的檢測(cè)準(zhǔn)確率為63.12%。而使用文章所提出的方法,對(duì)各類目標(biāo)車輛以及目標(biāo)行人的檢測(cè)準(zhǔn)確率均稍有提升。這說明文章所提出的方法通過使用不同尺度的卷積核對(duì)原始目標(biāo)圖像進(jìn)行特征的提取,并對(duì)各種不同尺度下所提取的特征進(jìn)行融合和優(yōu)化,能夠更有效地得到道路交通目標(biāo)的表達(dá)特征,通過所獲得的更具豐富表達(dá)能力的目標(biāo)特征,能達(dá)到相對(duì)更高的目標(biāo)檢測(cè)精度。
為進(jìn)一步驗(yàn)證所提出方法的有效性,分別開展3 次對(duì)比實(shí)驗(yàn),對(duì)mAP 性能指標(biāo)進(jìn)行對(duì)比統(tǒng)計(jì)分析,如表2 所示。
表2 兩種方法下的3 次對(duì)比實(shí)驗(yàn)性能統(tǒng)計(jì)
從表2 中可以看出,在3 次獨(dú)立的對(duì)比實(shí)驗(yàn)中,文章所提出的方法在各類目標(biāo)車輛以及目標(biāo)行人的檢測(cè)準(zhǔn)確率上相對(duì)原始的Faster-RCNN 網(wǎng)絡(luò)模型均有一定的提升,說明該方法在道路交通目標(biāo)檢測(cè)方面具有一定的適用性和可行性。
同時(shí),為了驗(yàn)證多尺度特征對(duì)道路交通目標(biāo)特征學(xué)習(xí)和檢測(cè)的性能影響,文章選取了不同的卷積核尺寸組合作為多尺度特征融合進(jìn)行對(duì)比實(shí)驗(yàn),所獲得的mAP 性能指標(biāo)結(jié)果如表3 所示。
表3 多尺度特征對(duì)道路交通目標(biāo)檢測(cè)的性能影響
從表3 中可以看出,不同卷積核尺寸的特征融合對(duì)道路交通目標(biāo)特征學(xué)習(xí)和檢測(cè)也有不同的性能影響。在實(shí)驗(yàn)的設(shè)計(jì)范圍內(nèi),所融合的不同尺寸的卷積核越多,網(wǎng)絡(luò)的性能就越好,所檢測(cè)的道路交通目標(biāo)的效果也就越好。這表明不同尺寸的卷積核能夠更好地提取到局部或全局等不同結(jié)構(gòu)空間的特征,這為之后的目標(biāo)檢測(cè)提供了更高效的特征表達(dá),也充分證明了文章所提出的方法的有效性。
然而,從表2 中還可以看出,在對(duì)目標(biāo)圖像進(jìn)行特征提取和檢測(cè)的過程中,文章所提出的方法的平均檢測(cè)時(shí)間比Faster-RCNN 方法的更長(zhǎng),反映出文章所提出的基于特征融合的目標(biāo)檢測(cè)方法在具體的實(shí)現(xiàn)過程中耗費(fèi)了一定的時(shí)間,而這增加了網(wǎng)絡(luò)模型的計(jì)算成本。這種時(shí)間上的消耗是文章所提出的方法有待優(yōu)化和改進(jìn)的地方。
道路交通場(chǎng)景中目標(biāo)尺度分布的特殊性和復(fù)雜多變性,使傳統(tǒng)的基于手工特征的目標(biāo)檢測(cè)方法和經(jīng)典的深度學(xué)習(xí)目標(biāo)檢測(cè)方法在實(shí)際道路交通場(chǎng)景中的目標(biāo)檢測(cè)應(yīng)用上存在一定的困難。文章針對(duì)這一問題,以當(dāng)前先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)為背景,以特征融合為主要研究對(duì)象,在分析探討了基于特征融合的特征學(xué)習(xí)方法的基礎(chǔ)上,進(jìn)一步提出了基于特征融合的道路目標(biāo)檢測(cè)方法,并通過模型框架的構(gòu)建,對(duì)道路目標(biāo)檢測(cè)技術(shù)進(jìn)行了深入研究,為道路目標(biāo)檢測(cè)領(lǐng)域相關(guān)理論的進(jìn)一步研究提供了思路,也為構(gòu)建安全的道路交通出行環(huán)境提供了技術(shù)支持。