常青青 陳嘉敏 李維姣
(公安部第三研究所,200031,上?!蔚谝蛔髡撸硌芯繂T)
我國是實(shí)行城市軌道交通安檢較早的國家,在城市軌道交通公共安全檢查管理水平和標(biāo)準(zhǔn)建設(shè)等方面都走在世界的前列。GB/T 26718—2011《城市軌道交通安全防范系統(tǒng)技術(shù)要求》及相關(guān)法律法規(guī)規(guī)定:禁止乘客攜帶易燃、易爆、有毒、有放射性、有腐蝕性,以及其他有可能危及人身和財(cái)產(chǎn)安全的危險(xiǎn)品進(jìn)站和乘車。
在我國,乘客進(jìn)入城市軌道交通車站乘車大多必須通過安檢[1]。安檢采用以X射線設(shè)備為主,以其他設(shè)備為輔的常態(tài)化安檢模式,其在維護(hù)城市軌道交通公共安全中發(fā)揮了重要的作用。與機(jī)場安檢和火車站安檢相比,城市軌道交通安檢有以下特點(diǎn):
1)客流量大,呈潮汐式分布。早晚高峰時(shí)段安檢壓力非常大,行李包裹量大且安檢停留時(shí)間短,為了確保超大客流量的高效出行,僅依靠值機(jī)員讀圖判斷難以識別隱藏的危險(xiǎn)品。
2)物品重疊遮擋率高。城市軌道交通安檢開包率較低,而且乘客攜帶的電子產(chǎn)品及雨傘等日用品存在重疊遮擋現(xiàn)象。這進(jìn)一步增加了危險(xiǎn)品識別的難度,易出現(xiàn)漏檢或誤檢。
在成像原理、圖像特征及噪聲干擾等方面,X射線圖像技術(shù)與可見光譜圖像技術(shù)有很大差異。因此,X射線圖像技術(shù)難以基于可見光圖像的目標(biāo)檢測和識別算法直接應(yīng)用于實(shí)際當(dāng)中。主要難點(diǎn)為:
1)X 射線具有穿透性,其探測數(shù)據(jù)為垂直方向上的投影信號。金屬類物體的遮擋會嚴(yán)重影響對其他物品的識別,難以提取有效的紋理特征。
2)圖像受視角影響大。當(dāng)行李包裹變換角度或位置時(shí),掃描的X射線圖像差異較大。將手槍或刀具等危險(xiǎn)品按不同角度分別放置于行李包裹內(nèi),得到X射線安檢圖像如圖1所示。在正視圖中,危險(xiǎn)品易被識別認(rèn)定;其他視角圖則無法顯示危險(xiǎn)品的形狀,易使識別算法判斷錯(cuò)誤。
a)正視圖
近年來,隨著機(jī)器學(xué)習(xí)及人工智能等技術(shù)在各領(lǐng)域深入發(fā)展,計(jì)算機(jī)輔助識別危險(xiǎn)品技術(shù)逐步突破數(shù)據(jù)集受限及遮擋干擾等瓶頸,取得了良好的實(shí)際應(yīng)用效果[2]。本文研究基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法的X射線圖像中智能識別技術(shù),通過建模自動識別待檢包裹中槍支刀具、易燃易爆物等危險(xiǎn)品,切實(shí)有效地提升了城市軌道交通安檢設(shè)備對違禁物品的檢查能力。
危險(xiǎn)品識別技術(shù)是指基于X射線圖像特征自動識別待檢包裹中槍支、刀具及易燃易爆物等危險(xiǎn)品的技術(shù)。危險(xiǎn)品識別系統(tǒng)的輸入信息為X射線安檢圖像的灰色或偽彩色圖像,輸出信息為圖像中危險(xiǎn)品的位置。
傳統(tǒng)的X射線圖像危險(xiǎn)品識別一般包括圖像采集、建模分析及識別報(bào)警等3個(gè)階段。首先,利用X射線安檢設(shè)備采集透視圖像,并進(jìn)行濾除噪聲及圖像增強(qiáng)等圖像預(yù)處理,以提高圖像質(zhì)量;然后,提取圖像的特征;最后,訓(xùn)練分類器得到目標(biāo)物體的類別和位置。
隨著深度學(xué)習(xí)算法的發(fā)展,利用端到端的卷積神經(jīng)網(wǎng)絡(luò)可同步完成提取特征及分類,并識別危險(xiǎn)品報(bào)警。機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí),不需根據(jù)先驗(yàn)知識來手動設(shè)計(jì)特征,而采用數(shù)據(jù)驅(qū)動的方式來采集大量樣本真實(shí)的圖像并標(biāo)注,進(jìn)而訓(xùn)練模型,得到想要的輸出結(jié)果??梢?,機(jī)器學(xué)習(xí)對數(shù)據(jù)的數(shù)量和質(zhì)量提出了更高的要求?;跈C(jī)器學(xué)習(xí)的危險(xiǎn)品識別流程如圖2所示。
圖2 基于機(jī)器學(xué)習(xí)的危險(xiǎn)品識別流程圖
傳統(tǒng)的機(jī)器學(xué)習(xí)方法多依賴于手工設(shè)計(jì)的局部特征,以及支持向量機(jī)(SVM)及提升算法(boosting)等傳統(tǒng)機(jī)器學(xué)習(xí)模型。以常用的BoVW(詞袋)模型為例,采用圖2中基于傳統(tǒng)機(jī)器學(xué)習(xí)方法建立模型:首先,從X射線圖像中提取SIFT(尺度不變特征轉(zhuǎn)換)等局部特征;然后,生成視覺碼本,并將圖像特征矢量化,進(jìn)而訓(xùn)練基于SVM或RF(隨機(jī)森林)的分類器。這類方法可實(shí)現(xiàn)有限類別危險(xiǎn)品的分類識別,適用于小規(guī)模的X射線圖像數(shù)據(jù)集,但會引起識別率受限,故并未得到大規(guī)模應(yīng)用[3]。
2.1.1 特征檢測和描述
在圖像存在遮擋干擾和角度變化情況下,相比于直接提取全局特征,基于旋轉(zhuǎn)不變局部特征的描述子方法具有更好魯棒性,被廣泛應(yīng)用于圖像分類和識別?;赟IFT的特征算子在平移、縮放和旋轉(zhuǎn)等情況下都是不變的,其對圖像噪聲具有較強(qiáng)魯棒性,可實(shí)現(xiàn)對感興趣特征的獨(dú)特、可重復(fù)性檢測和描述,具有較好的應(yīng)用效果。在此基礎(chǔ)上,通過引入積分圖求導(dǎo),進(jìn)一步形成SURF(Speeded Up Robust Features)特征描述符,可提高計(jì)算速度,基本實(shí)現(xiàn)對圖像局部特征的實(shí)時(shí)提取和匹配。
2.1.2 視覺碼本
提取局部特征后,單張X射線圖像被表示為大小不一的局部特征集。在此階段,通過聚類算法對特征描述集提取聚類中心,生成固定長度的視覺碼本。該視覺碼本為分類器輸入。
最常用的碼本生成聚類技術(shù)是 K-means 聚類技術(shù)。對于大型數(shù)據(jù)集的檢索,多采用快速分層聚類方法。聚類算法屬于無監(jiān)督學(xué)習(xí)算法。首先,從完整特征集中隨機(jī)選擇k個(gè)不同的特征描述向量作為初始化向量;然后,在每次迭代過程中更新聚簇和聚類中心位置,直到聚類中心不再發(fā)生變化或達(dá)到設(shè)定的迭代次數(shù)為止。在對每個(gè)類進(jìn)行特征聚類后,將得到的質(zhì)心集合組合起來即形成1個(gè)碼本。
2.1.3 BoVW模型描述
將每幅圖像的特征點(diǎn)聚類后(n個(gè)聚類中心),統(tǒng)計(jì)視覺碼本中每個(gè)單詞在圖像中出現(xiàn)的次數(shù),生成圖像的特征直方圖,并將圖像表示為1個(gè)固定大小的向量,這個(gè)過程稱為BoVW模型描述。
首先,初始化n維的圖像特征直方圖;然后,針對每幅圖像的局部特征描述符,計(jì)算特征集與每個(gè)聚類質(zhì)心的歐幾里德距離;最后,以最近原則統(tǒng)計(jì)視覺單詞的直方圖,歸一化得到n維向量,并用此n維向量作為該圖像的全局特征。特征的向量化不僅可獲得高效的特征表示,而且還能減少由相應(yīng)特征描述向量的微小差異而引起的噪聲。
2.1.4 分類器訓(xùn)練
利用BoVW模型描述訓(xùn)練集和測試集的圖像,即可輸入適合的分類器。SVM是最常用的分類器之一。SVM通過最大化類間間隔余量來確定類的最佳線性邊界,當(dāng)數(shù)據(jù)線性不可分時(shí),通過更高維的超平面來實(shí)現(xiàn)最優(yōu)決策邊界。SVM 分類器的性能受核函數(shù)及參數(shù)的影響,在圖像識別分類中多采用RBF(徑向基函數(shù))做核函數(shù)。RBF 的中心代表支持向量。核寬度決定了該支持向量對數(shù)據(jù)空間的影響范圍:如核寬度取值較大,則會增加支持向量的影響鄰域,形成更平滑、規(guī)則的決策邊界;如核寬度取值較小,則會有過擬合的風(fēng)險(xiǎn)。因此,應(yīng)根據(jù)各類數(shù)據(jù)集大小選擇最優(yōu)的參數(shù)。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,以及X射線安檢圖像數(shù)據(jù)集的不斷擴(kuò)大,危險(xiǎn)品識別技術(shù)逐步從傳統(tǒng)機(jī)器學(xué)習(xí)轉(zhuǎn)為深度學(xué)習(xí)。深度學(xué)習(xí)算法的基本思想是通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò),對目標(biāo)進(jìn)行多層表示,并通過高層次特征來表示數(shù)據(jù)的抽象語義信息。深度學(xué)習(xí)算法能有效避免傳統(tǒng)機(jī)器學(xué)習(xí)算法中復(fù)雜的手動特征設(shè)計(jì)過程,具有良好的魯棒性和運(yùn)算效率。其中,基于CNN(深度卷積神經(jīng)網(wǎng)絡(luò))的檢測算法因其位置不變性、計(jì)算量小及容易訓(xùn)練等優(yōu)點(diǎn)而成為圖像處理的主流技術(shù)。根據(jù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不同,基于CNN的檢測算法網(wǎng)絡(luò)架構(gòu)主要可分為基于候選區(qū)域的目標(biāo)檢測方法和基于回歸思想的目標(biāo)檢測方法兩大類。
2.2.1 基于候選區(qū)域的目標(biāo)檢測方法
由于目標(biāo)物體大小不等、朝向不一,且可能在圖像中出現(xiàn)不同的位置。為避免按位置及尺度進(jìn)行滑動窗遍歷帶來的巨大計(jì)算量,針對原始圖像采用選擇性搜索算法,預(yù)先提取若干可能包含有目標(biāo)類別的、獨(dú)立的、固定大小的候選區(qū)域;經(jīng)歸一化處理后,將候選區(qū)域輸入卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行二次識別;直接輸出每一個(gè)候選框的識別結(jié)果。
基于候選區(qū)域的目標(biāo)檢測方法以R-CNN(Region-CNN)模型為代表,其主干網(wǎng)絡(luò)可直接采用通用圖像分類的網(wǎng)絡(luò)結(jié)構(gòu)[4],無需從頭訓(xùn)練,極大地提高了易用性。這類算法雖可達(dá)較高精度,但在獲取候選區(qū)域和區(qū)域特征提取過程中存在大量冗余運(yùn)算,故其計(jì)算量偏大。此外,因其分類器要求輸入圖像為固定尺寸,故需調(diào)整圖像,導(dǎo)致檢測速度很慢。
在此基礎(chǔ)上,F(xiàn)aster-R-CNN模型引入池化層(Region of Interest Pooling)的概念,將檢測分為4步:首先,通過基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)提取圖像的特征;其次,通過RPN(區(qū)域建議網(wǎng)絡(luò),Region Proposal Net)得到目標(biāo)候選區(qū)域;再次,利用池化層直接計(jì)算各候選區(qū)域的特征表達(dá);最后,利用分類器及邊界回歸等來輸出檢測結(jié)果。Faster-R-CNN模型的網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示。通過池化層復(fù)用卷積層計(jì)算,既減少了特征提取的計(jì)算量,又提高了目標(biāo)識別的整體檢測速度。
圖3 Faster-CNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖
經(jīng)過對模型、數(shù)據(jù)、訓(xùn)練方法等的長期不斷改進(jìn)和迭代,基于候選區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)危險(xiǎn)品識別模型性能已逐步提升。根據(jù)公開數(shù)據(jù)庫的結(jié)果,基于候選區(qū)域的目標(biāo)檢測方法對危險(xiǎn)品識別精度很高,但網(wǎng)絡(luò)結(jié)構(gòu)仍然相對復(fù)雜,通常需要通過GPU(圖形處理單元)進(jìn)行推理加速來提升危險(xiǎn)品識別速度,不適合在終端側(cè)部署。
2.2.2 基于回歸思想的目標(biāo)檢測方法
基于回歸思想的目標(biāo)檢測方法首先利用端到端的檢測思路,將原始圖像輸入至1個(gè)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);然后,直接采用回歸的方法,對預(yù)先定義的錨點(diǎn)(anchor)分別預(yù)測目標(biāo)的邊框位置及類別概率。只需1次前向傳播,即可解決目標(biāo)對象的識別和定位問題。其最大的特點(diǎn)是識別速度非常快,適合實(shí)時(shí)系統(tǒng)。
該類方法以YOLO(You Only Look Once)模型和SSD(Signal Shot multibox Detector)模型為代表,前者更新更快,工程應(yīng)用更廣泛[5]。YOLO v1模型為該系列模型的基礎(chǔ),其檢測網(wǎng)絡(luò)包含N個(gè)卷積層(N>9)和2個(gè)全聯(lián)接層。其中卷積層用于提取特征,全聯(lián)接層用于預(yù)測圖像位置和類別置信度。目標(biāo)檢測流程分為3步:首先,利用模型將輸入圖像劃分為S×S個(gè)柵格(S初始值取7);其次,在圖像上運(yùn)行卷積網(wǎng)絡(luò),生成大小為S×S×(B×5+C)的預(yù)測向量,其中B為每個(gè)柵格預(yù)測的邊框個(gè)數(shù),一般取2,C為所需分類個(gè)數(shù);最后,通過NMS(非極大值抵制算法)輸出最終的邊框位置及類別概率。
基于YOLO模型的算法對危險(xiǎn)品識別速度快,泛化能力強(qiáng),與R-CNN算法相比,早期精度相對較低,尤其對小目標(biāo)和密集目標(biāo)識別效果一般。基于回歸思想的目標(biāo)檢測算法在不斷更新中融合了殘差網(wǎng)絡(luò)、多尺度預(yù)測等策略,不僅檢測速度更快,還提升了檢測準(zhǔn)確率,對打火機(jī)、鋰電池等小目標(biāo)的識別率很高,已成為圖像目標(biāo)檢測的主流方法。
評估識別性能的常用指標(biāo)是準(zhǔn)確度ACC和平均精度均值PA,m。根據(jù)模型識別結(jié)果,記NTP是模型預(yù)測為正的正樣本數(shù),NFP是模型預(yù)測為正的負(fù)樣本,NFN是模型預(yù)測為負(fù)的正樣本,NTN是模型預(yù)測為為負(fù)的負(fù)樣本數(shù),那么精度P指預(yù)測為正的正樣本數(shù)在所有預(yù)測為正的樣本數(shù)中的占比,即P=NTP/(NTP+NFP),召回率R是預(yù)測為正的正樣本數(shù)在所有正樣本數(shù)的占比,即R=NTP/(NTP+NFN)。準(zhǔn)確度則是預(yù)測正確的樣本數(shù)占總樣本數(shù)的比例,即
ACC=(NTP+NTN)/(NTP+NTN+NFP+NFN)。
對于多類物體檢測問題,可將P與R分別作為縱、橫坐標(biāo),針對每一類分別選取不同閾值時(shí)對應(yīng)的識別結(jié)果,進(jìn)而繪制P-R曲線。根據(jù)P-R曲線,計(jì)算每一類物體的平均識別精度,然后將所有類比的平均精度計(jì)算均值,即得到最終平均精度均值PA,m。
參考文獻(xiàn)[6-7],得到X射線危險(xiǎn)品檢測常用公開數(shù)據(jù)集及測試結(jié)果,如表1所示。
表1 常用數(shù)據(jù)集及測試結(jié)果
機(jī)器學(xué)習(xí)方法尤其是基于深度學(xué)習(xí)的方法在危險(xiǎn)品檢測上發(fā)展迅速,GDXRay數(shù)據(jù)集識別準(zhǔn)確率達(dá)到97%以上,已接近飽和,隨著Dbf3h和OPIXRay等新數(shù)據(jù)集不斷提出,危險(xiǎn)品識別算法面臨更大挑戰(zhàn)。
在算法選擇上,基于回歸的檢測框架發(fā)展尤其迅速,其檢測效果不斷改善,已不亞于基于候選區(qū)域的檢測框架。不過公開數(shù)據(jù)集在樣品類別和數(shù)據(jù)規(guī)模上仍然受限,為滿足實(shí)用的需求需在更多物體類別、更復(fù)雜場景下展開更充分測試。
本文基于YOLO模型建立危險(xiǎn)物識別模型,在公安部第三研究所的XT11-6550D設(shè)備上采集實(shí)際典型場景訓(xùn)練并進(jìn)行測試。部分測試結(jié)果如圖4所示。
本次測試的物品識別種類達(dá)到10種以上,主要包括槍支及零部件類、管制刀具類、工具類、瓶裝液體類、壓力氣罐類等危險(xiǎn)品,以及筆記本電腦、雨傘等日常用品。測試的識別準(zhǔn)確度達(dá)90%以上。
從圖4中可以看到,在電子產(chǎn)品遮擋情況下仍能準(zhǔn)確識別,對打火機(jī)、子彈等小目標(biāo)的識別效果很好。由測試結(jié)果可知,輸入圖像、分析識別及輸出呈現(xiàn)等全過程耗時(shí)小于500 ms,可滿足安檢實(shí)際需求,具有很強(qiáng)的應(yīng)用價(jià)值。該識別模型還可通過不斷積累圖像數(shù)據(jù)集和完善優(yōu)化識別算法,進(jìn)而實(shí)現(xiàn)更高準(zhǔn)確率的危險(xiǎn)品實(shí)時(shí)識別。
a)打火機(jī)等危險(xiǎn)品識別結(jié)果
本文詳細(xì)闡述了多種基于X射線圖像的危險(xiǎn)品識別技術(shù),分析各主流技術(shù)的優(yōu)缺點(diǎn)和適用場景。在城市軌道交通安檢中,為應(yīng)對超大客流,對行李包裹內(nèi)危險(xiǎn)品的識別既要速度快,又要識別準(zhǔn)確率高,還需在復(fù)雜遮擋條件下實(shí)現(xiàn)對危險(xiǎn)品的準(zhǔn)確識別?;谏疃葘W(xué)習(xí)的危險(xiǎn)品識別技術(shù)能自動學(xué)習(xí)物品分類特征,具有良好的魯棒性和運(yùn)算效率。其中基于回歸思想的目標(biāo)檢測框架的識別速度快,適用于實(shí)時(shí)系統(tǒng)。
本文基于YOLO模型建立危險(xiǎn)物識別模型,采集實(shí)際典型場景進(jìn)行訓(xùn)練并測試。測試結(jié)果表明,基于YOLO模型建立的危險(xiǎn)物識別模型在識別精度和速度上均能滿足相關(guān)要求,可為城市軌道交通安檢設(shè)備智能化轉(zhuǎn)型提供技術(shù)性參考。