江澤濤 翟豐碩 錢 藝 肖 蕓 張少欽
1 (廣西圖像圖形與智能處理重點實驗室(桂林電子科技大學(xué))廣西桂林 541004)
2 (南昌航空大學(xué)土木建筑學(xué)院 南昌 330063)
(zetaojiang@126.com)
目標檢測是計算機視覺領(lǐng)域的研究熱點之一,目標檢測近年來也取得了很大的進展,它廣泛應(yīng)用于機器人視覺[1]、車輛識別與跟蹤[2]、行人檢測[3]和軍事視頻監(jiān)控[4]. 然而,在不利光照條件下,目標檢測仍然具有挑戰(zhàn)性.因為缺乏足夠照明,采集到的圖像會出現(xiàn)一系列退化,例如低亮度、低對比度、強烈的噪聲等,目標檢測的漏檢率和誤檢率會大幅增加. 低照度目標檢測需要克服低照度圖像細節(jié)特征不明顯的缺陷,充分提取利用有限特征,最后輸出高精度的檢測結(jié)果.
早期低照度目標檢測[5]一般使用紅外成像相機實現(xiàn),紅外熱成像相機對物體的溫度信息敏感,但無法區(qū)分溫差較小的物體. 隨著深度學(xué)習(xí)的快速發(fā)展,目前的低照度目標檢測[6]主要依靠RGB 數(shù)碼相機拍攝圖像,再將數(shù)字圖像輸入計算機完成目標檢測算法. 這種方法圖像數(shù)據(jù)獲取成本較低,圖像的動態(tài)范圍更大,進而可以捕獲更多的視覺信息,因此檢測精度也有了較大提升. 目前基于域適應(yīng)的低照度目標檢測算法[7]需要用到明暗成對的數(shù)據(jù)集訓(xùn)練生成對抗網(wǎng)絡(luò)(generate against network, GAN)[8],再由通用目標檢測算法輸出檢測結(jié)果. 這種方案模型較難擬合,實現(xiàn)條件較為苛刻,檢測結(jié)果輸出在原圖上,人眼無法直觀評估檢測結(jié)果的好壞. 此外,低照度圖像增強算法很好地實現(xiàn)了低照度圖像到正常照度圖像的轉(zhuǎn)換,但是其模擬的增強效果是基于人眼視覺效果的,對于計算機而言,增強過后的圖像目標特征信息會有所損失,將其直接送入主流目標檢測模型,很難得到較好的檢測精度.
針對上述不足,本文研究一種結(jié)構(gòu)簡單、精度較高且能夠在正常照度風(fēng)格圖像上輸出檢測結(jié)果的端到端低照度目標檢測算法. 該算法結(jié)合高清攝像機的數(shù)據(jù)優(yōu)勢和深度神經(jīng)網(wǎng)絡(luò)的強大學(xué)習(xí)能力,提出一種像素級高階映射(pixel-level high-order mapping,PHM)模塊去增強低照度圖像特征,這個初步增強圖像特征的過程視為粗調(diào). 粗調(diào)之后的圖像特征經(jīng)過關(guān)鍵信息增強(key information enhancement, KIE)模塊過濾噪聲信息,再次對特征信息進行優(yōu)化,這個再次增強圖像特征的過程視為細調(diào). 2 階段調(diào)整使得網(wǎng)絡(luò)輸出更加顯著的低照度圖像特征信息,然后利用特征金字塔網(wǎng)絡(luò)將全局特征和局部特征信息充分融合,提高每張?zhí)卣鲌D的特征表達能力. 此外,在特征金字塔中添加長距離特征捕獲(long distance feature capture,LFC)模塊,搜尋特征圖中目標的長距離依賴關(guān)系,利用多種不同尺度的感受野,提高算法的目標檢測精度. 最后,使用多個預(yù)測分支去直接回歸目標檢測框的位置和大小.
本文的主要貢獻有3 點:
1) 提出PHM 模塊,增大低照度圖像待檢測物體的局部特征梯度,進而提升目標檢測精度;
2) 在富含大量特征信息的中等尺寸特征圖上,添加KIE 模塊,突出重要信息,過濾噪聲信息,促進檢測網(wǎng)絡(luò)的快速收斂;
3) 提出LFC 模塊,捕獲孤立區(qū)域的長距離關(guān)系,提高對極端長寬比物體的檢測能力.
低照度圖像普遍存在整體亮度不足、對比度較低等問題,人眼難以獲取圖像信息,低照度圖像增強算法可以有效解決這些視覺難題. 目前已有大量圖像增強算法被提出,早期基于直方圖均衡化[9]的圖像增強算法使用額外的先驗和約束,試圖放大相鄰像素之間的灰度差,擴展了圖像的動態(tài)范圍. 基于去霧的圖像增強算法[10]借鑒將圖像求反然后去霧的思路,將低照度圖像求反去霧再求反的方式進行處理,用于還原低照度圖像更多的細節(jié),但是基于去霧的算法丟失了過亮區(qū)域的細節(jié). Retinex 理論[11]指出物體亮度由物體本身的反射分量和環(huán)境光照2 個因素構(gòu)成. 基于該理論,RetinexNet[12],KinD[13]等算法通過處理環(huán)境光照分量來達到增強圖像的效果. MBLLEN[14]算法在不同等級中提取出豐富的圖像特征,利用多個子網(wǎng)絡(luò)做圖像增強,最后通過多分支融合產(chǎn)生輸出圖像,圖像質(zhì)量從不同的方向得到了提升,但有時會出現(xiàn)過曝光的增強結(jié)果. 這些算法都需要使用成對的明暗數(shù)據(jù)集訓(xùn)練端到端的低照度圖像增強網(wǎng)絡(luò).Zero-DCE[15]使用一系列零參考的損失函數(shù)來引導(dǎo)低照度圖像向正常照度和高質(zhì)量視覺特征的方向轉(zhuǎn)換,不需要使用成對的明暗數(shù)據(jù)集,該算法可以泛化到各種光照條件下,同時計算量很小,可以方便地應(yīng)用到其他下游任務(wù)中,提高目標檢測任務(wù)的檢測精度.
近年來,目標檢測領(lǐng)域已經(jīng)取得了長足的進步. 很多優(yōu)秀的目標檢測算法被提出:YOLO 系列目標檢測算法(YOLOv1[16]、YOLOv2[17]、YOLOv3[18]、YOLOv4[19]、YOLOv5[20]、YOLOX[21]),該系列的主體框架為特征提取器和檢測頭. YOLOv1 中的檢測頭為2 個全連接層,直接預(yù)測邊界框的位置和寬高,速度快,但是精度較低;YOLOv2 引入偏移量的概念,預(yù)先定義大量已知位置和寬高的錨框(anchor),降低直接預(yù)測邊界框的位置和寬高的難度;YOLOv3 主要對YOLOv2 進行了改進,將檢測頭分成3 部分,分別負責(zé)檢測大、中、小目標;YOLOv4 進一步對檢測頭進行了改進,并使用了CIOU[22]損失函數(shù)來進行網(wǎng)絡(luò)模型的訓(xùn)練,還改進了特征提取和特征融合模塊等;YOLOv5 采用了自適應(yīng)的錨框,在特征融合部分添加FPN[23]和PAN[24]結(jié)構(gòu),損失函數(shù)使用GIOU[25]損失函數(shù)等;YOLOX 放棄先驗框的設(shè)置,使用無錨框的訓(xùn)練方式,提升網(wǎng)絡(luò)模型的通用性. 此外,R-CNN 系列目標檢測算法(R-CNN[26]、Fast R-CNN[27]、Faster R-CNN[28])有著更高的檢測精度,但是檢測速度較慢,R-CNN 首先對圖像選取若干建議區(qū)域并標注類別和邊界框,然后對每個建議區(qū)域提取特征,進一步確定邊界框和目標類別;Fast R-CNN對整幅圖像進行特征提取,減少R-CNN 中對每個建議區(qū)域特征提取導(dǎo)致的重復(fù)計算;Faster R-CNN 將生成建議區(qū)域的算法從選擇性搜索變成了區(qū)域建議網(wǎng)絡(luò). 另外,EfficientDet[29]為不同應(yīng)用場景提供了7 種不同大小的模型,實現(xiàn)了速度和精度之間的均衡;Foveabox[30]、FCOS[31]、CornerNet[32]等基于關(guān)鍵點或中心域法的無錨框(anchor-free)目標檢測算法也有較高檢測精度和檢測速度. 同時,特征金字塔、Focal loss[33]等關(guān)鍵技術(shù)被廣泛應(yīng)用到各個目標檢測算法中. 但這些目標檢測算法在低照度場景下都不能取得很好的檢測精度,本文研究在這些目標檢測算法的基礎(chǔ)上構(gòu)建一個端到端的低照度目標檢測算法框架.
注意力機制已廣泛應(yīng)用于計算機視覺的各個領(lǐng)域,并取得了良好的效果. 注意力機制對輸入數(shù)據(jù)的各個部分按照其對結(jié)果的影響程度分配不同的權(quán)重.Hu 等人[34]提出了通道注意力,對特征通道間的相關(guān)性進行建模,降低無關(guān)信息的影響,強化重要區(qū)域的特征,幫助網(wǎng)絡(luò)模型具備更好的語義表達能力.
通道注意力機制的實現(xiàn)分為3 個部分:擠壓、激勵和注意. 通過擠壓函數(shù)可以將H×W×C的特征圖變換成1×1×C的特征向量,如式(1)所示:
其中H,W分別表示特征圖的長和寬,將每個通道內(nèi)所有的特征值相加再取平均,即得到代表每個通道信息的特征向量.
激勵過程學(xué)習(xí)各通道的依賴程度,并根據(jù)依賴程度對不同的特征圖進行調(diào)整,得到權(quán)重向量:
其中 δ表示ReLU 激活函數(shù),σ表示Sigmoid 激活函數(shù),w1和w2分別表示激勵階段的前后2 個特征向量.
注意階段將權(quán)重向量與特征圖對應(yīng)通道的每個特征值相乘,如式(3)所示:
其中,x表示輸入特征圖,w表示權(quán)重向量.
Wang 等人[35]提出了空間注意力,讓網(wǎng)絡(luò)關(guān)注圖像特征中的特定區(qū)域,顯著提升了圖像分類任務(wù)的準確率. 在目標檢測領(lǐng)域,除了語義信息外,位置信息也相當重要,Woo 等人[36]將空間注意力和通道注意力進行整合,使目標檢測網(wǎng)絡(luò)更積極地關(guān)注含有待檢測目標信息的重要特征. Vaswani 等人[37]提出了自注意力機制,將特征圖每個位置的更新都由計算特征圖的加權(quán)和得到,這個權(quán)重來源于所有位置中的成對關(guān)聯(lián),這樣可以建立長距離依賴.
本文提出結(jié)合特征增強和多尺度感受野(feature enhancement and multi-scale receptive field, FEMR)的低照度目標檢測模型,將像素級高階映射(PHM)模塊、關(guān)鍵信息增強(KIE)模塊、長距離特征捕獲(LFC)模塊與YOLOX 目標檢測模型相結(jié)合. 首先輸入低照度圖像數(shù)據(jù),通過人工設(shè)計的損失函數(shù)去擬合高階映射模塊的網(wǎng)絡(luò)參數(shù),使其在前向傳播中向正常照度圖像的特征分布逼近,得到初步增強的特征圖,提升模型對低照度圖像特征的利用效率. 其次在此基礎(chǔ)上,使用特征提取網(wǎng)絡(luò)對初步增強的特征圖進行深層次特征提取,得到3 種不同大小尺度的特征圖,該特征提取網(wǎng)絡(luò)結(jié)構(gòu)與YOLOX 模型結(jié)構(gòu)保持一致,再利用通道空間注意力和外連接注意力機制的差異化特性,對特征圖進行引導(dǎo),讓模型關(guān)注對檢測結(jié)果貢獻更大的關(guān)鍵特征,為多尺度感受野特征金字塔部分提供富含高層語義信息和淺層位置信息的高質(zhì)量特征圖. 在低照度圖像中,觀察發(fā)現(xiàn)孤立區(qū)域內(nèi)經(jīng)常存在極端比例的待檢測目標,引入條狀感受野可以加強對長距離特征關(guān)系的捕獲能力,提升網(wǎng)絡(luò)模型對該類目標的檢測能力,同時不會帶來過多的參數(shù)和計算量. 最后利用3 個檢測頭進行特征解碼,去預(yù)測目標框的位置、高寬和對應(yīng)的類別. 本文所提模型具備直接檢測低照度圖像中不易識別和極端比例目標物體的能力,并輸出帶有目標框信息的正常照度風(fēng)格圖像.
如圖1 所示,模型整體可分為5 個部分,分別是圖中上方的像素級高階映射,下方左邊的特征提取,中間的關(guān)鍵信息增強和多尺度感受野特征金字塔,右邊的特征解碼.各部分相互獨立,因此該模型結(jié)構(gòu)具有較高的靈活性.
Fig.1 Architecture for FEMR low illumination object detection algorithm圖1 FEMR 低照度目標檢測算法結(jié)構(gòu)圖
低照度圖像特征的不顯著性嚴重影響目標檢測算法的檢測精度,因此本文設(shè)計圖像特征增強模塊去解決這個問題. 具有RGB 三通道的低照度圖像,經(jīng)過固定尺寸縮放和歸一化后,作為模塊的輸入,輸出為經(jīng)過初步特征增強的三通道特征圖. 該模塊可以擬合出一個高階映射曲線,為輸入圖像的每一個像素建立映射關(guān)系.
本文設(shè)計的PHM 模塊結(jié)構(gòu)細節(jié)如圖2 所示,模塊主要由4 層卷積構(gòu)成,其中卷積核大小均為3×3,步長為1,卷積過程中保持與輸入相同的尺度大小,前3 次卷積擴充通道數(shù)為32,并用ReLU 激活函數(shù)[38]激活,消除網(wǎng)絡(luò)運算過程中得到的負值,第4 層卷積將通道數(shù)調(diào)整為24,并用tanh 激活函數(shù)[39]激活,將輸出結(jié)果壓縮到(0,1)區(qū)間范圍內(nèi),并拆分成N張三通道的特征圖,N=8.
Fig.2 PHM module structure diagram圖2 PHM 模塊結(jié)構(gòu)示意圖
將輸入圖像與這N張?zhí)卣鲌D上對應(yīng)的值進行運算,得到初步增強的特征圖,該運算過程為
為了引導(dǎo)網(wǎng)絡(luò)得到合理的增強映射關(guān)系,本文設(shè)計了3 個損失函數(shù):曝光損失、光照平滑損失、色彩一致性損失. 曝光損失函數(shù)控制圖像的曝光強度范圍,首先預(yù)設(shè)一個正常光照強度[40]等級E,然后計算固定大小區(qū)域內(nèi)的平均灰度值等級Yk與預(yù)設(shè)E之間的L1距離,本文設(shè)定的固定區(qū)域大小為16×16,同時設(shè)置E=0.6. 這個正常光照強度等級E是一個超參數(shù),通過不斷縮小該距離,讓網(wǎng)絡(luò)學(xué)習(xí)到將低光圖像特征映射成正常光照圖像特征的參數(shù)值. 該損失函數(shù)表示為
其中S表示特征圖被劃分的區(qū)域個數(shù),Yk表示各個區(qū)域的平均灰度值等級,E表示預(yù)設(shè)的正常光照強度等級.
為了保持相鄰像素之間的單調(diào)關(guān)系,本文設(shè)計了一個光照平滑損失函數(shù),通過減小水平方向、豎直方向和對角方向的灰度差值,來達到光照平滑的效果.該光照平滑損失函數(shù)可以用式(6)表示:
其中H,W表示特征圖的高和寬,Mi,j表示對應(yīng)第i行第j列的灰度值大小.
圖像的淺層特征主要包含顏色等信息,同時考慮到圖像RGB 顏色三通道的色彩穩(wěn)定性[41]. 因此本文設(shè)計了一個提升色彩一致性的損失函數(shù),將RGB三通道拆分成(R,G),(R,B),(G,B)三個組合,然后不斷減小每2 個通道之間平均強度的L2 距離,最后實現(xiàn)色彩的一致性. 該損失函數(shù)表示為
其中Jp和Jq分別表示對應(yīng)p和q通道的整體灰度值強度大小,?表示各通道進行組合的列表.
特征增強的高階映射模塊整體損失由式(5)(6)(7)3 個損失函數(shù)聯(lián)合計算,可以用式(8)表示:
其中Wexposure和Wcolor表示對應(yīng)損失函數(shù)的權(quán)重.
如何充分利用從特征提取網(wǎng)絡(luò)提取的低照度圖像特征信息,是提高低照度目標檢測性能的關(guān)鍵問題. 本文設(shè)計了KIE 模塊,使網(wǎng)絡(luò)能夠關(guān)注重要信息;過濾噪聲信息,從少數(shù)重要的凸顯特征中獲取所需要的類別和位置信息,其中包括通道空間注意力和外連接注意力機制.
通道空間注意力結(jié)構(gòu)如圖3 所示,其中的通道部分由2 個同時進行的平均池化和最大池化組成,將輸出的2 個向量逐位相加,并分2 次使用全連接層整合特征信息,最后使用Sigmoid 激活函數(shù),壓縮它們的數(shù)值范圍并進行輸出,作為原始特征圖各個通道的權(quán)重系數(shù). 空間部分主要在通道維度上使用最大池化和平均池化,將得到的2 張單通道的特征圖進行堆疊,再使用一個膨脹系數(shù)為2 的3×3 卷積調(diào)整通道數(shù)為1,每個位置的數(shù)值作為原始特征圖對應(yīng)空間位置的權(quán)重. 空間注意力機制加權(quán)引導(dǎo)后的特征圖具有重點關(guān)注不同區(qū)域特征的能力;通道注意力機制加權(quán)引導(dǎo)后的特征圖具有關(guān)注不同通道維度特征的能力,將它們逐像素相加,可以最大化利用低照度圖像有限特征信息,使該模塊具有識別目標檢測關(guān)鍵信息的能力.
Fig.3 Channel spatial attention structure diagram圖3 通道空間注意力結(jié)構(gòu)示意圖
通道空間注意力應(yīng)用在40×40 的中等尺寸特征圖上,該層級的特征圖位置信息和高層語義信息都極為豐富,可以充分發(fā)揮注意力的自動分配權(quán)重的能力,以加快網(wǎng)絡(luò)模型訓(xùn)練擬合速度.
對于大尺度特征圖,本文設(shè)計外連接注意力去讓網(wǎng)絡(luò)利用自身樣本內(nèi)的信息,通過引入2 個外部記憶單元,隱式地學(xué)習(xí)整個數(shù)據(jù)集的特征,加強不同樣本間的潛在特征關(guān)系,外連接注意力結(jié)構(gòu)如圖4所示. 首先,輸入特征圖經(jīng)過維度變換,將特征圖轉(zhuǎn)換為特征向量,在全連接層中將其變換成其他維度大小,該層為線性層,不使用激活函數(shù). 獲得第1 個輔助記憶單元,將一些和任務(wù)相關(guān)的信息保存在輔助記憶中,在需要時再進行讀取,這樣可以有效地增加網(wǎng)絡(luò)容量. 將第1 個記憶單元獲得的先驗知識經(jīng)過線性變換得到第2 個記憶單元,增強網(wǎng)絡(luò)的建模能力. 外連接注意力使用較少的訓(xùn)練參數(shù),大幅增強特征信息的表達能力,并最終提高模型的檢測精度.
Fig.4 External connection attention structure diagram圖4 外連接注意力結(jié)構(gòu)示意圖
為了提高網(wǎng)絡(luò)對特征遠程依賴關(guān)系建模的能力,業(yè)界普遍采用自注意力機制和Non-Local 模塊[42],但這類算法的復(fù)雜度是相當高的. 因此,本文設(shè)計將長距離特征捕獲模塊嵌入到特征金字塔中,讓網(wǎng)絡(luò)有意識地關(guān)注場景中極端比例,前后位置距離相差較遠的特征信息.
LFC 模塊的結(jié)構(gòu)細節(jié)如圖5 所示. 輸入特征圖經(jīng)過2 個不同的卷積分支,得到同樣尺寸的特征圖,然后在2 個分支中采用不同的自適應(yīng)池化策略. 上半部分分支中,第1 層特征圖被進一步特征提取,依次是利用3×3 的感受野進行卷積操作,不改變特征圖尺寸,使用自適應(yīng)池化,將特征縮小為原來的1/3 倍和1/5 倍,對應(yīng)著小感受野和稍大的感受野,然后通過上采樣和通道堆疊再壓縮,將多尺度感受野的特征信息進一步融合. 下半部分分支中,第1 層特征圖被進一步變換為2 個特征向量,其中1 個將寬壓縮為1,另一個將高壓縮為1,分別對應(yīng)特征圖中每一行和每一列的遠距離關(guān)系,然后通過上采樣和通道堆疊再壓縮得到能夠捕獲水平方向和豎直方向的遠距離依賴關(guān)系的特征圖,最后將2 個分支得到的特征圖再次融合并輸出. 集成長而狹窄的池化核,使網(wǎng)絡(luò)可以同時聚合全局和局部上下文,在該模塊的幫助下,多尺度感受野特征金字塔網(wǎng)絡(luò)可以增強對孤立區(qū)域比例特殊目標的檢測能力.
Fig.5 LFC module structure diagram圖5 LFC 模塊結(jié)構(gòu)示意圖
本節(jié)主要在ExDark 低照度圖像數(shù)據(jù)集[43]上進行實驗,采用平均精度(mean average precision, mAP)作為衡量本文提出算法在低照度目標檢測性能上的評價指標. 本文所提出的低照度目標檢測算法具有低照度特征增強、多尺度感受野等特點,可以有效解決低光照帶來的問題. 本節(jié)重點討論3 個部分:實現(xiàn)細節(jié)、檢測性能、消融實驗. 本文的算法主要針對低照度環(huán)境,因此以ExDark 數(shù)據(jù)集的實驗結(jié)果作為主要的評價標準.
本文的算法使用CSPDarknet53 作為主干特征提取網(wǎng)絡(luò)特征,特征提取網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重是在ImageNet 圖像數(shù)據(jù)集[44]上訓(xùn)練得到的. 模型訓(xùn)練選擇AdaBelief[45]優(yōu)化器,訓(xùn)練分為前50 輪和后50 輪.前50 輪凍結(jié)主干特征提取網(wǎng)絡(luò)的權(quán)重,只訓(xùn)練主干網(wǎng)絡(luò)以外的部分權(quán)重,學(xué)習(xí)率設(shè)置為1×10?3,一次傳入8 張圖片數(shù)據(jù);后50 輪釋放主干特征提取網(wǎng)絡(luò)的權(quán)重梯度,允許網(wǎng)絡(luò)自動調(diào)整所有的訓(xùn)練參數(shù),學(xué)習(xí)率設(shè)置為1×10?4,1 次傳入4 張圖片數(shù)據(jù). 訓(xùn)練過程中使用余弦退火學(xué)習(xí)率算法[46],周期值設(shè)置為5,ETA最小值設(shè)置為1,使用標簽平滑算法[47],默認參數(shù)值設(shè)置為0.01. 實驗設(shè)備為Tesla P40 GPU,運行環(huán)境為Ubuntu 20.0.4.
本文在低照度圖像數(shù)據(jù)集(ExDark)上綜合評估所提出的低照度目標檢測算法,它包含12 個類別:單車、船、瓶子、公交、汽車、貓、椅子、杯子、狗、摩托、人和桌子. 在輸入尺寸為640×640 的條件下,本文算法在測試集上取得了77.80%的mAP,相比于目前最先進的YOLOv5 和YOLOX 等目標檢測算法,在檢測精度mAP上有了較大的提升. 表1 展示了本文所提出的算法與目前主流目標檢測算法的精度比較結(jié)果. 同時,本文還為模型設(shè)置了3 種不同版本的網(wǎng)絡(luò)模型. 通過改變網(wǎng)絡(luò)模型中的特征圖通道數(shù),增大或減小模型所使用參數(shù)數(shù)量,以此來達到讓模型能夠適應(yīng)不同的顯存大小顯卡的目的.
Table 1 Accuracy Comparison of Different Object Detection Algorithms on ExDark Dataset表1 在ExDark 數(shù)據(jù)集上不同物體檢測算法的精度比較
圖6 展示了本文提出的低照度目標檢測算法與其他主流目標檢測算法的比較,其中第1 行為標簽對應(yīng)的真實框,最后一行為FEMR 的輸出結(jié)果,相比其他算法,可以直接由高階映射模塊得到的中間層輸出便于人眼觀察的增強圖像,從圖6 中可以看到本文提出的算法可以在低照度圖像對應(yīng)的正常照度風(fēng)格圖像上生成合理的目標邊界框,漏檢率和誤檢率相比前幾種算法都有了一定程度的下降. 在共同檢測到的物體上,本文提出的算法的識別準確率也會更高. 從第1 列對比圖中,可以看出SSD 算法會漏檢桌上大量杯子;EfficientDet 算法對桌上杯子的識別準確率較低;YOLOv4、YOLOv5 則會漏檢旁邊重疊的人,或是將桌上的餐具誤檢測成杯子,且識別準確率都相對較低. 從右邊的4 列對比結(jié)果來看,也存在大量類似的問題.
Fig.6 Comparison of detection results of mainstream object detection algorithms圖6 主流目標檢測算法檢測結(jié)果對比圖
本節(jié)還通過對比圖像增強算法+YOLO 系列的組合算法與本文提出的低照度目標檢測算法在檢測精度、訓(xùn)練時間和檢測時間上進行對比,驗證本文所提算法在低照度目標檢測任務(wù)上的顯著提升效果.
在實驗中,本節(jié)在基礎(chǔ)檢測模型的基礎(chǔ)上,分別組合了EnlightenGAN[48]、KinD[13]、MBLLEN[14]、Zero-DCE[15]這些基于深度學(xué)習(xí)的低照度圖像增強算法[49],這些算法沿用原作者的設(shè)計方案,并按照作者提供的訓(xùn)練方案,重新訓(xùn)練對應(yīng)圖像增強網(wǎng)絡(luò)的模型權(quán)重. 將ExDark 數(shù)據(jù)集中的測試集先進行圖像增強,再送入YOLOv5 和YOLOX 目標檢測器中,得出對應(yīng)算法的mAP. 記錄所有圖像完成先增強后檢測時間的總時間,最后取平均值得到該算法單張圖像完成先增強后檢測的時間,其中每種算法所用圖像相同,檢測時間僅包含模型前向運算時間,不包含模型導(dǎo)入和畫框等時間,訓(xùn)練時間為模型訓(xùn)練所消耗的總時間.
通過表2 可以看出,本文提出的端到端低照度目標檢測算法在檢測精度、檢測時間和訓(xùn)練時間等方面都具有顯著優(yōu)勢,而由低照度圖像增強算法增強過后的圖像再送入目標檢測器中,這種方式相比于直接送入對應(yīng)目標檢測器,檢測精度還可能出現(xiàn)大幅下降的現(xiàn)象,說明經(jīng)過增強的圖像雖然在一定程度上在人眼視覺方面可以取得一定提升效果,但是對于計算機而言,損失掉了一部分有助于目標檢測的重要特征信息. 同時生成圖像的過程也占據(jù)了大量運算時間,不利于快速得到檢測結(jié)果.
Table 2 Comparison of the Proposed Algorithm and Algorithms Enhanced Before Detection表2 本文算法與先增強后檢測算法的比較
本節(jié)對像素級高階映射模塊中的超參數(shù)N和E進行相關(guān)實驗與理論分析,其中改變N的大小的同時需要改變上一層的特征圖通道數(shù),并與之匹配.
在實驗中發(fā)現(xiàn),通過8 輪及以上的增強過程,像素級高階映射模塊可以實現(xiàn)更大的曲率,應(yīng)對不同的情況. 由圖7 可以看出,增強次數(shù)過少會導(dǎo)致在訓(xùn)練階段曝光損失、光照平滑損失和色彩一致性損失難以實現(xiàn)同步下降. 同時,表3 展現(xiàn)了當增大N值時,本文所提模型的檢測精度呈現(xiàn)上升趨勢,且N值增加會帶來大量的運算,為了維持模型檢測精度和檢測速度的平衡,本文將設(shè)置N=8.
為了實現(xiàn)圖像局部曝光強度處于正常狀態(tài),即不接近0(欠曝光)或1(過曝光). 本節(jié)分別將E值設(shè)置為0.2、0.3、0.4、0.5、0.6、0.7、0.8,由表4 可以看到,當E=0.6 時,模型檢測性能較高,因此本文將設(shè)置E=0.6.
Fig.7 Loss curves of training processes圖7 訓(xùn)練過程損失曲線圖
Table 3 Relationship Between Hyperparameter N and mAP表3 超參數(shù)N 與mAP 的關(guān)系
Table 4 Relationship Between Hyperparameter E and mAP表4 超參數(shù)E 與mAP 的關(guān)系
為了進一步探討本文提出的算法的有效性,本節(jié)對像素級高階映射(PHM)模塊、關(guān)鍵信息增強(KIE)模塊、長距離特征捕獲(LFC)模塊進行了消融實驗,并對各個模塊對實驗結(jié)果的影響進行了分析,通過刪減1 個或2 個模塊,組合得到FEMR_del_KIE_LFC、FEMR_del_PHM_LFC、FEMR_del_PHM_KIE、FEMR_del_LFC、FEMR_del_KIE、FEMR_del_PHM 這6 種算法,還將各個模塊嵌入到其他目標檢測模型中,探討其通用性. 在本節(jié)的實驗中,只考慮算法模型對ExDark 數(shù)據(jù)集的性能影響,如表5 所示,其中以YOLOv5 算法作為基線模型,為了便于比較精度變化,各類別的mAP進行取整處理.
3.4.1 像素級高階映射模塊
本節(jié)增加像素級高階映射模塊后的檢測模型,與基線模型相比,mAP提高了2.5%,有效提升了低照度圖像的目標檢測精度. 本節(jié)分析得出經(jīng)過增強后的圖像,其特征與正常光照的圖像特征的差異較小,能夠使網(wǎng)絡(luò)在原始圖像灰度梯度較小處能夠得到更多的圖像特征,以便于完成目標檢測任務(wù).
對該模塊包含的3 個損失函數(shù)進行消融實驗,通過刪減1 項或2 項損失函數(shù),組合得到FEMR_del_smooth_color、FEMR_del_exposure_color、FEMR_del_exposure_smooth、FEMR_del_color、FEMR_del_smooth、FEMR_del_exposure 這6 種算法. 由表6 可以看出,該模塊的3 個損失函數(shù)的組合使用均對模型檢測精度有不同程度的提升效果,側(cè)面印證了提升圖像質(zhì)量對增強目標檢測能力的幫助.
3.4.2 關(guān)鍵信息增強模塊
本節(jié)增加關(guān)鍵信息增強模塊后的檢測模型與基線模型相比,mAP提高了1.68%,其中使用2 個注意力模塊,分別對2 種特征尺寸的特征圖進行關(guān)鍵信息的增強. 本文算法可以從2 個角度出發(fā)對特征圖中目標的關(guān)鍵位置信息和語義信息,完成高效的激活,使網(wǎng)絡(luò)更多地關(guān)注這類重要信息,消除噪聲的干擾.
3.4.3 長距離特征捕獲模塊
本節(jié)增加長距離特征捕獲模塊后的建模與基線模型相比,mAP提高了2.12%,其中人和單車類別的mAP分別提升了5%和8%,提升最為明顯,說明長距離特征捕獲模塊對這類比例較為特殊的目標的檢測能力具有明顯的加強,同時低照度數(shù)據(jù)集中這類目標占據(jù)的比重也較大,因此對整體檢測精度有了較好的提升效果.
Table 5 Ablation Experiment of Each Algorithm on ExDark Dataset表5 在ExDark 數(shù)據(jù)集上各算法的消融實驗
Table 6 Ablation Experiment of Loss Function表6 損失函數(shù)的消融實驗
3.4.4 各模塊通用性測試
表7 展示了向3 種其他目標檢測模型中添加1 個、2 個或3 個模塊時共得到21 種算法的檢測結(jié)果.
從比較結(jié)果來看,本文提出的3 個模塊均有一定的通用性,對大部分目標檢測模型有精度上的提升.
Table 7 Universality Test of Each Module表7 各模塊通用性測試
本文針對低照度目標檢測問題提出了結(jié)合特征增強和多尺度感受野的低照度目標檢測算法.為了充分利用低照度圖像中的不顯著特征,設(shè)計了像素級的高階映射模塊和關(guān)鍵信息增強模塊,分2 步去增強低照度圖像特征,還設(shè)計了長距離特征捕獲模塊加強網(wǎng)絡(luò)模型對長距離依賴關(guān)系的捕獲能力,以此來共同提高模型的檢測能力. 與其他經(jīng)典目標檢測算法在ExDark 數(shù)據(jù)集上的檢測結(jié)果相比,本文提出的算法具有更高的檢測精度. 然而本算法在檢測速度、GPU 資源消耗方面有待提高,因此在后續(xù)的工作中也將針對網(wǎng)絡(luò)的輕量化展開進一步研究.
作者貢獻聲明:江澤濤提出了文章整體思路并負責(zé)撰寫與修改論文;翟豐碩負責(zé)完成算法設(shè)計與實驗,并撰寫與修改論文;錢藝修改論文;肖蕓負責(zé)圖表繪制;張少欽參與了論文的審閱與修改.