• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于熱圖感知的復(fù)雜場景港口箱號檢測算法

      2023-11-13 01:37:30陳平平林鍵輝黃勝秋涂橋橋
      無線電工程 2023年11期
      關(guān)鍵詞:熱圖字符集裝箱

      游 索,陳平平*,林鍵輝,黃勝秋,涂橋橋

      (1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 350003;2.華輝建工集團(tuán)有限公司,福建 福州 350800;3.福建省順天億建設(shè)有限公司,福建 龍巖 364105;4.福建領(lǐng)航園林工程有限公司,福建 廈門 361023)

      0 引言

      隨著文字識別場景的日益復(fù)雜,對自然場景下文字識別的需求也愈發(fā)強(qiáng)烈。場景文字識別(Scene Text Recognition, STR)成為研究熱點(diǎn),它是OCR的子問題,主要任務(wù)是將自然場景中的文字提取出來并轉(zhuǎn)化成字符形式。相較于傳統(tǒng) OCR 技術(shù),STR 具有更多的挑戰(zhàn),例如字體多樣性、多尺度、任意形狀、光照、背景和模糊等[1]。

      雖然近年來深度學(xué)習(xí)在STR中的應(yīng)用有效解決了上述問題,但針對特定的應(yīng)用場景,這些通用的STR算法無法很好地解決文本識別問題。本文面向集裝箱運(yùn)輸及管理的自動化和智能化需求,旨在設(shè)計(jì)一個(gè)高效的集裝箱箱號的文字檢測算法。

      為了構(gòu)建更加精準(zhǔn)、高效的檢測網(wǎng)絡(luò),基于已有的文本檢測和識別研究,同時(shí)利用集裝箱箱號空間排布和字符分布等特征,創(chuàng)新性地提出了一種基于熱圖感知的集裝箱箱號檢測識別算法,能夠在箱號傾斜、字符不清晰等背景復(fù)雜的港口集裝箱圖像中精準(zhǔn)地檢測圖像中的箱號,解決了該場景下的算法難點(diǎn)和應(yīng)用的技術(shù)瓶頸。首先,設(shè)計(jì)了融合卷積塊注意力機(jī)制(Convolutional Block Attention Module,CBAM)[2]的MobileNetV3[3]輕量級網(wǎng)絡(luò)對箱號框進(jìn)行初定位,充分利用初定位網(wǎng)絡(luò)高效地檢測出矩形箱號框;接著提出像素級字符區(qū)域自適應(yīng)網(wǎng)絡(luò)(Pixel-level Character Region Adaptive Module,PCAM) ,用于初定位箱號優(yōu)化,PCAM利用基于Transformer[4]自適應(yīng)網(wǎng)絡(luò)得到圖像的字符級別熱圖,通過最小二乘法算法結(jié)合圖像形態(tài)學(xué)處理方法,得到精準(zhǔn)的任意方向箱號區(qū)域。實(shí)驗(yàn)結(jié)果表明,能夠達(dá)到97.5%的箱號定位準(zhǔn)確率,滿足實(shí)際應(yīng)用的實(shí)時(shí)性,為集裝箱箱號的精準(zhǔn)檢測提供了新思路。

      1 相關(guān)工作

      集裝箱箱號的檢測總體可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法,其中常用的傳統(tǒng)箱號檢測方法有基于數(shù)學(xué)形態(tài)學(xué)、基于邊緣特征和基于最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Regions,MSER)。王炎等[5]提出了一種基于數(shù)學(xué)形態(tài)學(xué)的箱號定位方法,利用膨脹、腐蝕等基本運(yùn)算處理圖像,通過改進(jìn)形態(tài)學(xué)結(jié)構(gòu)元素對箱號進(jìn)行定位。黃深廣等[6]提出基于字符邊緣特征的定位方法,利用字符的邊緣特征信息對集裝箱號進(jìn)行定位。王冬云等[7]提出了一種基于導(dǎo)向?yàn)V波Retinex和自適應(yīng)Canny的圖像邊緣檢測算法細(xì)化圖像邊緣。沈寒蕾等[8]利用一種最大穩(wěn)定極值區(qū)域的方法,通過灰度化的方法得到圖像最大S穩(wěn)定極值區(qū)域,再進(jìn)行后處理,完成對集裝箱號定位。上述傳統(tǒng)的圖像學(xué)處理方法對背景較復(fù)雜的圖像進(jìn)行檢測有一定的局限性,且檢測速度相對較低。隨著深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測算法無論是在檢測精度還是在速度上都有著出色的效果。利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征用于分類問題,比較經(jīng)典的目標(biāo)檢測網(wǎng)絡(luò)有SSD[9]、R-CNN[10]、Fast R-CNN[11]等。2015年,Redmon等[12]提出了YOLO目標(biāo)檢測算法,用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像特征提取,用回歸的思想做分類問題,有著較高的檢測速度和準(zhǔn)確率。崔循[13]將YOLOv3[14]用于集裝箱箱號的檢測;劉岑等[15]通過修改YOLOv3網(wǎng)絡(luò),將輸入改為單通道,都有著較好于傳統(tǒng)方法的檢測效果。

      在集裝箱箱號的檢測中,無論是傳統(tǒng)圖像處理方法,還是深度學(xué)習(xí),在解決箱號的初定位之后,由于實(shí)地檢測時(shí)拍攝角度或者集裝箱??糠较虻牟淮_定,都不可避免地要對初定位區(qū)域的箱號字符進(jìn)行傾斜校正處理,達(dá)到最佳的檢測效果,以滿足后續(xù)識別的要求。常用的傾斜校正方法有基于投影分析法[16]、基于分塊質(zhì)心法[17]、基于Hough變換法[18]和基于最小外接矩形法[19]。以上方法對長串字符的傾斜校正都依賴于單個(gè)字符在圖像中的具體位置,位置的獲取基本上是通過圖像二值化獲得字符所在的連通區(qū)域來實(shí)現(xiàn)。然而在實(shí)際的箱號檢測中,用圖像二值化獲取字符位置的方法魯棒性能較差。因?yàn)樵趯?shí)地拍攝時(shí),很容易遇到光線不均的問題,運(yùn)用二值化時(shí)強(qiáng)光或者背光的區(qū)域會被當(dāng)成字符。此外,在初定位的箱號區(qū)域內(nèi),除了目標(biāo)字符外,還有距離目標(biāo)字符非常近的干擾字符,當(dāng)初定位框比較大時(shí),其他位置的字符,如公司logo、箱型尺寸等文本信息也會框進(jìn)來,進(jìn)而影響傾斜校正的結(jié)果。

      2 主要方法

      2.1 網(wǎng)絡(luò)結(jié)構(gòu)

      本文設(shè)計(jì)了一種由融合CBAM的MobileNetV3輕量級初定位網(wǎng)絡(luò)和PCAM模塊組成的箱號檢測網(wǎng)絡(luò),如圖1所示。對于采集的箱號文本圖像,首先由箱號初定位網(wǎng)絡(luò)輸出該文本的初定位矩形框。但是該階段輸出的箱號框往往會出現(xiàn)多框、漏框及框不準(zhǔn)等情況,需對候選框進(jìn)行優(yōu)化。為了解決這些問題,進(jìn)一步提出了PCAM,通過挖掘箱號字符熱圖信息,引入最小二乘算法,最終得到優(yōu)化后的四邊形箱號框。

      圖1 系統(tǒng)流程Fig.1 System flowchart

      2.2 融合CBAM的MobileNetV3輕量級網(wǎng)絡(luò)

      為了提高箱號初定位階段的算法實(shí)時(shí)性,采用MobileNetV3作為網(wǎng)絡(luò)主干,以特征金字塔結(jié)構(gòu)(Feature Pyramid Network, FPN)為基礎(chǔ),加入CBAM注意力模塊來平衡檢測速度和精度。

      設(shè)計(jì)的融合CBAM的MobileNetV3輕量級網(wǎng)絡(luò),主干輸出3個(gè)尺度的箱號文本特征圖,圖像尺寸分別為13 pixel×13 pixel、26 pixel×26 pixel、52 pixel×52 pixel。然后通過FPN,將箱號特征圖進(jìn)行多尺度特征融合。接著將融合得到的3個(gè)特征圖輸入到CBAM注意力機(jī)制模塊。通過卷積進(jìn)行特征圖的平滑處理,得到通道數(shù)為21的3種不同尺度箱號特征圖。最后通過網(wǎng)絡(luò)的檢測頭以及非極大值抑制,得到箱號框。融合CBAM的MobileNetV3網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      圖2 融合CBAM的MobileNetV3輕量級的箱號初定位網(wǎng)絡(luò)Fig.2 MobileNetV3 lightweight coarse positioning network fused with CBAM

      2.3 PCAM模塊

      針對箱號字符呈直線排布的規(guī)律,提出了PCAM,如圖3所示。

      具體而言,PCAM設(shè)計(jì)了一個(gè)基于Transformer的字符熱圖生成網(wǎng)絡(luò),預(yù)測圖像中每一個(gè)字符熱圖信息,并利用熱圖非剛性邊界真值區(qū)的域像素值大小關(guān)系,獲取字符中心點(diǎn)的位置,然后對中心點(diǎn)進(jìn)行直線擬合,得到擬合直線與目標(biāo)箱號字符所在像素組成的連通域,并將此區(qū)域作為最終目標(biāo)箱號區(qū)域。

      圖3 PCAMFig.3 PCAM

      2.3.1 字符熱圖生成網(wǎng)絡(luò)

      字符熱圖生成網(wǎng)絡(luò)的目標(biāo)是精確定位自然圖像中的每個(gè)字符區(qū)域,以更好地找到字符的中心點(diǎn)。為此,本文訓(xùn)練的數(shù)據(jù)集采用合成文本(Synthtxt)[20]數(shù)據(jù)集,獲取圖像中每一個(gè)文本的熱圖標(biāo)簽再進(jìn)行訓(xùn)練。在PCAM中,利用基于Transformer的字符熱圖生成網(wǎng)絡(luò),生成單字符熱圖。將Swin Transformer[21]作為主干網(wǎng)絡(luò),分別得到原圖1/4、1/8、1/16、1/32 pixel大小的特征圖{C1、C2、C3、C4}。這些特征圖通過FPN結(jié)構(gòu)融合得到特征圖{P1、P2、P3}:

      式中:ReLU()表示激活函數(shù),Bn()表示標(biāo)準(zhǔn)化,Conv()表示卷積核為3×3的卷積層,UpSample()為2倍上采樣層。

      特征圖{P2、P3、C4}經(jīng)過卷積平滑操作和上采樣,得到P1相同尺寸的128維特征圖,P1只進(jìn)行卷積平滑操作。然后將{P1,P2,P3,C4}通道連接在一起得到通道數(shù)為512的特征圖F:

      F=Concat(P1,P2,P3,C4)。

      (4)

      此時(shí)特征圖F已經(jīng)具有了高層和底層相融合的豐富語義信息,然后將F輸入卷積預(yù)測頭得到字符級別熱圖。字符熱圖生成網(wǎng)絡(luò)整體結(jié)構(gòu)如圖4所示。

      圖4 字符熱圖生成網(wǎng)絡(luò)Fig.4 Character heatmap generating network

      2.3.2 基于最小二乘法的箱號精準(zhǔn)定位算法

      由字符熱圖生成網(wǎng)絡(luò)輸出的文本區(qū)域,每個(gè)像素值的大小能夠反映其對應(yīng)文本中心坐標(biāo)的概率大小,其中字符中心坐標(biāo)像素的值大于等于其四周像素值。為了對箱號直線區(qū)域進(jìn)行擬合,本文設(shè)計(jì)像素遍歷算法,利用字符熱圖生成網(wǎng)絡(luò)輸出的熱圖,將初定位預(yù)選框內(nèi)每一個(gè)字符的中心點(diǎn)標(biāo)記出來,如圖5所示。

      圖5 字符中心點(diǎn)示例Fig.5 Example of character center point

      上述過程充分利用了文本熱圖區(qū)域分?jǐn)?shù)據(jù),得到了字符中心點(diǎn)的坐標(biāo)。為了能將初定位網(wǎng)絡(luò)輸出的預(yù)選框內(nèi)呈直線排布的字符連接在一起,滿足最后連通域選取箱號區(qū)域的要求,采取最小二乘法擬合的方法。

      設(shè)直線方程y=ax+b,根據(jù)最小二乘法的原理,擬合出來的直線與輸入的每一個(gè)點(diǎn)的距離平方和最小,其目標(biāo)函數(shù)為:

      (5)

      當(dāng)F最小時(shí),對目標(biāo)函數(shù)求偏導(dǎo),參數(shù)a、b滿足:

      (6)

      可得方程組:

      (7)

      解上述方程組得到a、b的值,即得到擬合的直線。箱號精準(zhǔn)定位過程示例如圖6所示,其中矩形框?yàn)槌醵ㄎ痪W(wǎng)絡(luò)輸出的檢測框。通過最小二乘法擬合直線后,在圖6(b)即文本區(qū)域分圖像內(nèi),將直線所在的像素點(diǎn)設(shè)置為255,然后對該圖進(jìn)行圖像二值化處理,接著通過連通域法,將直線所在的連通域選取出來,連通域采取8鄰接規(guī)則。最后通過最小外接矩形算法,得到目標(biāo)連通區(qū)域的最小外接矩形4個(gè)頂點(diǎn)的坐標(biāo),即為最后箱號精準(zhǔn)定位的結(jié)果。

      在實(shí)際的集裝箱號檢測中,字符方向的直線擬合往往會受到干擾字符的影響,特別是檢測傾斜橫排集裝箱號,初定位網(wǎng)絡(luò)可能會框到多余的干擾字符。為擬合目標(biāo)字符方向上的最佳直線、消除目標(biāo)外字符的干擾,本文采取二次擬合的方案。具體方法為:在第一次擬合后,分別計(jì)算每一個(gè)參與擬合的點(diǎn)到擬合直線的距離,得到距離最小的4個(gè)像素點(diǎn)后再次擬合(若初定位網(wǎng)絡(luò)輸出矩形框內(nèi)中心坐標(biāo)點(diǎn)≤4,則不進(jìn)行二次擬合)。圖7為擬合一次與二次擬合過程效果對比的一個(gè)示例,圖7(a)的矩形框?yàn)槌醵ㄎ痪W(wǎng)絡(luò)檢測矩形框,其中上排為一次擬合,下排為二次擬合。通過實(shí)際的檢測統(tǒng)計(jì),二次擬合相比只擬合一次,可取得更好的直線擬合效果,獲得更加精準(zhǔn)的箱號檢測效果。

      圖7 一次擬合與二次擬合對比Fig.7 Comparison of primary and secondary fitting

      3 實(shí)驗(yàn)結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文實(shí)驗(yàn)實(shí)測樣本均采集于福建江陰港口,來源于人工多角度隨機(jī)拍攝和攝像頭定點(diǎn)拍攝的1 500張照片。所測試樣本包含了晝、夜樣本,分辨率為1 920 pixel×1 080 pixel,排列方式有橫排和豎排2種,且包含了不同的集裝箱箱型、光照條件、傾斜角度、不同箱號大小以及不同的自然環(huán)境下的樣本,每一張圖片有箱號目標(biāo)數(shù)量1~5個(gè)不等,共4 290個(gè)箱號個(gè)體。

      3.2 實(shí)驗(yàn)環(huán)境

      本次測試的實(shí)驗(yàn)硬件環(huán)境為 Intel i7-3770 CPU @3.40 GHz ,內(nèi)存16 GB RAM,GPU 為NVIDIA 3060Ti,軟件環(huán)境為 Ubuntu 18.04 操作系統(tǒng),使用PyCharm編譯工具。

      3.3 實(shí)驗(yàn)結(jié)果分析

      為測試箱號初定位融合CBAM的MobileNetV3輕量級網(wǎng)絡(luò)的表現(xiàn),在現(xiàn)有數(shù)據(jù)集基礎(chǔ)上,本文網(wǎng)絡(luò)同經(jīng)典目標(biāo)檢測算法進(jìn)行對比實(shí)驗(yàn),并選用平均精準(zhǔn)度均值(mAP)和平均定位速度作為評價(jià)指標(biāo)來衡量不同算法的綜合性能。箱號初定位與其他算法對比結(jié)果如表1所示。

      由表1可以看出,融合CBAM的MobileNetV3輕量級網(wǎng)絡(luò)在mAP和平均定位速度2個(gè)指標(biāo)上都比YOLOv3和Faster R-CNN高,mAP達(dá)到了91.7%、速度達(dá)到了44.3 幀/秒;盡管精度略遜色于YOLOv5,但是在速度上與之相比提高了4.7 幀/秒,可見本文初定位網(wǎng)絡(luò)在保證檢測速度的同時(shí),確保了初定位基本的精度要求。

      表1 不同算法初定位準(zhǔn)確率和速度對比Tab.1 Comparison of coarse positioning accuracy and speed of different algorithms

      為了驗(yàn)證本文提出的箱號檢測算法及整體識別算法性能,其中檢測部分與YOLOv3、YOLOv5、Faster R-CNN、文獻(xiàn)[22]的基于最大穩(wěn)定極值區(qū)域(MSER)和連通域分析方法進(jìn)行對比。

      對于定位準(zhǔn)確率的計(jì)算,本文對目標(biāo)箱號區(qū)域做了四邊形的標(biāo)注,當(dāng)預(yù)測框與四邊形標(biāo)注框的交并比值大于0.7時(shí),認(rèn)為定位成功。定位準(zhǔn)確率為定位成功數(shù)與箱號框總數(shù)的比值, 具體實(shí)驗(yàn)結(jié)果如表2所示。

      表2 不同算法定位準(zhǔn)確率和速度對比Tab.2 Comparison of positioning accuracy and speed of different algorithms

      由表2可以看出,本文的定位準(zhǔn)確率相比YOLOv3、YOLOv5、Faster R-CNN和文獻(xiàn)[22]都高,高達(dá)98.1%,說明本文定位算法具有較好的自適應(yīng)能力。原因在于本文采用基于熱圖感知的精確后處理方法,能夠輸出任意方向的矩形框,可以有效排除箱號傾斜下非箱號區(qū)域字符的干擾。而YOLOv3、YOLOv5和Faster R-CNN只能輸出平行于圖像邊界的矩形框,即使檢測框能夠覆蓋所有箱號區(qū)域,卻因?yàn)闄z測過多的背景和干擾字符而導(dǎo)致定位失敗;而文獻(xiàn)[22]采用MSER方法對于不同傾斜且多光照背景下箱號定位容易失敗。從平均速度來看,由于加入了熱圖感知優(yōu)化部分導(dǎo)致速度有一定程度的下降,但是本文算法滿足實(shí)際應(yīng)用中的實(shí)時(shí)性要求,箱號檢測結(jié)果展示如圖8所示。

      圖8 本文箱號檢測結(jié)果展示Fig.8 Display of the container code detection results

      4 結(jié)束語

      本文提出了一種熱圖感知的集裝箱箱號檢測識別算法,利用融合CBAM的輕量級網(wǎng)絡(luò)高效地檢測出矩形箱號框,同時(shí)結(jié)合Transformer利用圖像中字符的熱圖以及圖像形態(tài)學(xué)處理方法,得到精準(zhǔn)的任意方向箱號區(qū)域。實(shí)驗(yàn)結(jié)果表明, 相比目前主流的文本識別算法有著明顯的精度提升, 并且魯棒性好、檢測速度高,可滿足實(shí)際場景的應(yīng)用需求。此外,將進(jìn)一步考慮實(shí)現(xiàn)端到端的箱號檢測識別算法,從而優(yōu)化在實(shí)際項(xiàng)目中的部署。

      猜你喜歡
      熱圖字符集裝箱
      美軍一架C-130J正在投放集裝箱
      軍事文摘(2023年5期)2023-03-27 09:13:10
      尋找更強(qiáng)的字符映射管理器
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      虛實(shí)之間——集裝箱衍生出的空間折疊
      消失的殖民村莊和神秘字符
      我家住在集裝箱
      中國公路(2017年8期)2017-07-21 14:26:20
      熱圖
      攝影之友(2016年12期)2017-02-27 14:13:20
      熱圖
      每月熱圖
      攝影之友(2016年8期)2016-05-14 11:30:04
      太和县| 密山市| 皮山县| 高平市| 朝阳区| 酒泉市| 花垣县| 如皋市| 江陵县| 宽甸| 营山县| 岳西县| 长葛市| 锦州市| 凉城县| 军事| 内黄县| 贺兰县| 榆树市| 澳门| 泰来县| 陇西县| 昭觉县| 小金县| 四子王旗| 时尚| 鹤山市| 汉沽区| 泰兴市| 延吉市| 临江市| 九龙县| 德阳市| 清远市| 三门县| 大城县| 康马县| 青州市| 江油市| 夏津县| 卢湾区|