姬曉飛,張可心,唐李榮
改進DeepLabv3+網(wǎng)絡(luò)的圖書書脊分割算法
姬曉飛*,張可心,唐李榮
(沈陽航空航天大學 自動化學院,沈陽 110136)(?通信作者電子郵箱jixiaofei7804@126.com)
圖書定位是實現(xiàn)圖書館智能化發(fā)展的重要技術(shù)之一,精確的書脊分割算法成為實現(xiàn)該目標的一大難題?;谝陨锨闆r,提出改進DeepLabv3+網(wǎng)絡(luò)的圖書書脊分割算法,以解決圖書密集排列、圖書存在傾斜角度和書脊紋理極相似等情況下的書脊分割難點。首先,為了提取圖書圖像更密集的金字塔特征,將原始DeepLabv3+網(wǎng)絡(luò)中的空洞金字塔池化(ASPP)替換為多空洞率、多尺度的DenseASPP (Dense Atrous Spatial Pyramid Pooling)模塊;其次,針對原始DeepLabv3+網(wǎng)絡(luò)對大長寬比的目標對象分割邊界不敏感的問題,在DenseASPP模塊的支路加入條形池化(SP)模塊以增強書脊的長條形特征;最后,參考ViT (Vision Transformer)中的多頭自注意(MHSA)機制,提出一種全局信息增強的自注意模塊,以增強網(wǎng)絡(luò)獲取長距離特征的能力。將所提算法在開源數(shù)據(jù)庫上進行對比測試,實驗結(jié)果表明,與原始DeepLabv3+網(wǎng)絡(luò)分割算法相比,所提算法在近豎直書脊數(shù)據(jù)庫上的平均交并比(MIoU)提升了1.8個百分點;在傾斜書脊數(shù)據(jù)庫上的MIoU提升了4.1個百分點,達到了93.3%。以上驗證了所提算法實現(xiàn)了有一定傾斜角度的、密集的和大長寬比的書脊目標的精確分割。
書脊分割;智能圖書館;DeepLabv3+網(wǎng)絡(luò);DenseASPP;自注意機制
隨著信息化社會的發(fā)展,讀者數(shù)與館藏量的增加使圖書館傳統(tǒng)查找圖書的方式無法滿足讀者高效獲取圖書的需求,基于圖像處理的圖書自動定位方法已經(jīng)成為研究熱點。對于在架圖書,只有書脊部分可以被觀察到,因此每本圖書書脊的分割是對圖書實現(xiàn)精確定位的前提。本文旨在解決在架圖書書脊圖像的分割問題,其中主要的挑戰(zhàn)是:1)圖書擺放數(shù)量較多,屬于密集對象;2)由于書籍的薄厚不一致,導致書脊具有差別較大的長寬比;3)相同系列書籍的排放,在紋理上具有極高的重復或者相似性,難以區(qū)分邊界;4)拍攝角度或者圖書的傾斜擺放使圖像中的書籍呈不同的傾斜角度。
基于傳統(tǒng)圖像處理的方法主要依靠人工提取特征送入分類器實現(xiàn),如顏色、紋理和尺度不變特征變換等特征與支持向量機(Support Vector Machine, SVM)的配合使用。對于密集排列圖書的分割,最大困難是邊緣部分的分割。Tabassum等[1]和康洪雷等[2]直接通過霍夫直線檢測或LSD(Line Segment Detection)線段檢測提取書脊兩側(cè)直線;崔晨等[3]提出了一種基于文本檢測的書脊區(qū)域粗選方法,利用相似字符提取候選書脊圖像的方向梯度直方圖特征輸入SVM進行判斷;Nevetha等[4]提出一種帶有若干啟發(fā)式規(guī)則的線段檢測器獲取書脊邊緣。這些傳統(tǒng)方法受限于手工提取特征的單一性,容易受到密集排列書脊高紋理區(qū)域的相似性和邊界模糊性的影響,產(chǎn)生錯誤的分割線,魯棒性差。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在計算機視覺領(lǐng)域,包括圖像分類[5]、目標檢測[6]和語義分割[7]等取得了較好的表現(xiàn)。分割的準確性由局部特征(顏色和強度)和全局特征(紋理和背景)決定。在不同的CNN變體中,對稱編碼器-解碼器體系結(jié)構(gòu)命名法U-Net[8]具有突出的細分潛力。它主要由一系列連續(xù)的卷積層和下采樣層組成,通過收縮路徑捕獲上下文語義信息,然后在解碼器中,用編碼器的橫向連接對粗粒度深特征和細粒度淺特征映射進行上采樣,以生成精確的分割映射。為了進一步提高分割性能,隨后出現(xiàn)了多種U-Net的變體,如UNet++[9]和Res-UNet[10]。但是這種體系結(jié)構(gòu)的感受野大小存在限制,使深度模型無法捕獲足夠的上下文信息,導致在邊界等復雜區(qū)域分割失敗。為了緩解這個問題,Chen等[11]提出了DeepLab網(wǎng)絡(luò),引入了一種使用上采樣濾波器的新型卷積操作,即膨脹卷積,以擴大濾波器的視野,吸收更大的上下文而不增加計算量。其次,該網(wǎng)絡(luò)為了能夠捕捉更精細的細節(jié),采用條件隨機場細化分割結(jié)果。在此基礎(chǔ)上,為了提取目標的多尺度特征,Chen等[12]又提出DeepLabv2,該網(wǎng)絡(luò)使用空洞金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模塊實現(xiàn)對多尺度對象的分割,ASPP模塊通過探測具有不同采樣率的多個膨脹卷積的特征映射獲取多尺度的信息表示。隨后,DeepLabv3[13]設(shè)計了一個帶有膨脹卷積的編碼器-解碼器架構(gòu),以獲得更清晰的對象邊界,利用深度可分離卷積提高計算效率。Chen等[14]提出了DeepLabv3+網(wǎng)絡(luò)模型,通過添加一個簡單有效的解碼器模塊擴展DeepLabv3,以提高分割性能。Deeplab系列網(wǎng)絡(luò)經(jīng)過一系列優(yōu)化,得到了令人滿意的分割效果,成為目前語義分割領(lǐng)域的主流網(wǎng)絡(luò)之一;但由于局部性和權(quán)值共享的歸納偏差[15],它們不可避免地在學習遠程依賴性和空間相關(guān)性方面存在約束,導致復雜結(jié)構(gòu)的次優(yōu)分割。
與CNN相比,ViT(Vision Transformer)網(wǎng)絡(luò)[16]具備了學習長距離特征和全局信息的能力,在圖像分割任務(wù)上表現(xiàn)突出;盡管ViT可以捕捉全局上下文信息和長距離信息,但在捕捉低級像素信息方面較弱,無法較好完成精確的分割任務(wù)。為了避免ViT的高內(nèi)存需求,Swin Transformer[17]提出了一種具有非重疊窗口的局部計算的分層ViT。結(jié)合高效的CNN和強大的ViT,研究人員又提出了如Trans-UNet[18]和TransDeepLab[19]等網(wǎng)絡(luò)。此類方法使用Transformer重構(gòu)一個經(jīng)典的CNN,但增加了模型的復雜性。文獻[20]中證明,ViT網(wǎng)絡(luò)的優(yōu)越性表現(xiàn)一部分原因是引入了多頭自注意(Multi-Headed Self-Attention, MHSA)機制,而MHSA能夠?qū)斎氲奶卣魅纸!?/p>
綜合考慮CNN和ViT的優(yōu)勢,本文提出了改進DeepLabv3+網(wǎng)絡(luò)的圖書書脊分割算法,此算法兼具了CNN出色的低級像素處理能力和ViT對全局信息建模的能力,在書籍分割中表現(xiàn)出了優(yōu)異的效果。
本文的主要工作如下:
1)針對分布密集的目標,使用DenseASPP(Dense Atrous Spatial Pyramid Pooling)結(jié)構(gòu)取代ASPP網(wǎng)絡(luò)。在密集目標分割任務(wù)上有更好的效果。
2)引入條形池化(Strip Pooling, SP)模塊,保留書脊的長條形特征。
3)參考ViT中的MHSA機制搭建自注意機制,并應(yīng)用至CNN,增強特征的上下文信息。
本文算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中為膨脹率。
圖1 本文算法的網(wǎng)絡(luò)結(jié)構(gòu)
本文網(wǎng)絡(luò)遵循DeepLabv3+的原始框架,骨干網(wǎng)絡(luò)選用MobileNetV2。將書籍圖像輸入MobileNetV2進行特征提取,對MobileNetV2的中間3層的特征圖進行上采樣融合,將融合結(jié)果作為淺層特征。同時,將MobileNetV2的最后一層輸出送入DenseASPP模塊。在編碼階段,本文利用DenseASPP模塊取代ASPP模塊,以產(chǎn)生更大的接受域,生成更密集的圖像特征。對于書脊長寬比較大的情況,在DenseASPP模塊中引入條形池化模塊保留長條形的圖像特征。最后,DenseASPP模塊產(chǎn)生的特征經(jīng)過1×1卷積操作實現(xiàn)通道壓縮,送入自注意模塊得到深層特征。在譯碼階段,對淺層特征層利用1×1卷積調(diào)整通道數(shù),送入自注意模塊,與深層特征進行拼接,隨后進行兩次卷積和一次上采樣操作,得到最終的預測結(jié)果。
針對書籍圖像這種密集型分割任務(wù),本文引入DenseASPP模塊以生成更密集的特征。它的結(jié)構(gòu)如圖1所示,空洞卷積層以級聯(lián)方式組織,膨脹率小的層在上部,膨脹率大的層在下部,每一層的膨脹率逐層增加。將每一層的輸出、輸入的特征圖和較低層的所有輸出拼接(Contact),并將這些拼接的特征圖送入下一層。DenseASPP模塊的最終輸出是由多空洞率、多尺度的卷積生成的特征圖。通過一系列的空洞卷積,較后層次的神經(jīng)元獲得越來越大的感受野,避免了ASPP[12]的核退化問題。與ASPP相比,DenseASPP模塊將所有空洞卷積層堆疊在一起,并進行緊密的拼接。這種變化主要帶來以下兩個好處:
1)更密集的特征金字塔。
密集抽樣規(guī)模 DenseASPP模塊可以對不同規(guī)模的輸入進行采樣,使用緊密的連接實現(xiàn)不同膨脹率的不同層次的集成。
2)更大的接受域。
膨脹卷積在ASPP中并行工作,而4個分支在前饋過程中不共享任何信息。相反,DenseASPP模塊中的空洞卷積層通過跳層連接共享信息。小膨脹率和大膨脹率的層之間相互依賴,其中前饋過程不僅構(gòu)成了一個更密集的特征金字塔,也產(chǎn)生了一個更大的過濾器感知更大的上下文。
在DenseASPP模塊中引入條形池化模塊,如圖2所示。它的核心思想是在空間維度上應(yīng)用了一個長條狀的池化卷積核,從而增強捕獲長距離信息的能力,保留書脊的長條形特征。它的水平、豎直方向的池化計算公式分別為:
結(jié)合圖2,利用式(1)(2)對輸入張量中的某一像素所在行和列的局部特征值進行平均條形池化,得到虛線框內(nèi)最前面的兩個橫縱條形塊兩部分,對它們分別進行一維卷積操作,將得到的結(jié)果進行上采樣至輸入張量大小,然后進行特征融合,經(jīng)過卷積、Sigmoid環(huán)節(jié)后與輸入張量按像素相乘得到輸出張量。在上述過程中,實現(xiàn)了輸出張量中的每個位置均與輸入張量中的位置建立關(guān)系。輸出張量中以虛線框最右側(cè)的正方形連接到與它具有相同水平或垂直坐標的所有位置,實現(xiàn)了長條信息的保留。
圖2 條形池化過程
圖3 自注意模塊
在實現(xiàn)細節(jié)上,算法基于PyTorch庫實現(xiàn),并在單個NVIDIA RTX 3060 GPU上進行訓練,處理器為12th Gen Intel Core i5-12400F,批次大小為4(資源限制),初始學習率為0.05,使用隨機梯度下降法(Stochastic Gradient Descent,SGD)作為優(yōu)化方法。采用Dice損失和交叉熵損失作為目標函數(shù),采用L2范數(shù)進行模型正則化。使用旋轉(zhuǎn)和翻轉(zhuǎn)技術(shù)作為數(shù)據(jù)增強方法,使得訓練集多樣化。分割模型訓練分為兩個部分:1)不考慮正負樣本的平衡關(guān)系進行全網(wǎng)絡(luò)訓練,訓練的損失如圖4所示;2)當訓練到損失值基本不下降后,即1 800次左右,將正負樣本損失比重設(shè)置為1∶8,啟用focal loss繼續(xù)訓練。本文采用平均交并比(Mean Intersection over Union, MIoU)指標評價在測試集上的分割效果。
其中:為類數(shù),包含一個背景;表示真實標簽,表示預測標簽;為真正例(預測標簽與真實標簽相同,均為書脊區(qū)域);為假負例(預測結(jié)果為非書脊區(qū)域,真實標簽為書脊區(qū)域);為假正例(預測結(jié)果為書脊區(qū)域,真實標簽為非書脊區(qū)域);表示預測區(qū)域與手工標記區(qū)域的平均交并比。
2.3.1本文算法的有效性驗證
為了驗證本文算法的有效性,對以上改進操作逐一進行實驗測試。實驗基于DeepLabv3+的原始網(wǎng)絡(luò)展開,骨架網(wǎng)絡(luò)選用MobileNetV2,學習率為0.002 5,使用相同的線性衰減率,訓練次數(shù)為3 000,且不啟用focal loss訓練,對全測試集(包含近豎直測試集與傾斜數(shù)據(jù)集)進行統(tǒng)計。
1)DenseASPP有效性驗證。
在DeepLabv3+網(wǎng)絡(luò)框架中分別使用DenseASPP模塊與ASPP模塊得到分割結(jié)果分別為91.2%,89.3%。使用DenseASPP模塊替換ASPP模塊后,該網(wǎng)絡(luò)分割的準確率提高了1.9個百分點,驗證了DenseASPP模塊的優(yōu)勢。
為了降低模型的復雜度,本文選用大小為3的卷積核和不同膨脹率構(gòu)成空洞卷積層,不同層之間進行級聯(lián),DenseASPP模塊的網(wǎng)絡(luò)層數(shù)對分割效果的影響,實驗結(jié)果見表1。
表1DenseASPP模塊的網(wǎng)絡(luò)層數(shù)對分割效果的影響
Tab.1 Influence of number of network layers of DenseASPP module on segmentation effect
從表1可知,當網(wǎng)絡(luò)層數(shù)較低或者較高時,對準確率均存在一定的影響。當網(wǎng)絡(luò)層數(shù)較低時,細節(jié)信息較少,特征不明顯,因此準確率不高;當網(wǎng)絡(luò)層數(shù)較高時,會出現(xiàn)過擬合的現(xiàn)象,導致準確率降低。
2)自注意模塊有效性驗證。
實驗分別在Xception和MobileNetV2兩種骨架網(wǎng)絡(luò)上進行,保留DeepLabv3+網(wǎng)絡(luò)原始框架(DenseASPP模塊代替ASPP模塊),只增加自注意模塊,結(jié)果如表2所示。
圖5分別展示了經(jīng)過MobileNetV2骨架特征提取后,自注意模塊使用前后,對書脊上下文特征的影響。相較于圖5(a),圖5(b)得到的書脊特征更清晰。綜上,依據(jù)表2和圖5的結(jié)果,不論采用哪種的特征提取網(wǎng)絡(luò)骨架,在引入自注意模塊后,準確率均上升,驗證了自注意模塊可以關(guān)聯(lián)全局信息,在分割任務(wù)中發(fā)揮重要的作用。
表2引入自注意模塊前后的實驗結(jié)果對比 單位:%
Tab.2 Comparison of experimental results before and after introduction of self-attention module unit:%
圖5 加入自注意模塊前后的特征可視化對比
3)條形池化模塊有效性驗證。
利用DeepLabv3+網(wǎng)絡(luò)原始框架(DenseASPP模塊代替ASPP模塊),比較有無條形池化模塊在書脊分割上的差異,以驗證條形池化模塊的應(yīng)用價值。引入條形池化模塊前后,深層特征和淺層特征融合得到的特征可視化結(jié)果如圖6所示。
圖6 加入條形池化模塊前后的特征可視化對比
相較于圖6(a),圖6(b)在加入條形池化模塊后,使書脊的長條特征得到了增強,但受環(huán)境的影響,如書架橫欄等,也會被條形池化模塊增強特征,因此可能會出現(xiàn)一些無關(guān)特征。在總體框架中可利用自注意模塊抑制無關(guān)特征,這也驗證了自注意模塊的重要性。
2.3.2不同算法對比結(jié)果
在進行不同網(wǎng)絡(luò)分割算法的比較時,將書脊庫劃分為近豎直書脊數(shù)據(jù)庫和傾斜書脊數(shù)據(jù)庫,其中訓練集采用傾斜、近豎直混合數(shù)據(jù)進行訓練。為了考察書脊的傾斜給各類算法帶來的影響,分別在近豎直與傾斜兩組測試數(shù)據(jù)庫上進行對比。不同網(wǎng)絡(luò)分割算法的對比測試結(jié)果見表3。
表3不同網(wǎng)絡(luò)分割算法在開源數(shù)據(jù)庫上的測試結(jié)果
Tab.3 Test results of different network segmentation algorithms on open-source database
注:*代表相應(yīng)文獻提供開源代碼和默認參數(shù)在本文數(shù)據(jù)集上進行重新訓練得到的測試結(jié)果。
1)近豎直書脊測試結(jié)果。
從表3可以看出,本文算法在近豎直書脊數(shù)據(jù)庫上表現(xiàn)較好。其中,Mask R-CNN(Mask Region-based CNN)使用了區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network, RPN),該網(wǎng)絡(luò)只能生成規(guī)模、尺寸不同的矩形框,但由于書籍的密集性導致此類方法的分割效果不佳。DeepLabv3+網(wǎng)絡(luò)沒有對單個目標設(shè)計全卷積特征提取網(wǎng)絡(luò),這使得該算法在對長寬比例差異大的對象進行檢測和分割時效果較差,而且在目標密集分布的情況下更突顯。本文對DeepLabv3+網(wǎng)絡(luò)進行改進,雖然在一定程度上增加了模型的復雜度,但同時大幅增強了分割算法對書脊特征的表征能力,在近豎直書脊數(shù)據(jù)庫上的測試結(jié)果也驗證了本文算法對于書脊分割的優(yōu)勢。
2)傾斜書脊測試結(jié)果。
從表3中在傾斜書脊數(shù)據(jù)庫的測試結(jié)果可以看出,Mask R-CNN在傾斜書脊方面的應(yīng)用效果較差。改進Mask R-CNN算法[22]采用Mask R-CNN與旋轉(zhuǎn)特征提取方法(Rotation Feature Extraction, RFE)結(jié)合的算法,使用旋轉(zhuǎn)區(qū)域生成網(wǎng)絡(luò)(Rotation Region Proposal Network, RRPN)替換RPN,除了大小、比例外,引入一個角度參數(shù)優(yōu)化Mask R-CNN。該方法可有效地避免RPN帶來的角度適應(yīng)性問題,取得了優(yōu)于本文算法的檢測準確率,但它大幅增加了學習參數(shù)的數(shù)量,提高了模型的復雜度,在近豎直書脊數(shù)據(jù)庫上表現(xiàn)較差。
綜上所述,本文算法在書脊分割上有較好的表現(xiàn)。與原始DeepLabv3+網(wǎng)絡(luò)分割算法相比,在相同的特征提取網(wǎng)絡(luò)和相同訓練次數(shù)下,所提算法在近豎直書脊數(shù)據(jù)庫上的平均交并比(MIoU)提升了1.8個百分點;在傾斜書脊數(shù)據(jù)庫上的平均交并比提升了4.1個百分點,達到了93.3%。在相同操作系統(tǒng)下,相較于Mask R-CNN系列,訓練參數(shù)更少,但性能大幅提高。在相同數(shù)據(jù)集下,文獻[21]測試了不同分割算法下的分割效果。其中FCN(Fully Convolutional Network)模型結(jié)構(gòu)包括FCN32s、FCN16s等結(jié)構(gòu),32s即從32倍下采樣的特征圖恢復至輸入大小,16s則從16倍下采樣恢復至輸入大小。理論上,該數(shù)字越小,網(wǎng)絡(luò)使用的反卷積層進行上采樣的操作越多,對應(yīng)的模型結(jié)構(gòu)更復雜,理論分割效果更精細。具體的測試結(jié)果為:FCN16s、FCN32s、SegNet、U-Net和DeepLabv3的分割效果(采用MIoU指標)分別為0.816 0、0.819 3、0.866 0、0.875 0和0.918 6。其中DeepLabv3表現(xiàn)效果最佳,進一步驗證了其他分割算法對長條形特征目標的適用性較差,突出了Deeplab系列網(wǎng)絡(luò)的優(yōu)越性。
圖7為不同算法的分割效果。DeepLabv3+網(wǎng)絡(luò)的分割效果如圖7(a)所示,它在密集目標中效果較好,但存在邊界分割不清的問題。如圖7(b)所示,Mask R-CNN在近豎直的目標上表現(xiàn)一般,且遭遇傾斜目標時容易被相鄰目標干擾,甚至出現(xiàn)大量漏檢現(xiàn)象。本文算法分割效果如圖7(c)所示,該算法對密集、具有一定傾斜的目標分割效果較穩(wěn)定,尤其對于相鄰目標的掩膜預測有更高的隔離性,不會出現(xiàn)其他算法中相鄰目標相互影響的情況,有效地提高了分割的準確率。
圖7 不同算法的分割效果
本文提出了一種DeepLabv3+改進網(wǎng)絡(luò)的圖書書脊分割算法,用于分割密集排列且?guī)в幸欢▋A斜角度的書脊圖像。本文還提出了一個即插即用的增強全局信息的自注意模塊;使用DenseASPP模塊替換ASPP模塊提取更密集、更廣范圍的書脊特征;在DenseASPP模塊的支路上插入條形池化模塊,增強書脊的長條特性。實驗結(jié)果表明,本文算法可以增強原網(wǎng)絡(luò)對密集、大長寬比和傾斜目標的分割效果,相較于其他算法具有較大的優(yōu)勢。同時本文算法也可以擴展到航拍的規(guī)則目標分割、密集目標分割等場景。下一步將進一步研究提升分割算法對拍攝角度差異的適應(yīng)性。
[1] TABASSUM N, CHOWDHURY S, HOSSEN M K, et al. An approach to recognize book title from multi-cell bookshelf images [C]// Proceedings of the 2017 IEEE International Conference on Imaging, Vision & Pattern Recognition. Piscataway: IEEE, 2017:1-6.
[2] 康洪雷,牛連強,馮庸,等.基于視覺的錯序在架圖書檢測系統(tǒng)[J].軟件工程,2018,21(4):18-22.(KANG H L, NIU L Q, FENG Y, et al. A vision-based system to detect books with incorrect sequence on shelf [J]. Software Engineering, 2018, 21(4):18-22.)
[3] 崔晨,任明武.一種基于文本檢測的書脊定位方法[J].計算機與數(shù)字工程,2020,48(1):178-182,251.(CUI C, REN M W. A spine location method based on text detection [J]. Computer and Digital Engineering, 2020, 48(1): 178-182,251.)
[4] NEVETHA M P, BARSKAR A. Automatic book spine extraction and recognition for library inventory management [C]// Proceedings of the 3rd International Symposium on Women in Computing and Informatics. New York: ACM, 2015:44-48.
[5] U?KUN F A, ?ZER H, NURBA? E, et al. Direction finding using convolutional neural networks and convolutional recurrent neural networks [C]// Proceedings of the 2020 28th Signal Processing and Communications Applications Conference. Piscataway: IEEE, 2020:1-4.
[6] CAI W, HU D. QRS complex detection using novel deep learning neural networks [J]. IEEE Access, 2020, 8: 97082-97089.
[7] SAXENA N, K B N, RAMAN B. Semantic segmentation of multispectral images using Res-Seg-net model [C]// Proceedings of the 2020 IEEE 14th International Conference on Semantic Computing. Piscataway: IEEE, 2020:154-157.
[8] ZHANG Z, LIU Q, WANG Y. Road extraction by deep residual U-Net [J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(5): 749-753.
[9] ZHOU Z, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: a nested U-Net architecture for medical image segmentation [EB/OL]. (2018-07-18)[2022-12-18]. https://arxiv.org/pdf/1807.10165.pdf.
[10] CAO K, ZHANG X. An improved Res-UNet model for tree species classification using airborne high-resolution images [J]. Remote Sensing, 2020, 12(7): 1128.
[11] CHEN L-C, PAPANDREOU G, KOKKINOS I. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. (2014-12-22)[2022-12-18]. https://arxiv.org/ pdf/1412. 7062.pdf.
[12] CHEN L-C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848.
[13] CHEN L-C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017-06-05)[2022-12-18]. https://arxiv.org/pdf/1706.05587.pdf.
[14] CHEN L-C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [EB/OL]. (2018-08-22)[2022-12-18]. https://arxiv.org/pdf/1802.02611.pdf.
[15] XIE Y, ZHANG J, SHEN C, et al. CoTr: efficiently bridging CNN and Transformer for 3D medical image segmentation [C]// Proceedings of the 2021 International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2021: 171-180.
[16] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2020-10-22)[2022-12-18]. https://arxiv.org/pdf/2010. 1192 9v2.pdf.
[17] LIU Z, LIN Y, CAO Y, et al. Swin Transformer: hierarchical vision Transformer using shifted windows [EB/OL]. (2021-08-17)[2022-12-18]. https://arxiv.org/pdf/2103.14030v2.pdf.
[18] CHEN J, LU Y, YU Q, et al. TransUNet: Transformers make strong encoders for medical image segmentation [EB/OL]. (2021-02-08)[2022-12-18]. https://arxiv.org/pdf/2102.04306v1.pdf.
[19] AZAD R, HEIDARI M, SHARIATNIA M, et al. TransDeepLab: convolution-free Transformer-based DeepLabv3+ for medical image segmentation [EB/OL]. (2022-08-01)[2022-12-18]. https://arxiv.org/pdf/2208.00713.pdf.
[20] SRINIVAS A, LIN T-Y, PARMAR N, et al. Bottleneck Transformers for visual recognition [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2021: 16514-16524.
[21] 曾文雯,楊陽,鐘小品.一種用于在架圖書書脊語義分割的山字形網(wǎng)絡(luò)[J].圖像與信號處理, 2020, 9(4): 218-225.(ZENG W W, YANG Y, ZHONG X P. A mountain-shaped network for semantic segmentation of books spines on-shelves [J]. Image and Signal Processing, 2020, 9(4): 218-225.)
[22] 曾文雯,楊陽,鐘小品. 基于改進Mask R-CNN的在架圖書書脊圖像實例分割方法[J].計算機應(yīng)用研究, 2021,38(11):3456-3459,3505.(ZENG W W, YANG Y, ZHONG X P. Improved Mask R-CNN based instance segmentation method for spine image of books on shelves [J]. Application Research of Computers, 2021, 38(11):3456-3459,3505.)
Book spine segmentation algorithm based on improved DeepLabv3+ network
JI Xiaofei*, ZHANG Kexin, TANG Lirong
(,,110136,)
The location of books is one of the critical technologies to realize the intelligent development of libraries, and the accurate book spine segmentation algorithm has become a major challenge to achieve this goal. Based on the above solution, an improved book spine segmentation algorithm based on improved DeepLabv3+ network was proposed, aiming to solve the difficulties in book spine segmentation caused by dense arrangement, skew angles of books, and extremely similar book spine textures. Firstly, to extract more dense pyramid features of book images, the Atrous Spatial Pyramid Pooling (ASPP) in the original DeepLabv3+ network was replaced by the multi-dilation rate and multi-scale DenseASPP (Dense Atrous Spatial Pyramid Pooling) module. Secondly, to solve the problem of insensitivity of the original DeepLabv3+ network to the segmentation boundaries of objects with large aspect ratios, Strip Pooling (SP) module was added to the branch of the DenseASPP module to enhance the strip features of book spines. Finally, based on the Multi-Head Self-Attention (MHSA) mechanism in ViT (Vision Transformer), a global information enhancement-based self-attention mechanism was proposed to enhance the network’s ability to obtain long-distance features. The proposed algorithm was tested and compared on an open-source database, and the experimental results show that compared with the original DeepLabv3+ network segmentation algorithm, the proposed algorithm improves the Mean Intersection over Union (MIoU) by 1.8 percentage points on the nearly vertical book spine database and by 4.1 percentage points on the skewed book spine database, and the latter MIoU of the proposed algorithm achieves 93.3%. The above confirms that the proposed algorithm achieves accurate segmentation of book spine targets with certain skew angles, dense arrangement, and large aspect ratios.
book spine segmentation; intelligent library; DeepLabv3+ network; DenseASPP (Dense Atrous Spatial Pyramid Pooling); self-attention mechanism
This work is partially supported by Key Projects of Liaoning Provincial Department of Education (LJKZZ20220033).
JI Xiaofei, born in 1978, Ph. D., associate professor. Her research interests include video analysis and processing, pattern recognition.
ZHANG Kexin, born in 1996, M. S. candidate. Her research interests include image processing, video analysis and processing.
TANG Lirong, born in 2000, M. S. candidate. His research interests include image processing, video analysis and processing.
TP391.1
A
1001-9081(2023)12-3927-06
10.11772/j.issn.1001-9081.2022121887
2022?12?22;
2023?03?21;
2023?03?22。
遼寧省教育廳重點攻關(guān)項目(LJKZZ20220033)。
姬曉飛(1978—),女,遼寧鞍山人,副教授,博士,主要研究方向:視頻分析與處理、模式識別;張可心(1996—),女,遼寧錦州人,碩士研究生,主要研究方向:圖像處理、視頻分析與處理;唐李榮(2000—),男,四川南充人,碩士研究生,主要研究方向:圖像處理、視頻分析與處理。