宋智勇 潘海鵬
摘 ?要:在復雜圖案織物表面缺陷檢測任務(wù)中,傳統(tǒng)分割算法在特征融合時忽略了不同尺度特征的語義差異,從而造成了分割精度的下降。針對這個問題,提出了一種注意力引導特征融合的缺陷檢測方法。使用空間注意力模塊來抑制紋理背景的干擾,突出缺陷信息;使用自注意力金字塔池化模塊整合局部特征和全局特征,進一步增強特征表示;使用通道注意力模塊引導網(wǎng)絡(luò)選擇有用特征,實現(xiàn)深層特征與淺層特征更好地進行信息融合。實驗結(jié)果顯示,相較于傳統(tǒng)分割算法,本文方法在像素精度、平均像素精度以及均交并比三個指標上均有所提升,證明了算法的有效性。
關(guān)鍵詞:注意力機制;多尺度融合;缺陷檢測
中圖分類號:TP391 ? ? 文獻標識碼:A
Abstract: In the task of detecting defects on the surface of fabrics with complex patterns, traditional segmentation algorithms ignore the semantic differences of different scale features in feature fusion, resulting in a decrease in segmentation accuracy. To solve this problem, this paper proposes a defect detection method based on attention-guided feature fusion. Spatial attention module is used to suppress the interference of the texture background and highlight defect information.
Self-attention pyramid pooling module is used to integrate local and global features to further enhance feature representation. Channel attention module is used to guide the network to select useful features, so to achieve better information fusion of deep features and shallow features. The experimental results show that compared with the traditional segmentation algorithm, the proposed method has improved pixel accuracy, average pixel accuracy, and mean intersection over union, which shows the effectiveness of the algorithm.
Keywords: attention mechanism; multi-scale fusion; defect detection
1 ? 引言(Introduction)
織物表面缺陷檢測是紡織工業(yè)生產(chǎn)中的一項重要任務(wù),許多企業(yè)采用人工的方法進行缺陷檢測,檢測效率低,易疲勞。隨著機器視覺技術(shù)的發(fā)展,表面缺陷自動檢測成為研究熱點。傳統(tǒng)機器視覺缺陷檢測方法可分為基于統(tǒng)計[1]、模型[2]、光譜[3]和結(jié)構(gòu)[4]的方法,然而,這些方法依賴于手工設(shè)計的特征,對紋理背景變化敏感,泛化性能差。高性能計算機的普及使得深度學習在工業(yè)中得到了廣泛應(yīng)用,目前缺陷檢測主要依賴基于卷積網(wǎng)絡(luò)的圖像分類、目標檢測以及語義分割方法。景軍鋒等[5]利用微調(diào)后的Alexnet網(wǎng)絡(luò)對兩種織物表面的缺陷進行分類。趙志勇等[6]提出了一種基于inereception-resnet-v2網(wǎng)絡(luò)的織物缺陷檢測算法,對復雜背景下的織物缺陷進行檢測和分類,準確率能夠達到99%。史甜甜[7]利用深度可分離卷積與Fisher準則約束相結(jié)合對周期性圖案缺陷進行檢測。景軍鋒等[8]提出了一種應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)的色織物缺陷檢測算法。在缺陷檢測任務(wù)中,分割任務(wù)被認為是最困難的挑戰(zhàn),相較于傳統(tǒng)的分割算法忽視了不同尺度特征之間的語義差異,本文基于全卷積網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計了注意力引導特征融合的網(wǎng)絡(luò)模型,使用專門的特征融合方法更好地將深層和淺層特征相融合,得到了更加精細的分割結(jié)果。首先簡單介紹了傳統(tǒng)的語義分割算法;其次對我們的整體模型以及各個模塊進行介紹分析;最后通過對比實驗證明本文所提算法的有效性。
2 ? 語義分割算法(Semantic segmentation algorithm)
2.1 ? 全卷積網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常包括一系列卷積層與全連接層,圖像經(jīng)過卷積層后通過全連接層將特征矩陣轉(zhuǎn)換為一個固定長度的特征向量。與卷積神經(jīng)網(wǎng)絡(luò)不同的是,全卷積網(wǎng)絡(luò)(FCN)[9]使用全卷積層代替了全連接層,其結(jié)構(gòu)如圖1所示。原圖進入FCN網(wǎng)絡(luò)中,通過一系列卷積層和下采樣池化層得到深層特征圖,為了保證分割精度,使用跳層連接融合深層的語義信息和淺層的空間信息,采用反卷積的上采樣方法逐步恢復圖像信息。根據(jù)跳層連接方式可分為FCN-32S、FCN-16S、FCN-8S三種不同的結(jié)構(gòu),其中FCN-32S直接使用32 倍上采樣恢復圖像信息,F(xiàn)CN-16S指的是通過跳層連接后上采樣16 倍恢復圖像信息,F(xiàn)CN-8S指的是通過跳層連接后上采樣8 倍恢復圖像信息。
2.2 ? 編碼解碼結(jié)構(gòu)U-net
U-net[10]是基于全卷積網(wǎng)絡(luò)FCN的一種左右對稱的編碼解碼結(jié)構(gòu),如圖2所示。它因為形似字母U而被稱為U-net,包含編碼、解碼、跳層連接三個模塊,輸入圖像經(jīng)過多次降采樣,感受野不斷增加,得到高層語義信息的深層特征,然后以對稱的方式在同深度的特征圖跳層連接進行融合,不同于全卷積網(wǎng)絡(luò)FCN,U-net網(wǎng)絡(luò)的特征融合方式為通道級聯(lián)。編碼器的下采樣選擇了最大池化操作,上采樣選擇了反卷積結(jié)構(gòu),由于卷積過程中選擇了valid(不填充)操作,為了保證融合過程中大小相同,采用截取后再復制的方法進行對齊。
3 ? 方法(Method)
3.1 ? 整體網(wǎng)絡(luò)結(jié)構(gòu)
本部分將詳細討論模型的實現(xiàn)過程,圖3顯示了模型的總體結(jié)構(gòu),由編碼器、解碼器、跳層連接和注意力引導多尺度融合四個模塊組成。圖像經(jīng)過編碼器部分來提取圖像特征,將最后一層卷積層得到的深層特征送入自注意力金字塔池化模塊(SP)獲取豐富的上下文信息,將淺層特征送入空間注意力模塊(PA)抑制背景信息。特征融合方式有兩條自上而下的路徑,第一條路徑融合時通過1*1卷積對齊深層淺層特征通道數(shù),通過使用類似FPN結(jié)構(gòu)的逐元素相加方法層層遞進地整合深層和淺層特征,實現(xiàn)特征的初步融合,經(jīng)過初步融合的特征具備多尺度信息;第二條路徑使用的是級聯(lián)通道特征融合方式來疊加不同層級的特征圖,使用3*3卷積對融合的特征圖進行通道變換,使用通道注意力模塊(CA)學習通道間的相關(guān)性,自適應(yīng)地計算加權(quán)特征,過濾出與有意義的特征對應(yīng)的特征映射,對有效信息進行增強。
3.2 ? 空間注意力模塊
淺層特征包含大量的細節(jié)紋理信息,然而淺層特征語義信息不足,直接進行特征融合會引入大量噪聲,使用空間注意力模塊(PA)可以增強判別性特征的特征表示能力,抑制背景信息,更加集中于特征的位置信息,增強特征表達。空間注意力模塊結(jié)構(gòu)如圖4所示。為了提取多尺度位置信息,增加感受野,借鑒文獻[11]所提出的GCN模塊,使用大卷積核對稱分離卷積對通道特征圖進行壓縮得到兩個一維通道特征圖,通過逐元素相加的方式聚合特征信息,使用Sigmoid激活函數(shù)得到歸一化后的空間注意力權(quán)重信息,與原始特征圖進行逐元素相乘得到加權(quán)空間注意力特征圖,最后與原始特征圖逐元素相加得到最后的輸出特征圖。
3.3 ? 自注意力金字塔池化模塊
深層特征具有豐富的語義信息,可以幫助挖掘缺陷的詳細位置,為了有效提取全局特征信息,擴大感受野,在編碼器末端添加自注意力金字塔池化模塊(SP),如圖5所示。它包含左邊的金字塔池化模塊和右邊的自注意力模塊兩個部分,金字塔池化模塊將特征圖劃分為多個區(qū)域,每個區(qū)域中的像素都可以看作全局表示,包含1*1、2*2、3*3和6*6這四種不同尺寸的池化操作,多種不同的池化意味著提取到了更加豐富的高層特征,有助于減少信息丟失。通過四種不同尺寸的池化操作得到四個尺寸的特征圖,通過雙線性插值對這些特征圖進行上采樣,將不同級別的特征進行通道級聯(lián)融合特征,作為最后的金字塔池化全局特性,融合不同區(qū)域的上下文信息。通過對不同區(qū)域的上下文進行聚合,提升了網(wǎng)絡(luò)利用全局上下文信息的能力。深層特征經(jīng)過金字塔池化模塊獲取全局信息后,為了進一步增強缺陷分割網(wǎng)絡(luò)的特征表示,有必要捕獲全局信息,建模像素和全局的聯(lián)系。使用自注意力模塊對遠程特征依賴性進行建模,過濾由全局特征傳遞的不相關(guān)信息,進一步強調(diào)或抑制不同空間位置中的特征。自注意力模塊結(jié)構(gòu)如圖5右半部分所示,通過矩陣相乘操作來建模像素和全局的聯(lián)系。首先輸入特征圖經(jīng)過三個分支的1*1卷積生成三個新特征圖、、。為了計算某一位置與所有像素之間的相似性,將進行轉(zhuǎn)置后與進行矩陣相乘得到相似性矩陣,計算公式如式(1)所示,表示第個位置對第個位置的影響,因為特征圖含有通道,矩陣相乘相當于位置所有通道的值與位置所有通道的值進行點乘操作,值越大代表兩個位置相似性越高。對相似性矩陣進行Softmax歸一化操作得到相關(guān)權(quán)重系數(shù),將經(jīng)過Softmax歸一化操作后的相似性矩陣與進行矩陣相乘,最后與原特征圖進行逐像素相加后,再通過1*1卷積進行信息整合得到最后的自注意力模塊輸出。自注意力模塊通過對所有位置特征的加權(quán)求和學習獲取任意兩個位置之間的空間依賴,捕捉遠距離信息,進一步增強了特征表示。
3.4 ? 通道注意力模塊
通道注意力模塊(CA)作用于不同尺度特征跨層融合階段,直接相加或者通道級聯(lián)融合方式?jīng)]有考慮到不同通道間特征的相關(guān)性和重要性,通過計算通道之間的相互關(guān)系,對信息的重要程度進行重新分配,指導特征圖進行加權(quán)。通道注意力模塊結(jié)構(gòu)如圖6所示,給定輸入特征F,使用全局平均池化操作和全局最大池化操作得到兩個包含全局信息的C*1*1特征圖。并行的全局平均池化操作和全局最大池化操作可以防止單一池化操作造成信息丟失過多,參數(shù)共享層SL中包含全連接層FC和ReLU激活函數(shù),可以建模通道中的相互關(guān)系,將輸出的兩個特征圖通過逐像素相加聚合語義信息。使用Sigmoid激活函數(shù)得到權(quán)重參數(shù)Fc,與原特征圖F逐元素相乘得到加權(quán)特征圖F'。借鑒殘差機制將經(jīng)過通道注意力細化的特征圖F'與原特征圖F逐元素相加后得到最終的輸出特征圖Fc''。通道注意力模塊計算公式如式(2)—式(4)所示。
4 ? 實驗(Experiment)
4.1 ? 數(shù)據(jù)集
本文使用的密集織物圖片數(shù)據(jù)來自香港大學數(shù)據(jù)庫,包含星形圖案、點圖案、箱形圖案三種背景類型的織物共166 張圖片,選取45 張缺陷圖片和75 張無缺陷圖片作為訓練集,30 張缺陷圖片作為測試集。為了防止過擬合,我們使用隨機旋轉(zhuǎn)、左右翻轉(zhuǎn)、上下翻轉(zhuǎn)等方式進行數(shù)據(jù)擴充??椢锶毕輬D片如圖7所示。
4.2 ? 參數(shù)設(shè)置
本文實驗基于Windows系統(tǒng)下搭建的PyTorch深度學習框架,詳細硬件環(huán)境和軟件環(huán)境如表1所示。訓練時,使用SGD隨機梯度下降法進行優(yōu)化,初始學習率為0.01,動量為0.7,批量大小為4,迭代500 個周期。實驗中的圖像大小為256256。訓練過程loss曲線如圖8所示,loss不斷下降,說明網(wǎng)絡(luò)訓練正常。
4.3 ? 評價指標
為了評估所提出方法的有效性,使用了三個評價指標,即像素精度PA、平均像素精度MPA、均交并比MIoU,計算公式如式(5)—式(7)所示。
其中,表示包括背景的總類別,表示實際是類被推斷為類的像素數(shù)量,表示實際是類被推斷為類的像素數(shù)量,表示實際是類被推斷為類的像素數(shù)量。PA是最簡單的評價指標,指的是正確的像素與總像素的比值;MPA表示的是所有類別像素精度均值;均交并比MIoU計算的是分割圖與真實標注的交集與并集比,值越大,說明分割效果越好。
4.4 ? 實驗結(jié)果分析
我們選擇FCN和U-net網(wǎng)絡(luò)作為對比實驗,實驗結(jié)果如表2所示。
對比表2中的結(jié)果,本文所提出的模型在像素精度PA、平均像素精度MPA、均交并比MIoU三個指標上均有所提升。由于引入了空間注意力機制,有效抑制了復雜紋理背景信息,增強了特征表達,提高了像素準確性,與FCN-8S方法相比,平均像素精度MPA提高了2.53%;由于引入了自注意力金字塔池化模塊,有效利用了全局信息,增強了上下文表示;由于引入了通道注意力模塊指導不同尺度特征融合,對各個尺度特征權(quán)值進行重新分配,得到了更好地融合效果,相比U-net方法,均交并比MIoU提高了2.31%,缺陷分割邊緣更加精細。模型的分割效果如圖9所示,實驗結(jié)果表明,本文所提出的基于注意力引導的特征融合網(wǎng)絡(luò)顯著提高了缺陷分割的準確性。
5 ? 結(jié)論(Conclusion)
傳統(tǒng)分割方法直接采用逐元素相加或者級聯(lián)通道的特征融合方式,未能對融合后的特征進行進一步的分析,使得融合后的特征包含大量的無關(guān)信息。針對此問題,本文提出了一種基于注意力引導特征融合的缺陷分割方法,通過注意力引導特征融合模塊整合編解碼信息。相較于傳統(tǒng)算法,本文使用空間注意力機制減少了淺層特征中的背景等噪聲信息的干擾,保存有效的位置信息,編碼器末端使用自注意力金字塔池化模塊建立更豐富的全局語義信息,將通道注意力用于深層淺層特征融合階段提取重要信息,提高了特征融合的質(zhì)量。實驗結(jié)果表明,我們的方法具有良好的缺陷分割效果。未來,我們將致力于使用圖像級標簽而非像素級標簽進行缺陷分割來減少對人工標記的依賴。
參考文獻(References)
[1] HU J, HE Z, WENG G, et al. Detection of chemical fabric defects on the basis of morphological processing[J]. The Journal of The Textile Institute, 2016, 107(2):233-241.
[2] 李敏,崔樹芹,謝治平.高斯混合模型在印花織物疵點檢測中的應(yīng)用[J].紡織學報,2015,36(8):94-98.
[3] DEOTALE N T, SARODE T K. Fabric defect detection adopting combined GLCM, Gabor wavelet features and random decision forest[J]. 3D Research, 2019, 10(1):5.
[4] JIA L, CHEN C, LIANG J, et al. Fabric defect inspection based on lattice segmentation and Gabor filtering[J]. Neurocomputing, 2017, 238:84-102.
[5] 景軍鋒,劉嬈.基于卷積神經(jīng)網(wǎng)絡(luò)的織物表面缺陷分類方法[J].測控技術(shù),2018,37(09):20-25.
[6] 趙志勇,葉林,桑紅石,等.深度學習在布匹缺陷檢測中的應(yīng)用[J].國外電子測量技術(shù),2019,38(08):110-116.
[7] 史甜甜.基于Fisher準則的深層卷積神經(jīng)網(wǎng)絡(luò)織物疵點檢測[J].計算機系統(tǒng)應(yīng)用,2019,28(03):140-145.
[8] 景軍鋒,范曉婷,李鵬飛,等.應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)的色織物缺陷檢測[J]. 紡織學報,2017,38(02):68-74.
[9] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4):640-651.
[10] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]// NAVAB N. International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015:234-241.
[11] PENG C, ZHANG X, YU G, et al. Large kernel matters—improve semantic segmentation by global convolutional network[C]// IEEE. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, New York: IEEE, 2017:4353-4361.
作者簡介:
宋智勇(1996-),男,碩士生.研究領(lǐng)域:圖像處理.
潘海鵬(1965-),男,碩士,教授.研究領(lǐng)域:工業(yè)控制自動化.