曹正遠(yuǎn), 蔣偉, 方成輝
(1. 國(guó)家能源集團(tuán)神東煤炭集團(tuán)有限責(zé)任公司 智能技術(shù)中心,陜西 神木 719300;2. 天地(常州)自動(dòng)化股份有限公司,江蘇 常州 213015;3. 中國(guó)礦業(yè)大學(xué) 體育學(xué)院,江蘇 徐州 221116)
由于煤炭開(kāi)采環(huán)境復(fù)雜,在煤炭傳輸過(guò)程中?;烊氘愇?,如錨桿、鐵絲網(wǎng)、大塊矸石等。若帶式輸送機(jī)上異物清理不及時(shí),可能造成輸送帶轉(zhuǎn)接處阻塞,嚴(yán)重時(shí)會(huì)發(fā)生輸送帶劃傷或撕裂等安全事故[1-2]。目前在原煤運(yùn)輸過(guò)程中常采用人眼觀測(cè)的方式檢測(cè)異物,耗時(shí)耗力且安全風(fēng)險(xiǎn)大。因此,研發(fā)一種實(shí)時(shí)的煤流異物自動(dòng)檢測(cè)方法對(duì)于保證煤礦安全生產(chǎn)、降低人工成本、提高煤炭開(kāi)采和運(yùn)輸效率具有重要意義。
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,一系列基于圖像處理的異物檢測(cè)算法相繼被提出[3-5]。此類算法大致可分為基于監(jiān)督學(xué)習(xí)和基于半監(jiān)督學(xué)習(xí)的算法2 種。傳統(tǒng)機(jī)器學(xué)習(xí)為監(jiān)督學(xué)習(xí),基于傳統(tǒng)機(jī)器學(xué)習(xí)的目標(biāo)檢測(cè)方法模型簡(jiǎn)單、效率高,但誤判率高、泛化性差[6-7]。隨著深度學(xué)習(xí)的發(fā)展,部分學(xué)者將其用于輸送帶異物檢測(cè)。例如,郝帥等[8]提出了基于CBAMYOLOV5 的煤礦輸送帶大塊異物檢測(cè)方法?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)大多屬于監(jiān)督學(xué)習(xí)方法,需要大量數(shù)據(jù)指導(dǎo)模型訓(xùn)練。然而,煤礦帶式輸送機(jī)運(yùn)輸現(xiàn)場(chǎng)異常樣本較少,難以滿足深度學(xué)習(xí)對(duì)建模數(shù)據(jù)的需求。
半監(jiān)督學(xué)習(xí)是介于監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間的一種學(xué)習(xí)方式[9]。針對(duì)異物檢測(cè),部分學(xué)者提出一種基于正常樣本訓(xùn)練的半監(jiān)督學(xué)習(xí)方式,即訓(xùn)練集中僅包含正常樣本,測(cè)試集中包含異常樣本和正常樣本。該方式通過(guò)學(xué)習(xí)正常樣本的特征分布實(shí)現(xiàn)異常檢測(cè)。例如,T. Schlegl 等[10]提出了運(yùn)用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)完成異常檢測(cè)的AnoGAN 算法,用深度卷積生成對(duì)抗網(wǎng)絡(luò)(Deep Convolutional Generative Adversarial Networks,DCGAN)在訓(xùn)練集中學(xué)習(xí)正常樣本的數(shù)據(jù)分布,該算法需要反復(fù)進(jìn)行迭代優(yōu)化,效率較低。S. Akcay 等[11]提出了基于GAN 的異常檢測(cè)算法GANomaly,利用編碼器-解碼器結(jié)構(gòu)學(xué)習(xí)正常樣本的分布,在比對(duì)輸入圖像及生成圖像之間差別的同時(shí),結(jié)合2 次編碼得到潛在空間差距。但該算法未考慮解碼器和編碼器的信息損失,精度較低。在此基礎(chǔ)上,S. Akcay 等[12]進(jìn)一步提出了Skip-GANomaly 算法,通過(guò)借鑒U-Net模型[13]中的跳躍連接方式,將編碼器的特征與解碼器同維度的特征進(jìn)行拼接,進(jìn)一步減少了編碼-解碼過(guò)程中的信息損失。該方法在CIFAR10 和UBA 等常規(guī)圖像數(shù)據(jù)集上表現(xiàn)出優(yōu)異性能。
然而,在實(shí)際輸煤現(xiàn)場(chǎng),包含大塊矸石、錨桿、鐵絲網(wǎng)等異物的煤流圖像與正常煤流圖像之間的差異較小[14-15]。若僅對(duì)編碼器和解碼器的中間特征做簡(jiǎn)單的拼接處理,一些能顯著區(qū)分正常樣本與異常樣本的特征可能會(huì)丟失,同時(shí)在拼接過(guò)程中容易造成輸入信號(hào)的誤差傳遞。人腦在處理視覺(jué)信號(hào)時(shí),往往通過(guò)掃描全局圖像獲取需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,并在該區(qū)域投入更多注意力。計(jì)算機(jī)視覺(jué)中的注意力機(jī)制通過(guò)對(duì)不同特征賦予不同的注意力權(quán)重,可從眾多信息中提取與當(dāng)前任務(wù)相關(guān)的信息[16-17]。針對(duì)真實(shí)工礦場(chǎng)景下樣本極不平衡且顯著特征易丟失的問(wèn)題,本文提出一種基于雙注意力生成對(duì)抗網(wǎng)絡(luò)(Dual-Attention Skip-GANomaly, DA-GANomaly)的煤流異物智能檢測(cè)方法。該方法在模型訓(xùn)練階段僅需利用正常煤流圖像,有效解決了樣本不平衡問(wèn)題;在編碼器與解碼器特征傳遞的過(guò)程中引入雙注意力機(jī)制,以抑制無(wú)關(guān)特征和噪聲,同時(shí)增強(qiáng)區(qū)分異常樣本的顯著特征表達(dá),進(jìn)一步提高模型分類的準(zhǔn)確性。
DA-GANomaly 模型主要包括用于生成虛擬圖像的生成器和用于判別虛擬圖像的判別器。訓(xùn)練數(shù)據(jù)集僅包含正常煤流圖像。輸入圖像在反復(fù)對(duì)抗訓(xùn)練過(guò)程中不斷減少重構(gòu)圖像x′與輸入圖像之間的誤差,使得生成器盡可能擬合正常煤流圖像的特征分布。經(jīng)充分對(duì)抗訓(xùn)練后,生成器能夠重建更加符合真實(shí)樣本特征分布的虛擬圖像。
在模型測(cè)試階段,測(cè)試集包含正常煤流圖像與異常煤流圖像。對(duì)于已經(jīng)訓(xùn)練完成的模型,當(dāng)輸入正常煤流圖像時(shí),生成器輸出的重建圖像與輸入樣本之間差距較??;當(dāng)輸入異常煤流圖像時(shí),生成器的輸出x′與輸入圖像相差較大。通過(guò)選取合適的差異表征函數(shù)及合適的閾值即可有效區(qū)分正常樣本與異常樣本?;贒A-GANomaly 的煤流異物智能檢測(cè)模型如圖1 所示。
生成器模塊主要包含3 個(gè)子模塊:編碼器M1—M6、解碼器N1—N6及基于雙注意力的特征連接模塊。其中,編碼器M1—M6用于提取輸入的圖像特征,包括6 層,每層包含激活函數(shù)、卷積層、批量標(biāo)準(zhǔn)化層,通過(guò)調(diào)整卷積核尺寸與步長(zhǎng)進(jìn)行下采樣操作。生成器網(wǎng)絡(luò)參數(shù)見(jiàn)表1。
表1 生成器網(wǎng)絡(luò)參數(shù)Table 1 Generator network parameters
編碼器輸入x的尺寸為64×64,維度為3,每層的卷積核尺寸為4×4,步長(zhǎng)為2。編碼器模型采用LeakyReLU 激活函數(shù),其輸出特征維度依次為64,128,256,512,512,512,通過(guò)每層卷積后,特征圖尺寸變?yōu)樵瓉?lái)尺寸的1/2,經(jīng)過(guò)6 層卷積后得到最終的特征尺寸為1×1,維度為512。解碼器主要包含6 層,每層包含激活函數(shù)、反卷積層和批量標(biāo)準(zhǔn)化層。解碼器模型采用ReLU 激活函數(shù),反卷積層卷積核尺寸為4×4,步長(zhǎng)為2,其輸出特征維度依次為512,512,256,128,64,3。通過(guò)每層反卷積后,特征圖尺寸為原來(lái)的2 倍,經(jīng)過(guò)6 層反卷積后,得到生成器的輸出x′,其尺寸為64×64,維度為3。同時(shí),為了加強(qiáng)模型的特征提取能力,充分利用編碼器及解碼器中的信息,提高感興趣區(qū)域的權(quán)重,抑制無(wú)關(guān)區(qū)域,本文引入了雙注意力機(jī)制,以融合編碼器和解碼器的信息。
相關(guān)研究表明,經(jīng)過(guò)多次卷積處理后,高層特征具有更多語(yǔ)義信息,而低層特征則具有更多空間結(jié)構(gòu)信息[18]。因此,本文采用一種雙注意力機(jī)制:對(duì)高層解碼信息,通過(guò)維度注意力提取更多語(yǔ)義信息;對(duì)低層編碼信息,通過(guò)空間注意力提取更多空間形態(tài)信息;再將經(jīng)過(guò)2 種注意力機(jī)制處理后的特征圖相加,得到最終的特征圖。雙注意力機(jī)制如圖2 所示。
圖2 雙注意力機(jī)制Fig. 2 Dual attention mechanism
首先,利用空間注意力機(jī)制對(duì)低層特征進(jìn)行處理。假設(shè)特征圖為xl∈(h,w,c),h,w,c分別為特征圖的高、寬和通道數(shù),經(jīng)過(guò)3 個(gè)1×1 卷積后得到特征向量B,C,D。其次,對(duì)特征向量進(jìn)行維度變換,使得B,C,D∈(h×w,c)。然后,將特征向量B,C輸入到Softmax 激活函數(shù)中,得到注意力特征圖A。
式中:Aji為A中第i個(gè)通道與第j個(gè)通道之間的注意力影響,i,j=1, 2, ···,N,i≠j;Bi為特征向量B中的第i個(gè)通道值;Cj為特征向量C中的第j個(gè)通道值;N為A的通道數(shù)。
最后,用注意力特征圖乘以特征向量Di并加上低層特征向量xlj,作為空間注意力機(jī)制輸出T。
式中Tj為T中第j個(gè)通道的特征向量。
利用維度注意力模塊對(duì)高層特征進(jìn)行處理。與空間注意力機(jī)制不同,本文直接利用高層特征得到維度注意力。假設(shè)特征圖xh∈(h,w,c),先對(duì)特征向量進(jìn)行維度變換,使得xh∈(h×w,c),接著通過(guò)Softmax函數(shù)計(jì)算注意力特征圖S。
式中Sji為xh中第i個(gè)通道xhi與第j個(gè)通道xhj之間的注意力影響,Sji∈S。
用S乘以特征向量xhi,得到最終的輸出O。
式中Oj為O中第j個(gè)通道的特征向量。
將維度注意力機(jī)制輸出O及空間注意力機(jī)制輸出T相加,得到最后的輸出X:
判別器旨在判斷圖像是真實(shí)圖像還是重建圖像。本文采用類似編碼器的模型結(jié)構(gòu)作為判別器,其網(wǎng)絡(luò)參數(shù)見(jiàn)表2。判別器主要包括6 層卷積Q1—Q6及1 層全連接,每層卷積核尺寸為4×4,步長(zhǎng)為2,輸出維度依次為64,128,256,512,512,100。通過(guò)6 層卷積后特征圖尺寸調(diào)整為1×1×100,然后輸入到全連接分類器中得到最終的判斷類別。
表2 判別器網(wǎng)絡(luò)參數(shù)Table 2 Discriminator network parameters
本文采用與Skip-GANomaly 相同的損失函數(shù),主要包括對(duì)抗損失Ladv、語(yǔ)義損失Lcon及潛在變量損失Llat。對(duì)抗損失用于在訓(xùn)練過(guò)程中提升判別器判別圖像是否為虛擬圖像的能力,計(jì)算公式為
式中:Ex~p(x)為訓(xùn)練樣本的預(yù)計(jì)期望值,p(x)為樣本x的分布;U(x)為判別器輸出。
語(yǔ)義損失用于約束重構(gòu)圖像與輸入圖像之間的誤差,計(jì)算公式為
式中||·||1為L(zhǎng)1 范數(shù)。
在上述損失函數(shù)基礎(chǔ)上添加一個(gè)額外損失,用于約束潛在變量的損失。為了最小化重建圖像x′與輸入圖像之間的距離,選取判別器最后一個(gè)卷積層的輸出作為潛在變量損失,計(jì)算公式為
式中:f(·)為判別器最后一層卷積操作;||·||2為L(zhǎng)2范數(shù)。
整體損失函數(shù)為
式中 λ為潛在變量損失的權(quán)重系數(shù),本文設(shè)置為10。
用異常分?jǐn)?shù)ya作為評(píng)價(jià)圖像中是否含有異物的標(biāo)準(zhǔn),分?jǐn)?shù)越高,表示包含異物的可能性越大。其計(jì)算公式為
式中 λ1為語(yǔ)義損失的權(quán)重系數(shù),本文設(shè)置為0.5。
對(duì)于已訓(xùn)練完成的模型權(quán)重,包含異物的煤流圖像對(duì)應(yīng)的異常分?jǐn)?shù)與正常煤流圖像對(duì)應(yīng)的異常分?jǐn)?shù)差別較大,通過(guò)選取合適的閾值即可實(shí)現(xiàn)對(duì)正常樣本和異常樣本的分類。
為獲得輸送帶煤流異物檢測(cè)數(shù)據(jù)集,在山東某礦區(qū)部署煤流圖像采集設(shè)備,使用高速夜視相機(jī)作為采集攝像頭,以60°俯視角度安裝固定于輸送帶上方,采集到的圖像數(shù)據(jù)通過(guò)網(wǎng)絡(luò)上傳到數(shù)據(jù)處理中心。部分異常樣本如圖3 所示,包括大塊矸石、橡膠帶、木塊等。不同異物形狀、大小存在較大差異,且部分異物被煤流遮擋,因此,當(dāng)采用統(tǒng)一的特征提取算法時(shí),區(qū)分難度較大。
圖3 部分異常樣本Fig. 3 Partial abnormal samples
截取煤礦井下時(shí)長(zhǎng)為150 h 的視頻,選取不同時(shí)刻的煤流圖像14 707 張,經(jīng)過(guò)人為標(biāo)定,數(shù)據(jù)中包含107 張含有異物的圖像及14 600 張正常圖像。選取正常煤流圖像作為訓(xùn)練集,107 張包含異物的異常煤流圖像和600 張正常煤流圖像作為測(cè)試集。數(shù)據(jù)集劃分見(jiàn)表3。
表3 數(shù)據(jù)集劃分Table 3 Dataset partitioning
由于實(shí)驗(yàn)數(shù)據(jù)中正負(fù)樣本不平衡,相較于接收者操作特征(Receiver Operating Characteristic,ROC)曲線,精確率-召回率曲線下面積(Area Under the Precision Recall Curve,AUPRC)更具有代表性。因此,本文選取AUPRC、召回率R和精確率P作為評(píng)價(jià)標(biāo)準(zhǔn)[19]。召回率和精確率計(jì)算公式為
式中:TP為真正例,即異物煤流圖像被預(yù)測(cè)正確的數(shù)量;FN為假反例,即正常煤流圖像被預(yù)測(cè)成異常煤流圖像的數(shù)量;FP為假正例,即異物煤流圖像被預(yù)測(cè)成正常煤流的數(shù)量。
本文實(shí)驗(yàn)平臺(tái)為NVIDIA-2080TI 顯卡,采用Pytorch 深度學(xué)習(xí)框架和Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為10-4,Batch-Size 大小為64。
為驗(yàn)證本文DA-GANomaly 模型的有效性,選取5 種常見(jiàn)的基于深度學(xué)習(xí)的異物檢測(cè)模型進(jìn)行比較, 包括AnoGAN、 EGBAD(Efficient GAN-based Anomaly Detection)[20]、 GANomaly[11]、 ALAD(Adversarially Learned Anomaly Detection)[21]和Skip-GANomaly[12]。實(shí)驗(yàn)結(jié)果見(jiàn)表4,可見(jiàn)本文DA-GANomaly 模型的精確率、召回率及AUPRC 分別為79.5%,83.2%和85.1%,均優(yōu)于其他模型。相較于次優(yōu)的Skip-GANomaly 模型,DA-GANomaly 模型的AUPRC 提升了3%,精確率提升了24.1%,召回率提升了3.8%。
表4 不同模型實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of experimental results of different models
6 種模型的精確率-召回率曲線(Precision Recall Curve,PRC)如圖4 所示??煽闯?,相較于其他模型,本文所提DA-GANomaly 模型的AUPRC 最大,綜合性能表現(xiàn)最優(yōu)異。
圖4 6 種模型的PRCFig. 4 Precision recall curves of 6 models
測(cè)試數(shù)據(jù)集中樣本的異常分?jǐn)?shù)分布直方圖如圖5所示,包含異物的煤流圖像對(duì)應(yīng)的異常分?jǐn)?shù)明顯高于正常樣本,兩者分布具有明顯差異,表明本文提出的模型能夠區(qū)分正常煤流圖像和包含異物的異常煤流圖像。
圖5 DA-GANomaly 模型的異常分?jǐn)?shù)分布直方圖Fig. 5 Histogram of abnormal fraction distribution of DA-GANomaly model
為進(jìn)一步驗(yàn)證本文模型的有效性,對(duì)另外的4.5 h煤礦現(xiàn)場(chǎng)視頻進(jìn)行識(shí)別,結(jié)果如圖6 所示。
圖6 異物識(shí)別結(jié)果Fig. 6 Foreign object recognition results
人工篩選共發(fā)現(xiàn)4 個(gè)不同異物,如圖6(a)所示。采用表4 中綜合表現(xiàn)較好的ALAD、Skip-GANomaly 和本文模型進(jìn)行異物識(shí)別,結(jié)果分別如圖6(b)-圖6(d)所示,其中標(biāo)注Y 的圖像為識(shí)別出的異常煤流圖像。本文模型檢測(cè)出3 例異物,而其他模型最多檢出2 例。觀察發(fā)現(xiàn),上述模型均未檢測(cè)出圖6 中的第4 張異常煤流圖像。該煤流表面異物與煤流背景高度相似,區(qū)分難度大。而針對(duì)第1 張樣本圖像,僅本文模型識(shí)別出了異物。相較于其他模型,本文模型通過(guò)引入雙注意力機(jī)制,進(jìn)一步突出了異常煤流圖像的特征,從而有效提升了異物檢測(cè)精度。
為了驗(yàn)證本文模型的實(shí)時(shí)性,對(duì)模型的計(jì)算時(shí)間進(jìn)行了測(cè)試,結(jié)果見(jiàn)表5??煽闯霰疚哪P偷膯螏?jì)算時(shí)間為7.2 ms,每秒可處理138 幀圖像,滿足在線檢測(cè)的實(shí)時(shí)性要求。測(cè)試結(jié)果驗(yàn)證了本文模型應(yīng)用于煤流異物實(shí)時(shí)檢測(cè)的可行性,然而,目前該模型還未在實(shí)際煤礦系統(tǒng)中進(jìn)行部署,下一步將考慮進(jìn)行這方面的工作。
表5 模型實(shí)時(shí)性測(cè)試結(jié)果Table 5 Real time test results of the model
提出了一種基于DA-GANomaly 的煤流異物智能檢測(cè)方法。為克服實(shí)際生產(chǎn)過(guò)程中煤流異常樣本稀缺導(dǎo)致的樣本不平衡問(wèn)題,采用半監(jiān)督學(xué)習(xí)的方式,通過(guò)正常樣本完成異物檢測(cè)模型的訓(xùn)練。針對(duì)開(kāi)采環(huán)境光線條件惡劣的情況,在生成器中引入雙注意力機(jī)制,突出有利于區(qū)分異常樣本的感興趣特征。實(shí)驗(yàn)結(jié)果表明,與5 種經(jīng)典異常檢測(cè)模型相比,DA-GANomaly 模型的綜合性能最佳。需要說(shuō)明的是,基于圖像的異物檢測(cè)方法受限于視覺(jué)傳感器的感知范圍,目前僅適用于煤流表面異物的智能檢測(cè),對(duì)于埋在煤流下的異物尚缺乏感知能力。