郭士銳,王凱祥,崔陸軍,李曉磊,鄭 博,陳永騫
(中原工學(xué)院 機電學(xué)院,河南 鄭州 450007)
激光熔覆技術(shù)是將高功率密度的激光束的能量,通過非接觸方式使粉末材料加熱并熔化,熔化后的粉末材料快速冷卻與微觀結(jié)構(gòu)的形成,使得表面具有與基體材料本身不同的新性能[1-4]。在激光熔覆過程中,急冷急熱的能量變化過程會對微觀組織的形成產(chǎn)生極大的影響,而最終形成的微觀組織與材料的性能有著緊密的聯(lián)系[5-6]。在熔覆層凝固結(jié)晶時,最常見的是以樹枝狀生長的枝晶,且枝晶不同的形貌參數(shù)與其性能有著一定的對應(yīng)關(guān)系[7]。因此,實現(xiàn)自動識別枝晶形貌,對研究熔覆層性能具有十分重要的價值?;谏鲜霰尘胺治?,本文提出了一種從復(fù)雜的金相圖中識別并分割出枝晶形貌的深度學(xué)習(xí)算法。
近些年,基于深度學(xué)習(xí)的計算機視覺檢測在不同工況均展現(xiàn)了其優(yōu)異的能力[8-10]。特別是用于像素級別分類的語義分割更是在工業(yè)、醫(yī)學(xué)等領(lǐng)域得到了大量的應(yīng)用[11-12]。Li等人利用收發(fā)聲信號技術(shù)監(jiān)測激光熔覆過程,并通過深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)提取特征向量,從而分析熔覆狀態(tài)以及是否存在產(chǎn)生裂紋的跡象[13],該研究表明可以利用深度學(xué)習(xí)技術(shù)分析熔覆層狀態(tài)及微觀形貌。張海軍等人基于遺傳算法、二維最大類間方差提出雙閾值分割法[14],根據(jù)區(qū)域極大值初步確定閾值,并對金相圖像進行分割,分割結(jié)果反饋調(diào)整閾值,實現(xiàn)了對不同金相組織的分割。為本文實現(xiàn)在復(fù)雜背景中分割出枝晶形貌提供了一種新思路。熔覆層金相圖中樹枝晶與不規(guī)則晶、胞狀晶等混雜在一起[15],不利于對樹枝晶形貌進行觀察研究。將樹枝晶形貌識別視為二分類問題,通過語義分割的方法把樹枝晶從復(fù)雜的金相圖中分割出來,便于后續(xù)研究枝晶形貌與熔覆層性能的具體聯(lián)系。
針對復(fù)雜背景的二分類問題,本文對原Unet網(wǎng)絡(luò)加以改進,引入串行放置的通道注意力機制、空間注意力機制和批量標準化(Batch Normalization,BN)層,并部署在下采樣和上采樣過程,建立了BNC-Unet(BN+CBAM-Unet)(convolutional block attention module,CBAM)即枝晶形貌分割網(wǎng)絡(luò)模型。本網(wǎng)絡(luò)模型用于樹枝晶形貌的識別分割,在觀測樹枝晶形貌時排除其他晶粒的干擾,有效地促進了樹枝晶形貌對熔覆層性能影響的研究。
語義分割是深度學(xué)習(xí)三大應(yīng)用之一,其特點是效率和精度高[16-17]。搭建適于識別并分割樣本特征的深度學(xué)習(xí)模型,建立訓(xùn)練集及測試集,用以訓(xùn)練、測試模型,并根據(jù)網(wǎng)絡(luò)反饋優(yōu)化參數(shù),最終可以快速、準確得到分割結(jié)果,節(jié)省大量的時間。本研究以U-net網(wǎng)絡(luò)模型為基礎(chǔ),U-net網(wǎng)絡(luò)本身是為了解決醫(yī)學(xué)影響的細胞分割而提出,便于輔助醫(yī)護人員客觀、準確地分析病理,為做出準確的醫(yī)學(xué)診斷提供支撐數(shù)據(jù)[18]。由于其出色完成了在復(fù)雜背景下分割樣本目標而得到了眾多領(lǐng)域?qū)<业那嗖A[19]。針對樣本背景復(fù)雜問題,在原來的U-net網(wǎng)絡(luò)基礎(chǔ)上,部署串行注意力模型和BN層,并調(diào)整2種模型的部署位置,使得本次改進的BNCUnet模型能更好地勝任樹枝晶形貌分割任務(wù),取得較為滿意的分割結(jié)果。
本次設(shè)計的樹枝晶形貌識別網(wǎng)絡(luò)主要分為2個部分,其結(jié)構(gòu)如圖1所示。一是用于提取特征的下采樣部分,即編碼區(qū);二是得到更加準確特征信息的上采樣部分,即解碼區(qū)。樹枝晶識別網(wǎng)絡(luò)整體架構(gòu)呈現(xiàn)字母U型,接下來依次介紹2個區(qū)域。
圖1 BNC-Unet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of BNC-Unet network
第1部分是模型的編碼部分,用于提取金相特征,該部分的各子過程大體包括了2個卷積層(其中卷積核為3×3)、防止模型過擬合的丟棄層、用于對每層數(shù)據(jù)標準化處理的BN層、elu激活函數(shù)層、最大池化層。在該部分的第一階段引入CBAM,使得提取到的特征更加精準。將3通道128像素×128像素的原始圖像輸入編碼區(qū),經(jīng)過卷積等操作生成4組通道數(shù)與大小不同的特征圖,其通道數(shù)和大小如表1所示。這些特征圖用于與解碼區(qū)中相同通道數(shù)、相同大小的特征圖進行跳躍融合。經(jīng)編碼區(qū)最后一次處理得到256通道8像素×8像素的特征圖,并傳遞至解碼區(qū)。
表1 特征圖指標Table 1 Feature map indexes
第2部分是凝練特征信息的解碼部分,該部分的每個階段大體包括了用于擴大圖像尺寸的ConvTranspose2d逆卷積層(卷積核為2×2、步長為2)、特征融合(解碼區(qū)內(nèi)的特征圖與編碼區(qū)內(nèi)的特征圖通道數(shù)、尺寸大小對應(yīng)相等)、2個卷積層(其中卷積核為3×3)、丟棄層、BN層、elu激活函數(shù)層。在該部分的最后一個階段引入CBAM,細化特征,調(diào)整權(quán)重。由編碼區(qū)傳遞的256通道8像素×8像素的特征圖經(jīng)過上采樣過程,最終生成單通道128像素×128像素的灰度圖像。
串行注意力機制,即將輸入的特征圖先經(jīng)過通道注意力模塊,然后將該模塊的輸出結(jié)果加權(quán)傳遞至空間注意模塊,經(jīng)過這2個模塊的作用,最終將結(jié)果輸出作為下一過程的輸入。這種注意力機制模型在2018年由Woo[20]提出,并對比了單獨使用這2個模塊和空間注意模塊加通道注意力模塊的布局,結(jié)果表明先通道后空間得到的特征信息最為準確,其對目標特征的識別覆蓋最廣。串行注意力模型結(jié)構(gòu)如圖2所示,通道注意力模型與空間注意力模型串行放置,使得提取特征更為準確。
圖2 串行注意力模型結(jié)構(gòu)圖Fig.2 Structure diagram of serial attention model
在通道注意力模型內(nèi),焦點在于通道維度,特征圖的每個通道即為各通道包含的特征。提取通道的池化參數(shù),再經(jīng)過同一個多層感知機(Multilayer Perceptron, MLP),輸出值相加后經(jīng)過歸一化處理得出最終權(quán)重,得到的權(quán)重與特征圖的乘積即為通道注意力模型輸出的加權(quán)特征圖。
在空間注意力模型內(nèi),焦點在于特征圖中每個像素的權(quán)重。與通道注意力模型類似,在空間注意力模型中,提取不同通道的同一平面空間點的池化參數(shù),經(jīng)卷積和歸一化處理得出最終權(quán)重,得到的權(quán)重與空間特征的乘積即為空間注意力模型輸出的加權(quán)特征圖。
特征圖經(jīng)過串行注意力模型后,特征權(quán)重得到進一步調(diào)整處理,有利于提高網(wǎng)絡(luò)對樣本特征學(xué)習(xí)、提取的能力,從而提高網(wǎng)絡(luò)的性能。
網(wǎng)絡(luò)參數(shù)的選擇主要是Batch Size的確定、優(yōu)化器的選取和損失函數(shù)的選取。
1.3.1 Batch Size的確定和優(yōu)化器的選取
Batch Size的大小對網(wǎng)絡(luò)的訓(xùn)練速度和梯度具有一定的影響,其優(yōu)點在于可以有效地防止內(nèi)存爆炸,加速收斂,避免局部最優(yōu)。梯度方差如(1)式所示:
式中:m為Batch Size。因為樣本數(shù)量固定且隨機,所以各樣本方差相同,(1)式可簡化為
由(2)式可以看出,梯度方差與批量大小成反比,一般Batch Size取值范圍在2~32之間[21],本次實驗取Batch Size大小為14,epoch設(shè)置為75。
學(xué)習(xí)率對于神經(jīng)網(wǎng)絡(luò)訓(xùn)練起到非常重要的作用,本次選用Adam優(yōu)化算法。該算法整合了AdaGrad和RMSProp兩種算法的優(yōu)勢[22],與單獨使用這2種算法相比,使用Adam算法收斂最快。該算法屬于自適應(yīng)學(xué)習(xí)率算法,其算法策略如下:
式中:mt為 一階動量項;為修正值;根據(jù)經(jīng)驗設(shè)定β1為0.9。
式中:vt為二階動量項為修正值;根據(jù)經(jīng)驗設(shè)定β2為0.999。
式中:Wt為迭代模型參數(shù);取 ε值為10-8。Adam優(yōu)化器在收斂速度和準確率方面表現(xiàn)優(yōu)秀,故本網(wǎng)絡(luò)模型選擇Adam優(yōu)化器。
1.3.2 損失函數(shù)的選取
本次分割任務(wù)屬于二分類問題,故Loss損失函數(shù)選用二進制交叉熵。由于樹枝晶特征與其背景中其余晶粒特征相差不大,故本次設(shè)計的網(wǎng)絡(luò)模型的輸出層激活函數(shù)選用Sigmoid函數(shù),其函數(shù)原理如(6)式所示:
從(6)式可以看出,該函數(shù)可以把數(shù)值控制在0~1區(qū)間,故能良好地應(yīng)用于二分類問題。
二元交叉熵損失函數(shù)如(7)式所示:
式中:p(yi)是 標簽 yi(0或1)出現(xiàn)的概率; N 為樣本數(shù)。故該文采用binary cross entropy作為損失函數(shù),且搭配Sigmoid使用。
為了檢驗本次設(shè)計的基于語義分割樹枝晶形貌識別網(wǎng)絡(luò)的分割能力,進行了激光熔覆實驗,并采集了訓(xùn)練網(wǎng)絡(luò)所需的樣本。本次的訓(xùn)練集和測試集均是由課題組激光熔覆樣塊在光學(xué)顯微鏡下捕獲所得,光學(xué)顯微鏡型號為DM2700M(leica microsystems,GmbH)。使用型號為LDP6000-60(laserline,GmbH)大功率光纖激光器進行熔覆實驗,將熔覆樣塊進行線切割、鑲塊處理,經(jīng)打磨拋光和王水腐蝕后在光學(xué)顯微鏡下捕獲金相圖像,至此激光熔覆實驗結(jié)束,后續(xù)需要在計算機上進行下一階段實驗。利用Labelme軟件為金相圖制作標簽后,建立金相數(shù)據(jù)集,其中包括420張訓(xùn)練圖像和20張測試圖像,原金相圖和標簽如圖3所示。
圖3 數(shù)據(jù)集Fig.3 Data set
本次研究使用的計算機操作系統(tǒng)為Windows 10,CPU為Intel?Core?i5-10200H,RAM為8.00 GB,GPU為GTX1650Ti。網(wǎng)絡(luò)搭建、運行、調(diào)試選用Tensorflow框架,選擇基于網(wǎng)頁版編譯器Jupyter notebook和Python語言編譯開發(fā),該編譯器可以直接在網(wǎng)頁上調(diào)試代碼,程序結(jié)果直接在網(wǎng)頁中顯示,便于直接觀察。為了防止網(wǎng)絡(luò)模型訓(xùn)練時出現(xiàn)過擬合現(xiàn)象,本設(shè)計引入用于提前終止訓(xùn)練的Early Stopping命令,并設(shè)置耐心值為20步,即訓(xùn)練過程中Loss值出現(xiàn)連續(xù)20步無下降現(xiàn)象,模型訓(xùn)練停止。
實驗結(jié)果的評價指標選用交并比(intersection over union,IoU),其表達了網(wǎng)絡(luò)分割像素與標簽像素總數(shù)上的比值。通常以混淆矩陣作為基礎(chǔ),再計算評價指標數(shù)值?;煜仃嚾鐖D4所示,A為真實值,B為預(yù)測值。預(yù)測與標記相同為True;相反為False。預(yù)測值為樹枝晶像素記Positive;反之為Negative。
圖4 混淆矩陣示意圖Fig.4 Schematic diagram of confusion matrix
IoU計算方式為
本網(wǎng)絡(luò)共訓(xùn)練了378張圖片,驗證了42張圖片,并做了3組對比試驗,其結(jié)果如表2所示。設(shè)定相同參數(shù),對比了Unet、BN-Unet、CBAM-Unet、BNC-Unet輸出結(jié)果如圖5所示。從表2可以看出本次針對樹枝晶特征設(shè)計的BNC-Unet模型結(jié)果最好,其IoU值為84.20%,比原Unet模型結(jié)果提高了8.97%。從圖5中的分割結(jié)果看,BNC-Unet自動分割的樹枝晶結(jié)果最為精確。
圖5 各網(wǎng)絡(luò)輸出對比圖Fig.5 Comparison graphics of each network output
表2 不同改進方式的網(wǎng)絡(luò)結(jié)果Loss、IoU對比Table 2 Comparison of Loss and IoU network results of different improved methods
本實驗基于U-net網(wǎng)絡(luò)引入注意力模型和BN層,搭建了針對分割樹枝晶的BNC-Unet網(wǎng)絡(luò),建立了用于訓(xùn)練網(wǎng)絡(luò)和測試網(wǎng)絡(luò)的數(shù)據(jù)集,將交并比IoU作為本次網(wǎng)絡(luò)的評價指標,并對比了原Unet網(wǎng)絡(luò)、BN-Unet網(wǎng)絡(luò)、CBAM-Unet網(wǎng)絡(luò)的分割結(jié)果。其對比結(jié)果表明BNC-Unet網(wǎng)絡(luò)能夠較為準確自動標記樹枝晶形貌,BNC-Unet網(wǎng)絡(luò)分割準確率為84.2%,比原Unet網(wǎng)絡(luò)結(jié)果提高了8.97%。注意力機制在淺層和深層對稱部署一次可以在實現(xiàn)較好的特征提取結(jié)果的基礎(chǔ)上而不增加網(wǎng)絡(luò)訓(xùn)練時間,實現(xiàn)自動標記樹枝晶形貌,便于在進行激光熔覆試驗后,為自動分析熔覆層性能提供參考。