盧才武 宋義良 江 松,3 章 賽 王 懋 紀(jì) 凡
(1.西安建筑科技大學(xué)資源工程學(xué)院,陜西 西安 710055;2.西安市智慧工業(yè)感知、計(jì)算與決策重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710055;3.西安優(yōu)邁智慧礦山研究院有限公司,陜西 西安 710055;4.陜西財(cái)經(jīng)職業(yè)技術(shù)學(xué)院大數(shù)據(jù)與人工智能學(xué)院,陜西 咸陽(yáng) 712000)
實(shí)現(xiàn)綜采工作面的“無(wú)人化”開(kāi)采是煤礦智能化建設(shè)的重要內(nèi)容之一,采煤機(jī)作為綜采工作面的核心設(shè)備,其智能化程度對(duì)于實(shí)現(xiàn)綜采面“無(wú)人化”起著決定性作用[1]。 采煤機(jī)通過(guò)自動(dòng)判別煤巖分布情況獲取煤巖分界線,實(shí)現(xiàn)智能調(diào)節(jié)截割軌跡并代替人工操作,因此對(duì)綜采面煤巖分布的自動(dòng)判別技術(shù)是實(shí)現(xiàn)采煤機(jī)智能化作業(yè)的關(guān)鍵技術(shù)之一[2-5]。 目前,采用機(jī)器視覺(jué)方法進(jìn)行煤巖界面識(shí)別的研究主要通過(guò)目標(biāo)檢測(cè)或語(yǔ)義分割技術(shù)對(duì)煤巖圖像中的煤層和巖層進(jìn)行自動(dòng)化識(shí)別。 這些技術(shù)的研究主要基于深度學(xué)習(xí)方法,需要使用大量樣本數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)模型。 在機(jī)器視覺(jué)技術(shù)應(yīng)用于煤巖界面識(shí)別的研究中,缺乏大量已標(biāo)注的煤巖圖像數(shù)據(jù),從而限制了深度學(xué)習(xí)網(wǎng)絡(luò)模型的訓(xùn)練效果。 因此,解決煤巖圖像數(shù)據(jù)不足的問(wèn)題成為當(dāng)前研究的關(guān)鍵[6-8]。
近年來(lái),隨著煤礦智能化的不斷發(fā)展,國(guó)內(nèi)外已有學(xué)者對(duì)基于機(jī)器視覺(jué)技術(shù)的煤巖界面識(shí)別方法進(jìn)行研究。 楊瀟等[9]針對(duì)煤礦獲取的圖像缺乏標(biāo)注信息等問(wèn)題,提出了一種雙對(duì)齊網(wǎng)絡(luò)模型,該模型分別從特征級(jí)和像素級(jí)對(duì)圖像進(jìn)行處理,可以有效降低煤礦監(jiān)控圖像受到紋理、光照等復(fù)雜環(huán)境的影響,提升煤礦監(jiān)控圖像的語(yǔ)義分割效果。 張斌等[10]將目標(biāo)檢測(cè)算法YOLOv2 與線性成像模型相結(jié)合進(jìn)行煤巖識(shí)別與定位,設(shè)定實(shí)際坐標(biāo)與計(jì)算坐標(biāo)進(jìn)行對(duì)比分析,反映出該方法可以快速準(zhǔn)確地識(shí)別煤巖。 孫濤等[11]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和煤巖智能語(yǔ)義分割混合的煤巖識(shí)別系統(tǒng),構(gòu)建了用于煤巖圖像識(shí)別的CA-Poly-DeepLab v3+網(wǎng)絡(luò)模型,通過(guò)進(jìn)行數(shù)據(jù)增強(qiáng)等處理可以取得較理想的煤巖界面圖像語(yǔ)義分割效果。 DONG 等[12]通過(guò)改進(jìn)邊緣檢測(cè)Canny 算法進(jìn)行煤巖界面圖像邊緣特征提取,據(jù)此進(jìn)行煤層和巖層分界線識(shí)別。 伍云霞等[13]通過(guò)使用字典學(xué)習(xí)和最大池化稀疏編碼技術(shù)對(duì)煤巖圖像特征信息進(jìn)行提取,并進(jìn)行了煤巖界面識(shí)別。 司壘等[14]提出一種基于改進(jìn)的U-Net 網(wǎng)絡(luò)模型進(jìn)行煤巖界面識(shí)別,并通過(guò)井下現(xiàn)場(chǎng)試驗(yàn)驗(yàn)證了其可行性。 孫繼平等[15]提出了一種二進(jìn)制十字對(duì)角紋理矩陣對(duì)煤巖圖像的紋理特征進(jìn)行提取和分析,并通過(guò)煤層與巖層的不同紋理特征識(shí)別了煤巖界面。 孫傳猛等[16]提出了一種融合改進(jìn)YOLOv3 與三次樣條插值的煤巖界面識(shí)別方法,通過(guò)使用深度可分離卷積運(yùn)算對(duì)原算法進(jìn)行改進(jìn),有效提升了煤巖界面的識(shí)別精度和效率。 閆志蕊等[17]提出了一種基于改進(jìn)DeepLabv3+和遷移學(xué)習(xí)的煤巖界面圖像識(shí)別方法,并對(duì)實(shí)際煤巖圖像進(jìn)行試驗(yàn),驗(yàn)證了改進(jìn)模型的有效性。 上述研究表明:機(jī)器視覺(jué)技術(shù)在煤巖界面識(shí)別方面的研究取得了一定的進(jìn)展,但目前尚未出現(xiàn)公開(kāi)的煤巖圖像數(shù)據(jù)集,此外由于煤礦實(shí)際場(chǎng)景較為復(fù)雜,難以采集較高質(zhì)量的煤巖界面圖像,并且獲取圖像后需要耗費(fèi)大量人力對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,因而可用于機(jī)器視覺(jué)算法訓(xùn)練的數(shù)據(jù)集較少。 基于深度學(xué)習(xí)的機(jī)器視覺(jué)算法往往是通過(guò)大量已標(biāo)注的圖像數(shù)據(jù)進(jìn)行訓(xùn)練,可用的煤巖圖像數(shù)據(jù)較少導(dǎo)致該類(lèi)算法在煤巖界面識(shí)別方面的研究與應(yīng)用受到一定的影響。
本研究通過(guò)對(duì)U-net 網(wǎng)絡(luò)進(jìn)行改進(jìn),并使用遷移學(xué)習(xí)方法訓(xùn)練模型,實(shí)現(xiàn)在使用煤巖圖像數(shù)量較少的小樣本數(shù)據(jù)集進(jìn)行訓(xùn)練的情況下,提升煤巖界面檢測(cè)精度。 研究反映出,通過(guò)少樣本數(shù)據(jù)集訓(xùn)練能有效解決煤巖圖像語(yǔ)義分割中存在的數(shù)據(jù)不足問(wèn)題,有助于推動(dòng)機(jī)器視覺(jué)技術(shù)在煤巖界面識(shí)別方面的應(yīng)用。
U-net 網(wǎng)絡(luò)模型結(jié)構(gòu)呈“U”形,由編碼器和解碼器兩部分組成[18],其模型結(jié)構(gòu)如圖1 所示。 編碼器部分經(jīng)過(guò)多次卷積操作和池化操作對(duì)輸入的圖像進(jìn)行特征提取,多個(gè)卷積層和池化層可以更有效地提取豐富的語(yǔ)義信息,同時(shí)將數(shù)據(jù)空間逐漸縮小[19]。 解碼器由多個(gè)卷積層和上采樣層構(gòu)成,將編碼器部分提取的特征映射還原到原始分辨率,并生成分割結(jié)果。在編碼器和解碼器之間建立跳躍連接,用于將編碼器部分的高層次、語(yǔ)義豐富的特征傳遞到解碼器中,以幫助解碼器對(duì)前面網(wǎng)絡(luò)丟失的部分信息進(jìn)行一定的補(bǔ)充,從而使得分割結(jié)果更精確[20]。
圖1 U-net 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Structure of U-net network model
針對(duì)現(xiàn)有的機(jī)器視覺(jué)算法在網(wǎng)絡(luò)模型訓(xùn)練時(shí)受到圖像數(shù)據(jù)數(shù)量限制的問(wèn)題,本研究對(duì)經(jīng)典的語(yǔ)義分割模型U-net 網(wǎng)絡(luò)進(jìn)行改進(jìn)。 U-net 模型因其出色的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)使其在小樣本數(shù)據(jù)集的語(yǔ)義分割中表現(xiàn)優(yōu)異,但針對(duì)不同的數(shù)據(jù)集和應(yīng)用場(chǎng)景,模型實(shí)際性能可能存在一定的差異。 因此,對(duì)于具體的煤巖界面圖像,要取得理想的分割效果,有必要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行有針對(duì)性的調(diào)整和優(yōu)化。
本研究改進(jìn)的U-net 模型網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。在U-net 網(wǎng)絡(luò)結(jié)構(gòu)的編碼器部分,將U-net 的骨干網(wǎng)絡(luò)替換為裁剪后的VGG16 特征提取網(wǎng)絡(luò),裁剪后的VGG16 共有5 個(gè)塊結(jié)構(gòu),主要由卷積核為3×3 的卷積層(Conv-3)、Relu 函數(shù)和最大池化層(Maxpool)組合而成。 改進(jìn)后的模型增加了網(wǎng)絡(luò)深度,同時(shí)減少了參數(shù)量,對(duì)骨干網(wǎng)絡(luò)的替換提高了模型的特征提取能力,降低了由小樣本訓(xùn)練引起的過(guò)擬合風(fēng)險(xiǎn)。 另外,在解碼器部分引入兩類(lèi)注意力機(jī)制模塊,在跳躍連接層添加了注意門(mén)機(jī)制(Attention Gate)并在解碼器部分的上采樣模塊中添加了卷積塊注意力模塊(CBAM)來(lái)提高模型對(duì)關(guān)鍵信息的感知能力,降低圖像中噪聲或無(wú)關(guān)信息對(duì)模型的干擾。
圖2 改進(jìn)U-net 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.2 Structure of improved U-net network model
采煤機(jī)智能化作業(yè)的實(shí)際應(yīng)用場(chǎng)景需要對(duì)煤巖分布狀況進(jìn)行精確快速的自動(dòng)識(shí)別。 因此,本研究改進(jìn)模型在使用小樣本煤巖界面圖像數(shù)據(jù)集進(jìn)行模型訓(xùn)練時(shí),要求具有較強(qiáng)的特征提取能力,即需從有限的圖像數(shù)據(jù)中提取盡可能多的煤巖特征信息[21]。 同時(shí),為達(dá)到快速識(shí)別,本研究盡可能減少模型參數(shù)量,參數(shù)量較小的模型在進(jìn)行訓(xùn)練和預(yù)測(cè)時(shí)不僅可以減少所需的計(jì)算資源,還有助于降低過(guò)擬合風(fēng)險(xiǎn),更易于訓(xùn)練和部署。 本研究對(duì)經(jīng)典U-net 網(wǎng)絡(luò)結(jié)構(gòu)的主干網(wǎng)絡(luò)部分進(jìn)行改進(jìn),使用裁剪后輕量化的VGG16特征提取網(wǎng)絡(luò)替換經(jīng)典U-net 網(wǎng)絡(luò)編碼器部分的主干特征提取網(wǎng)絡(luò)[22]。 本研究所使用的VGG16 特征提取網(wǎng)絡(luò)參數(shù)如圖3 所示,圖像以512×512×3 大小輸入,圖中“Conv-3”表示卷積網(wǎng)絡(luò)層,該網(wǎng)絡(luò)中的卷積層全部為3×3 的卷積核,“MaxPool”代表池化網(wǎng)絡(luò)層。
圖3 VGG16 特征提取網(wǎng)絡(luò)參數(shù)Fig.3 Parameters of VGG16 feature extraction network
在模型訓(xùn)練時(shí),樣本數(shù)據(jù)集太小會(huì)使模型出現(xiàn)過(guò)擬合問(wèn)題。 因此,本研究采用遷移學(xué)習(xí)方法,將模型在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,有效提高了模型的泛化能力,可以更好地適應(yīng)新的煤巖圖像數(shù)據(jù)集,避免出現(xiàn)過(guò)擬合現(xiàn)象。 同時(shí),使用預(yù)訓(xùn)練模型的便利在于可以采用已經(jīng)學(xué)到的特征和知識(shí)加速訓(xùn)練過(guò)程,提高模型性能和運(yùn)行效率[23]。
本研究遷移學(xué)習(xí)訓(xùn)練流程如圖4 所示。 具體步驟為:① 在Pascal VOC 2007 數(shù)據(jù)集上對(duì)VGG16 模型進(jìn)行預(yù)訓(xùn)練,獲得預(yù)訓(xùn)練參數(shù),再根據(jù)預(yù)訓(xùn)練權(quán)重對(duì)煤巖界面圖像數(shù)據(jù)集的特征進(jìn)行微調(diào),以更好地適應(yīng)煤巖識(shí)別任務(wù);② 凍結(jié)U-net 網(wǎng)絡(luò)模型的骨干網(wǎng)絡(luò)部分,使用煤巖界面數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,監(jiān)控模型性能并根據(jù)需要微調(diào)模型以適應(yīng)煤巖圖像的數(shù)據(jù)分布特征;③ 解凍模型的骨干網(wǎng)絡(luò)部分,再次使用煤巖界面數(shù)據(jù)集進(jìn)行訓(xùn)練,選擇預(yù)測(cè)結(jié)果最佳的模型進(jìn)行保存,完成預(yù)訓(xùn)練之后獲取權(quán)值文件,再使用改進(jìn)的U-net 模型對(duì)煤巖界面數(shù)據(jù)集進(jìn)行訓(xùn)練,導(dǎo)入預(yù)訓(xùn)練權(quán)重文件完成知識(shí)遷移。
圖4 遷移學(xué)習(xí)訓(xùn)練流程Fig.4 Training process of transfer learning
注意力機(jī)制的加入可以更加準(zhǔn)確地定位感興趣的目標(biāo)區(qū)域,減少誤差和漏檢情況,提高煤巖圖像分割精度。 此外,注意力機(jī)制的加入可以減少網(wǎng)絡(luò)對(duì)無(wú)關(guān)區(qū)域的關(guān)注,有助于減少計(jì)算量、提高計(jì)算速度和效率。 考慮到在經(jīng)典U-net 網(wǎng)絡(luò)上采樣過(guò)程中存在信息丟失和模糊的問(wèn)題,通過(guò)添加注意力機(jī)制模塊有助于提高網(wǎng)絡(luò)對(duì)特定區(qū)域的關(guān)注度,提升對(duì)圖像邊緣信息等細(xì)節(jié)特征的提取能力[24]。 本研究針對(duì)圖像語(yǔ)義分割模型特點(diǎn),結(jié)合相同數(shù)據(jù)集和模型架構(gòu)下不同注意力機(jī)制的表現(xiàn),在經(jīng)典U-net 模型基礎(chǔ)上進(jìn)行改進(jìn),在3 處上采樣和跳躍連接部分加入Attention Gate注意力機(jī)制模塊[25],在編碼器上采樣處加入CBAM注意力機(jī)制模塊[26]。
CBAM 注意力機(jī)制結(jié)構(gòu)如圖5 所示。 CBAM 包含2 個(gè)連續(xù)的子模塊,分別是通道注意力模塊和空間注意力模塊,輸入的特征層按順序依次獲得通道注意力特征和空間注意力特征。 輸入特征層首先在通道注意力模塊進(jìn)行最大池化(Maxpool)和平均池化(Avgpool);然后通過(guò)一個(gè)共享卷積層(Shared MLP)計(jì)算每個(gè)通道的權(quán)重,再將輸出的特征進(jìn)行元素相加(Element-wise addition),并通過(guò)Sigmoid 激活函數(shù)獲得1 個(gè)權(quán)重向量,即通道注意力特征權(quán)重(Mc),將該權(quán)重與輸入特征層進(jìn)行相乘運(yùn)算獲得加權(quán)特征層。將該特征層繼續(xù)輸入到空間注意力模塊,首先經(jīng)過(guò)最大池化(Maxpool)和平均池化(Avgpool),然后將獲得的2 層特征層進(jìn)行向量拼接后進(jìn)行卷積操作,最后經(jīng)過(guò)Sigmoid 激活后輸出得到1 個(gè)權(quán)重向量,即空間注意力特征權(quán)重(Ms),將其與輸入特征層相乘獲得加權(quán)特征層并輸出加權(quán)后的特征層。 Attention Gate 注意力機(jī)制結(jié)構(gòu)如圖6 所示。 其中,2 個(gè)輸入特征層分別為編碼器當(dāng)前層x和解碼器下一層g,輸入特征層通過(guò)1×1 卷積使2 個(gè)特征層通道數(shù)一致,再進(jìn)行元素相加操作。 將通過(guò)元素相加所獲得的特征向量依次通過(guò)Relu 函數(shù)、1×1 卷積和Sigmoid 函數(shù)后獲得注意力系數(shù),再通過(guò)Resample 模塊將特征層尺寸大小進(jìn)行還原,最后將獲得的注意力系數(shù)α對(duì)特征層x進(jìn)行加權(quán)并輸出加權(quán)后的特征層。
圖5 CBAM 注意力機(jī)制結(jié)構(gòu)Fig.5 Structure of CBAM attention mechanism
圖6 Attention Gate 注意力機(jī)制結(jié)構(gòu)Fig.6 Structure of Attention Gate attention mechanism
本研究試驗(yàn)所使用數(shù)據(jù)集有2 個(gè),用于預(yù)訓(xùn)練的數(shù)據(jù)集是網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)集Pascal VOC 2007,可直接通過(guò)網(wǎng)絡(luò)下載獲取;用于訓(xùn)練本研究模型的數(shù)據(jù)集是自制的煤巖界面圖像數(shù)據(jù)集,如圖7 所示。 將實(shí)地拍攝的煤巖圖片首先進(jìn)行初步篩選,去除由各種因素導(dǎo)致的內(nèi)容無(wú)法辨識(shí)的圖片;然后將圖片進(jìn)行裁剪使圖片大小統(tǒng)一為512×512;再使用Lableme 對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,將圖片中的像素分別標(biāo)記為coal(煤)、rock(巖)、background(背景)3 個(gè)類(lèi)別,制作完成的數(shù)據(jù)集共有625 張圖片。
圖7 煤巖界面圖像部分?jǐn)?shù)據(jù)示例Fig.7 Part data examples of coal-rock interface images
本研究試驗(yàn)平臺(tái)具體配置參數(shù)見(jiàn)表1。 考慮到試驗(yàn)平臺(tái)性能,在模型訓(xùn)練中采用具有動(dòng)量更新和自適應(yīng)學(xué)習(xí)率的Adam(Adaptive Moment Estimation)優(yōu)化器對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,初始學(xué)習(xí)率為0.01,迭代次數(shù)為100,批量處理大小為8。
表1 試驗(yàn)平臺(tái)配置參數(shù)Table 1 Configuration parameters of experimental platform
本研究采用準(zhǔn)確度(Accuracy)、平均交并比(Mean Intersection over Union,MIoU)、類(lèi)別平均像素準(zhǔn)確率(Mean Pixel Accuracy,MPA)以及模型推理時(shí)間(Inference Time)等指標(biāo)進(jìn)行模型性能檢驗(yàn)。 其中,平均交并比是計(jì)算真實(shí)標(biāo)簽和模型預(yù)測(cè)結(jié)果的交并比,類(lèi)別平均像素準(zhǔn)確率是每個(gè)類(lèi)別在進(jìn)行預(yù)測(cè)時(shí)像素被正確進(jìn)行分類(lèi)的比例。 計(jì)算公式分別為
式中,i為真實(shí)值;j為預(yù)測(cè)值;Pii為預(yù)測(cè)正確個(gè)數(shù),Pij表示i預(yù)測(cè)為j即預(yù)測(cè)錯(cuò)誤的像素個(gè)數(shù);k為除背景外預(yù)測(cè)類(lèi)別的數(shù)目。
為驗(yàn)證骨干網(wǎng)絡(luò)的替換對(duì)改進(jìn)U-net 網(wǎng)絡(luò)性能的影響,分別使用深度學(xué)習(xí)中常用的特征提取網(wǎng)絡(luò)ResNet-50、VGG16 作為骨干網(wǎng)絡(luò)對(duì)U-net 模型進(jìn)行改進(jìn),并與未更換骨干網(wǎng)絡(luò)的經(jīng)典U-net 模型進(jìn)行煤巖界面分割試驗(yàn)對(duì)比。 試驗(yàn)中使用相同的煤巖圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,采用精確度和訓(xùn)練用時(shí)作為評(píng)價(jià)指標(biāo),衡量不同骨干網(wǎng)絡(luò)模型的預(yù)測(cè)精度和運(yùn)行速度。
試驗(yàn)結(jié)果見(jiàn)表2。 由表2 可知:VGG16 網(wǎng)絡(luò)作為U-net 模型的骨干網(wǎng)絡(luò)進(jìn)行煤巖界面圖像分割時(shí)在精確度及運(yùn)行速度等方面均優(yōu)于其余骨干網(wǎng)絡(luò)。 在精確度方面,使用VGG16 作為骨干網(wǎng)絡(luò)的模型達(dá)到了92.08%,高于ResNet-50 骨干網(wǎng)絡(luò),相較于經(jīng)典U-net模型提升了1.93%。 在訓(xùn)練用時(shí)方面,使用VGG16作為骨干網(wǎng)絡(luò)的模型訓(xùn)練時(shí)間為37.31 幀/s,相較于ResNet-50 骨干網(wǎng)絡(luò)訓(xùn)練速度更快,訓(xùn)練速度相較于經(jīng)典U-net 模型提升了8.78%。 試驗(yàn)反映出:VGG16作為骨干網(wǎng)絡(luò)可以提升原模型精確度,更好地提取煤巖界面圖像特征,從而更精確地分割圖像;使用VGG16 網(wǎng)絡(luò)的模型訓(xùn)練用時(shí)更少,模型訓(xùn)練效率更高。 可見(jiàn),VGG16 網(wǎng)絡(luò)在保證高精確度的同時(shí),也具有較好的運(yùn)行速度。 因此,本研究采用VGG16 作為改進(jìn)U-net 模型的骨干網(wǎng)絡(luò)。
表2 骨干網(wǎng)絡(luò)性能對(duì)比結(jié)果Table 2 Comparison results of backbone network performance
為驗(yàn)證遷移學(xué)習(xí)方法對(duì)于本研究改進(jìn)模型性能的影響,將改進(jìn)的U-net 模型分別在采用遷移學(xué)習(xí)方法與不采用遷移學(xué)習(xí)方法的情況下進(jìn)行訓(xùn)練,并對(duì)模型訓(xùn)練過(guò)程進(jìn)行分析。
試驗(yàn)所得平均交并比(MIoU)曲線如圖8 所示。由圖8 可知:采用遷移學(xué)習(xí)方法的MIoU值一直高于未采用遷移學(xué)習(xí)方法的情況,在訓(xùn)練的前10 個(gè)輪次,不論是否采用遷移學(xué)習(xí),模型MIoU均在快速增長(zhǎng),訓(xùn)練輪次為10~20 次時(shí),未使用遷移學(xué)習(xí)方法的MIoU曲線出現(xiàn)下降波動(dòng),在25 次左右開(kāi)始繼續(xù)增長(zhǎng)最后達(dá)到平穩(wěn)收斂;采用遷移學(xué)習(xí)時(shí)未使用遷移學(xué)習(xí)MIoU曲線一直呈現(xiàn)增長(zhǎng)趨勢(shì),在訓(xùn)練輪次達(dá)10 次以后開(kāi)始逐漸達(dá)到平穩(wěn)收斂。 因此,采用遷移學(xué)習(xí)方法可以使模型更快速地收斂,減少模型訓(xùn)練用時(shí)。 此外,通過(guò)MIoU值對(duì)比也表明使用遷移學(xué)習(xí)方法進(jìn)行訓(xùn)練時(shí)模型分割精度更高。
圖8 遷移學(xué)習(xí)方法消融試驗(yàn)對(duì)比結(jié)果Fig.8 Comparison results of ablation test with transfer learning method
將注意力機(jī)制加入U(xiǎn)-net 網(wǎng)絡(luò)模型中可以對(duì)不同部分特征層的信息進(jìn)行加權(quán),從而減少噪聲和無(wú)關(guān)信息的干擾并突出目標(biāo)的相關(guān)特征。 為了驗(yàn)證注意力機(jī)制加入對(duì)模型性能的影響,使用更換了VGG16作為骨干網(wǎng)絡(luò)的改進(jìn)U-net 模型在小樣本煤巖圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練,對(duì)引入注意力機(jī)制前后的2 種情況進(jìn)行訓(xùn)練并分析。 試驗(yàn)結(jié)果如表3 所示。
表3 注意力機(jī)制消融試驗(yàn)對(duì)比結(jié)果Table 3 Comparison results of attention mechanism ablation experiments %
由表3 可知:引入注意力機(jī)制時(shí)模型的各項(xiàng)指標(biāo)均高于未加入注意力機(jī)制的模型,添加注意力機(jī)制后的模型準(zhǔn)確度提升了5.62%,平均交并比提升了2.09%,類(lèi)別平均像素準(zhǔn)確率提高了5.31%。 試驗(yàn)結(jié)果表明:注意力機(jī)制有助于模型更好地關(guān)注圖像中的重要區(qū)域,從而提高模型的分類(lèi)準(zhǔn)確率和分割性能。 加入注意力機(jī)制后,模型準(zhǔn)確度、平均交并比(MIoU)和類(lèi)平均像素(MPA)等指標(biāo)均得到提升,反映出注意力機(jī)制的添加提升了模型對(duì)于小樣本煤巖界面數(shù)據(jù)集的分割效果。
為了檢驗(yàn)本研究改進(jìn)的U-net 網(wǎng)絡(luò)模型在小樣本煤巖圖像數(shù)據(jù)集中的實(shí)際應(yīng)用效果,將該模型與現(xiàn)有常用的一些網(wǎng)絡(luò)模型進(jìn)行對(duì)比分析。 分別將本研究改進(jìn)的U-net 網(wǎng)絡(luò)模型、經(jīng)典U-net 網(wǎng)絡(luò)模型、DeeplabV3+網(wǎng)絡(luò)模型、HRNet 網(wǎng)絡(luò)模型和PSPNet 網(wǎng)絡(luò)模型在自制的煤巖界面數(shù)據(jù)集上進(jìn)行訓(xùn)練,以模型訓(xùn)練過(guò)程中的準(zhǔn)確度、平均交并比(MIoU)、類(lèi)別平均像素準(zhǔn)確率(MPA)、檢測(cè)速度(幀/s)以及損失函數(shù)作為評(píng)價(jià)指標(biāo),對(duì)各模型性能進(jìn)行對(duì)比分析。
由于本研究試驗(yàn)數(shù)據(jù)集較小,在不進(jìn)行遷移學(xué)習(xí)的情況下直接進(jìn)行訓(xùn)練會(huì)導(dǎo)致網(wǎng)絡(luò)性能較差,缺乏對(duì)比性。 因此,本研究在網(wǎng)絡(luò)模型對(duì)比試驗(yàn)階段,均使用了遷移學(xué)習(xí)方法優(yōu)化網(wǎng)絡(luò)模型性能。 同時(shí)通過(guò)設(shè)置125 張圖片集(a組)作為小樣本數(shù)據(jù)集和625 張圖片(b組)作為正常數(shù)據(jù)集的2 組試驗(yàn),分析本研究改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)小樣本數(shù)據(jù)集的語(yǔ)義分割效果。試驗(yàn)過(guò)程中的平均交并比曲線和損失函數(shù)值曲線如圖9 所示,各個(gè)網(wǎng)絡(luò)模型的性能指標(biāo)取值見(jiàn)表4。
表4 各網(wǎng)絡(luò)模型性能對(duì)比Table 4 Performance comparison of various network models
圖9 模型訓(xùn)練性能曲線Fig.9 Curves of model training performance
通過(guò)對(duì)比各網(wǎng)絡(luò)模型在a組和b組的試驗(yàn)結(jié)果可以看出,雖然各模型的MIoU曲線都呈增長(zhǎng)趨勢(shì),并隨著訓(xùn)練輪次增加逐漸平穩(wěn),但在少樣本訓(xùn)練情況下,所有網(wǎng)絡(luò)對(duì)煤巖界面圖像的分割性能均有不同幅度下降。 通過(guò)經(jīng)典U-net 網(wǎng)絡(luò)在a組和b組樣本的性能對(duì)比可知,模型在使用了小樣本數(shù)據(jù)集進(jìn)行訓(xùn)練后,U-net 網(wǎng)絡(luò)的分割準(zhǔn)確度下降了3.43%,平均交并比下降了4. 46%,類(lèi)別平均像素準(zhǔn)確率下降了1.92%。 由a組小樣本煤巖圖像分割性能檢驗(yàn)結(jié)果可以看出,本研究改進(jìn)的U-net 網(wǎng)絡(luò)模型在相同的小樣本數(shù)據(jù)集情況下,相較于經(jīng)典U-net 模型準(zhǔn)確度提升了1.84%,平均交并比提升了5.34%,類(lèi)別平均像素準(zhǔn)確率提升了0. 48%。 同時(shí),與HrNet、PspNet、DeeplabV3+相比,本研究改進(jìn)的U-net 網(wǎng)絡(luò)模型在小樣本煤巖界面數(shù)據(jù)集上有著更為顯著的語(yǔ)義分割性能,模型在檢測(cè)速度上略低于PspNet 、DeeplabV3+,但相較于經(jīng)典U-net 模型有所提升。 試驗(yàn)結(jié)果反映出,本研究改進(jìn)U-net 模型在小樣本煤巖界面數(shù)據(jù)集上的綜合性能最優(yōu)。
進(jìn)一步采用圖7 案例中的原圖作為測(cè)試集進(jìn)行語(yǔ)義分割預(yù)測(cè),獲得的語(yǔ)義分割預(yù)測(cè)結(jié)果如圖10 所示。 由圖10 可知:雖然參與測(cè)試的所有網(wǎng)絡(luò)模型都可以對(duì)煤巖界面進(jìn)行分割,但是HrNet 、PspNet、DeeplabV3+和經(jīng)典U-net 模型在煤巖邊緣處的分割效果并不理想,HrNet 和PspNet 在分割煤巖分界面時(shí)靈敏度較低,導(dǎo)致分割的邊緣不夠精確,預(yù)測(cè)分界線與實(shí)際界面有著許多不匹配之處,DeeplabV3+和經(jīng)典Unet 模型相較前兩者雖然分割精確度有所提高,但是在圖像細(xì)節(jié)方面精確性依然不理想。 由圖10(a)和圖10(b)可知:經(jīng)典U-net、HrNet、DeeplabV3+和Psp-Net 模型在煤巖邊緣分割時(shí),存在將煤巖間陰影較深的部分識(shí)別為背景的情況,導(dǎo)致分界線不夠精確。 由圖10(c)可知:DeeplabV3+在識(shí)別時(shí)出現(xiàn)較大部分的誤判,將煤層中亮度較高的部分識(shí)別為巖石,在本研究改進(jìn)的U-net 模型中可以看到識(shí)別結(jié)果較為準(zhǔn)確和完整,圖像上部面積較小的煤層區(qū)域也能夠識(shí)別。由圖10(d)可知:經(jīng)典U-net、HrNet、PspNet 模型對(duì)煤巖界面的識(shí)別存在邊緣不匹配真實(shí)情況的問(wèn)題,相較之下,本研究改進(jìn)模型的識(shí)別結(jié)果更符合實(shí)際情況。由上述試驗(yàn)可知:本研究改進(jìn)的U-net 模型對(duì)煤巖邊界的識(shí)別更準(zhǔn)確,在同樣使用小樣本訓(xùn)練集進(jìn)行訓(xùn)練的情況下能夠獲得較理想的識(shí)別結(jié)果。
圖10 5 種模型煤巖界面圖像分割效果對(duì)比Fig.10 Comparison of the segmentation effects of coal-rock interface images of 5 models
(1)針對(duì)現(xiàn)有的機(jī)器視覺(jué)方法進(jìn)行煤巖界面識(shí)別中存在的煤巖圖像數(shù)據(jù)集不足的問(wèn)題,提出了一種基于改進(jìn)U-net 模型的小樣本煤巖界面圖像分割方法。 在U-net 模型基礎(chǔ)上使用VGG16 更換原有骨干網(wǎng)絡(luò),并將Attention Gate 和CBAM 兩類(lèi)注意力機(jī)制模塊添加到U-net 網(wǎng)絡(luò)解碼器部分,在訓(xùn)練過(guò)程中采用遷移學(xué)習(xí)方法,使得模型在小樣本煤巖圖像數(shù)據(jù)集訓(xùn)練下取得較好的分割效果。
(2)通過(guò)試驗(yàn)驗(yàn)證了模型改進(jìn)的有效性,使用VGG16 作為改進(jìn)U-net 模型的骨干網(wǎng)絡(luò)相較于經(jīng)典U-net 模型在準(zhǔn)確度上提升了1.93%,引入Attention Gate 注意力機(jī)制和CBAM注意力機(jī)制模塊后,精確度相較經(jīng)典模型提升了5.62%,反映出改進(jìn)模型在較少煤巖圖像數(shù)據(jù)訓(xùn)練情況下的分割精度優(yōu)于經(jīng)典模型。 此外,在采用相同小樣本煤巖界面數(shù)據(jù)集訓(xùn)練的情況下,改進(jìn)模型相對(duì)于DeeplabV3+、HRNet、PSPNet 等模型,綜合性能依然占優(yōu)勢(shì)。
(3)本研究從優(yōu)化小樣本訓(xùn)練能力角度對(duì)U-net模型進(jìn)行了改進(jìn),為煤巖圖像分割技術(shù)研究與應(yīng)用提供了新思路。 后續(xù)工作中,需要針對(duì)井下低照度環(huán)境對(duì)模型進(jìn)行適當(dāng)優(yōu)化,同時(shí)擴(kuò)充數(shù)據(jù)類(lèi)型,使其具備更精準(zhǔn)的判別能力。