朱楚雄,徐金明,鐘傳江
(1.上海大學(xué)土木工程系,上海 200444;2.中鐵十七局集團(tuán)有限公司,山西 太原 030006)
確定巖石中不同組分的實(shí)際分布,是分析巖石物理力學(xué)性質(zhì)的重要基礎(chǔ),對分析巖石變形破壞過程具有重要意義。對于一幅巖石圖像來說,確定不同組分分布的核心是確定不同位置組分的類別,本質(zhì)上是對巖石圖像進(jìn)行圖像分割處理。目前,圖像分割的常規(guī)方法是閾值分割法和聚類法,利用圖像中不同組分的顏色、輪廓、紋理等特征來確定類別。但使用常規(guī)圖像分割方法確定組分類別,效果往往不能令人滿意。
使用圖像分割的方法確定巖石中不同組分的類別已經(jīng)進(jìn)行了很多研究。徐永進(jìn)等[1]根據(jù)CT 圖像中相鄰圖像的直方圖相似性來確定巖石中不同組分的分割閾值;張嘉凡等[2]基于相似性度量標(biāo)準(zhǔn)的改進(jìn)聚類分析,對巖石CT 圖像進(jìn)行了圖像分割和損傷量化分析;錢慶波等[3]使用點(diǎn)選法和閾值分割技術(shù),得到花崗巖中不同組分的分布情況;朱賽楠等[4]使用迭代最佳閾值算法提取了巖石CT 圖像中的損傷區(qū)域;劉春等[5]使用改進(jìn)種子算法分割巖石圖像中的顆粒和孔隙,研究了巖石中微觀顆粒與孔隙形狀復(fù)雜度的變化;簡文星等[6]編寫了利用Sobel 算子進(jìn)行邊緣檢測、進(jìn)而對巖石圖像中不同組分進(jìn)行閾值分割的巖石裂隙檢測系統(tǒng)。
近年來,隨著人工智能技術(shù)的發(fā)展,使用深度學(xué)習(xí)確定物體中不同組分分布的研究取得了很多進(jìn)展。與傳統(tǒng)圖像識別方法相比,使用深度學(xué)習(xí)算法進(jìn)行圖像分割的精確度更高,可以將比較復(fù)雜的目標(biāo)識別出來。KRIZHEVSKY 等[7]使用ReLU 算法作為激活函數(shù)的激活層和防止模型過擬合的Dropout 層,設(shè)計(jì)了經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)AlexNet,促進(jìn)了深度學(xué)習(xí)算法的應(yīng)用;SIMONYAN 和ZISSERMAN[8]建立了VGGNet 網(wǎng)絡(luò),分析了卷積神經(jīng)網(wǎng)絡(luò)(CNN)中網(wǎng)絡(luò)深度和網(wǎng)絡(luò)性能之間的關(guān)系;GIRSHICK 等[9?13]通過在感興趣區(qū)域上單獨(dú)進(jìn)行卷積網(wǎng)絡(luò)評估和邊框目標(biāo)檢測的方法,構(gòu)建了區(qū)域卷積網(wǎng)絡(luò)R-CNN(Region-based CNN),并在幾次改進(jìn)之后得到了Mask R-CNN 網(wǎng)絡(luò);BADRINARAYANAN 等[14]使用編碼層、解碼層和像素分類層建立了SegNet 圖像分割網(wǎng)絡(luò);LONG 等[15]提出了端到端、像素到像素的全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional networks,F(xiàn)CN),可以有效解決圖像中不同組分類型的確定問題。
在農(nóng)業(yè)、生物和醫(yī)學(xué)等領(lǐng)域,使用全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分割也取得了一些成果。王振等[16]通過改進(jìn)全卷積神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和分類器,改善了黃瓜葉部病斑的圖像分割效果;黃英來等[17]采用基于跳躍連接的全卷積神經(jīng)網(wǎng)絡(luò)分割技術(shù),進(jìn)行林木圖像的圖像分割;RONNEBERGER 等[18]使用具有數(shù)據(jù)增強(qiáng)功能的全卷積神經(jīng)網(wǎng)絡(luò),對細(xì)胞圖像中的神經(jīng)元結(jié)構(gòu)進(jìn)行圖像分割;黃龍等[19]利用層間融合方法,構(gòu)建了用于室內(nèi)場景分割的全卷積神經(jīng)網(wǎng)絡(luò);鄭婷月等[20]利用多尺度特征融合技術(shù)來改進(jìn)全卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行了視網(wǎng)膜血管的圖像分割研究。
雖然深度學(xué)習(xí)方法取得了很多進(jìn)展,在不同領(lǐng)域應(yīng)用也獲得了豐碩成果,但是將深度學(xué)習(xí)方法用于確定巖石中不同組分的位置與類別,目前研究成果還不多。本文擬以花崗巖為例,根據(jù)抽取巖石單軸壓縮試驗(yàn)視頻中的單幀圖像,在建立不同組分?jǐn)?shù)據(jù)集的基礎(chǔ)上,使用全卷積神經(jīng)網(wǎng)絡(luò)(FCN)確定圖像中任意位置的組分類別,進(jìn)而使用試驗(yàn)視頻分析不同組分分布及其識別準(zhǔn)確率隨時(shí)間的變化情況;探討網(wǎng)絡(luò)深度、初始學(xué)習(xí)率和網(wǎng)絡(luò)迭代次數(shù)等參數(shù)對識別正確性的影響。
試驗(yàn)所用巖石為花崗巖,相應(yīng)巖塊取自甘肅省玉門市北山地區(qū)。將巖塊切割并磨光制成100 mm × 50 mm ×50 mm 的標(biāo)準(zhǔn)試塊,采用單軸壓縮試驗(yàn)機(jī)對試塊進(jìn)行加載,試驗(yàn)時(shí)同時(shí)拍攝視頻。
為了減小后續(xù)計(jì)算量,在試塊變形破壞過程的280 s內(nèi)每隔1 s 選取一幀圖像,總共得到280 張圖像。將所有單幀圖像轉(zhuǎn)換成灰度圖像并裁剪成238 px × 238 px,每個(gè)像素實(shí)際寬度為0.17 mm/px,如圖1所示。
圖1 用于制作數(shù)據(jù)集的單幀圖像Fig.1 Frames in making dataset
根據(jù)巖石中不同組分的形態(tài)和顏色特征,使用肉眼判定方法來識別巖石中4 種不同組分的類型,將不同組分的實(shí)際分布標(biāo)記出來,制成標(biāo)簽數(shù)據(jù)集。數(shù)據(jù)集中的標(biāo)簽分為4 類,對應(yīng)花崗巖中裂隙、黑云母、石英、長石4 種細(xì)觀組分,如圖2所示。圖2中,白色像素為不同組分的實(shí)際位置,黑色像素為背景。
圖2 花崗巖中不同組分的標(biāo)簽圖像Fig.2 Labeled images of various compositions in granite
普通卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)由卷積層、池化層、激活層和全連接層(Fully connected layer)等組成?;◢弾r圖像經(jīng)過一系列卷積、池化和激活操作,進(jìn)入有分類器作用的全連接層后會丟失空間坐標(biāo),只能得到圖像中不同組分類別的概率[21]。比如,取花崗巖圖像右上角一部分區(qū)域輸入CNN 網(wǎng)絡(luò)中進(jìn)行識別,只得到圖像中黑色色塊為黑云母組分的概率,但無法識別周圍灰色和白色部分的組分類別、也無法得到不同組分的具體位置信息,如圖3(a)所示。
全卷積神經(jīng)網(wǎng)絡(luò)(FCN)將普通卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的全連接層修改成卷積核為1×1 的全卷積層(Fully convolutional layer),使用像素類型分類層將每個(gè)像素點(diǎn)映射到不同組分的分類,進(jìn)而對每一個(gè)像素點(diǎn)進(jìn)行分類,并保留像素的空間坐標(biāo)信息[15]。利用所建全卷積神經(jīng)網(wǎng)絡(luò)對花崗巖圖像中4 種組分進(jìn)行識別,得到不同組分的實(shí)際分布情況,如圖3(b)所示。
圖3 不同網(wǎng)絡(luò)中花崗巖組分的識別過程Fig.3 Identification process of compositions in granite using various networks
本文建立的全卷積神經(jīng)網(wǎng)絡(luò)包含5 個(gè)網(wǎng)絡(luò)模塊,分別是:輸入層、下采樣模塊(Downsampling)、上采樣模塊(Upsampling)、像素類型分類模塊和輸出層,如圖4所示。
圖4中,圖像輸入層定義了網(wǎng)絡(luò)訓(xùn)練時(shí)輸入的圖像大小及圖像顏色通道數(shù),輸入的圖像是前述得到的數(shù)據(jù)集。研究時(shí),將數(shù)據(jù)集分為訓(xùn)練集和測試集,4 種組分的訓(xùn)練集圖像均為200 組,測試集圖像均為80 組。
圖4 全卷積神經(jīng)網(wǎng)絡(luò)Fig.4 Fully convolutional network (FCN)
下采樣模塊的功能是不斷縮小圖像并提取圖像中各組分的特征,該模塊包括5 個(gè)卷積層(Convolutional layer)、5 個(gè)ReLU 層(Rectified Linear Unit,線性整流函數(shù))和2 個(gè)最大池化層(Max pooling layer)。其中,卷積層的目的是壓縮圖像大小,提取不同組分的顏色、幾何、位置等信息;ReLU 層的目的是增加稀疏性、激活一部分神經(jīng)元;最大池化的目的是壓縮圖像大小,減少計(jì)算的復(fù)雜度,提取圖像中不同組分的主要特征。上采樣模塊的功能是提取各組分特征后將圖像還原回原來的大小,該模塊包括2 個(gè)轉(zhuǎn)置卷積層(Transposed convolution layer)和2 個(gè)ReLU 層,轉(zhuǎn)置卷積層是卷積過程的轉(zhuǎn)置操作,能夠按照像素的顏色和位置信息將圖像還原回原來的尺寸。像素類型分類模塊包括1 個(gè)全卷積層、1 個(gè)Softmax 層和1 個(gè)像素分類層。Softmax 層是對全卷積后的圖像進(jìn)行歸一化處理,像素分類層則進(jìn)行像素類別的確定。
為了防止網(wǎng)絡(luò)調(diào)整速度過慢、出現(xiàn)過擬合的情況,將初始學(xué)習(xí)率設(shè)置為0.008;為了提高網(wǎng)絡(luò)訓(xùn)練效率,將訓(xùn)練集中標(biāo)簽圖像分成4 個(gè)批次、網(wǎng)絡(luò)訓(xùn)練周期設(shè)為100。所建全卷積神經(jīng)網(wǎng)絡(luò)中各層參數(shù)如表1所示。
表1 全卷積神經(jīng)網(wǎng)絡(luò)的各層參數(shù)Table 1 Parameters used in FCN
1.4.1 輸入數(shù)據(jù)集
將標(biāo)記好的標(biāo)簽圖像數(shù)據(jù)集輸入到全卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,讓網(wǎng)絡(luò)自行學(xué)習(xí)數(shù)據(jù)集中不同組分標(biāo)簽的特征屬性。經(jīng)過反復(fù)迭代調(diào)整后,得到用于花崗巖不同組分識別的FCN 網(wǎng)絡(luò)。
1.4.2 不同組分的可視化特征
全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成之后根據(jù)網(wǎng)絡(luò)各層結(jié)構(gòu),將各卷積層、轉(zhuǎn)置卷積層和全卷積層按照網(wǎng)絡(luò)的搭建順序進(jìn)行可視化處理,研究不同卷積核“學(xué)習(xí)”到的特征,如圖5所示。
由圖5可以看出,第1 個(gè)卷積層(cov1)將不同組分的顏色信息提取了出來;第2 個(gè)卷積層(cov2)能夠初步識別不同組分的輪廓、顆粒大小等形狀特征;隨著卷積層深度的加大,不同組分形態(tài)特征和顏色特征不斷被抽象化;第5 個(gè)卷積層(conv5)已經(jīng)基本再現(xiàn)了不同組分的形狀特征和顏色特征;再經(jīng)過兩層轉(zhuǎn)置卷積層(Trans1和Trans2),圖像的局部信息被逐漸恢復(fù);通過全卷積層、Softmax 層和像素分類層,最終識別了花崗巖圖像中的不同組分類別。
圖5 全卷積網(wǎng)絡(luò)中不同卷積層的可視化結(jié)果Fig.5 Visualization of convolutional layers in fully convolutional network
全卷積神經(jīng)網(wǎng)絡(luò)的組分識別結(jié)果可能存在少量誤差。將輸出圖像和原圖像對比可知,就裂隙和黑云母而言,裂隙右側(cè)有極少量黑云母組分被識別成裂隙,中間區(qū)域頂部和底部有一部分裂隙被識別成黑云母組分;就石英和長石來說,兩種組分交界處界限不是很明顯、交界處識別出現(xiàn)了一些誤差,例如左上角區(qū)域石英被識別成長石,中部區(qū)域裂隙周圍長石被識別成石英。但總體而言,全卷積神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的圖像分割能力,巖石中大部分位置的組分被很好地識別出來。
觀察花崗巖從開始變形到完全破壞的整個(gè)過程,可以將外荷作用下花崗巖的變形破壞過程分為A、B、C 三個(gè)階段:0~58 s 的階段A 為變形階段,巖石表面微觀裂隙逐漸發(fā)展為宏觀裂隙;59~197 s 的階段B 為漸進(jìn)破壞階段,宏觀裂隙寬度和長度持續(xù)增大;198~280 s的階段C 為完全破壞階段,宏觀裂隙長度達(dá)到最大、寬度持續(xù)增加。
利用訓(xùn)練好的全卷積神經(jīng)網(wǎng)絡(luò)對變形破壞過程時(shí)圖像中不同組分進(jìn)行識別,得到不同組分分布隨時(shí)間的變化情況,如圖6所示。
由圖6可以看出,在變形階段,裂隙首先出現(xiàn)在巖樣中間偏上部的位置然后向上下兩端延伸,在50 s 時(shí)巖樣中間偏下位置出現(xiàn)第2 條裂隙并不斷向中間和底部延伸。黑云母的面積較小,呈現(xiàn)為分散的點(diǎn)狀分布,位移不明顯。石英呈現(xiàn)為均勻的塊狀分布,相互之間連結(jié)緊密,中間石英向左右兩側(cè)移動。長石主要以片狀集中分布在左上角區(qū)域,部分以點(diǎn)狀和塊狀分散在其他區(qū)域,中間部分向左右兩側(cè)輕微移動。
圖6 花崗巖不同組分分布隨時(shí)間的變化Fig.6 Time-variation of distribution of various compositions in granite
在漸進(jìn)破壞階段,開始時(shí)第1 條裂隙向上延伸于接近巖樣頂端,向下與第2 條裂隙幾乎相連,然后上下兩條裂隙連通,縱向貫穿于巖石表面并將巖石分為左右兩個(gè)區(qū)域,且裂隙寬度不斷增大;黑云母在巖樣左側(cè)時(shí)往左上移動,在右側(cè)時(shí)往右上移動;石英在巖樣中間時(shí)被大量壓裂,沒有被壓裂的則向兩側(cè)移動;長石在巖樣中間也被大量壓裂,周圍長石向兩側(cè)大幅移動。
在完全破壞階段,裂隙寬度持續(xù)增大并沒有迅速出現(xiàn)新生裂隙;黑云母基本分散出現(xiàn)在巖樣中間區(qū)域,位移持續(xù)增大;石英基本分布在巖樣兩側(cè)區(qū)域,位移也逐步增大;長石在巖樣左上角區(qū)域增多,持續(xù)向左右兩側(cè)移動。
由上可知,在花崗巖整個(gè)變形破壞過程中,裂隙在中部區(qū)域萌生,最后縱向貫穿了整個(gè)巖石表面。黑云母組分分布比較分散且不斷向左上方或右上方移動。石英集中分布在兩側(cè)區(qū)域,長石集中分布于巖樣中間區(qū)域和左上角區(qū)域。石英和長石在巖樣中間區(qū)域均遭受破壞且多向左右兩側(cè)移動。
研究時(shí),本文使用兩個(gè)定量指標(biāo)來評價(jià)所建全卷積神經(jīng)網(wǎng)絡(luò)對巖石單幀圖像中不同組分的識別效果。這兩個(gè)指標(biāo)是:
(1)準(zhǔn)確率(Accuracy),即某一組分類別正確分類的像素?cái)?shù)量與標(biāo)簽上該類別像素?cái)?shù)量之比;
(2)全局準(zhǔn)確率(Global Accuracy,GA),即所有組分類別正確分類的像素?cái)?shù)量與圖像總像素?cái)?shù)量的比值,計(jì)算公式如下:
式中,CN、QN、FN、BN分別為對裂隙、黑云母、石英、長石進(jìn)行正確分類的像素?cái)?shù),TN 為圖像總像素?cái)?shù)。GA的變化范圍是[0,1]。GA越大,識別效果越好。
使用準(zhǔn)確率作為評估參數(shù),利用已經(jīng)訓(xùn)練好的全卷積神經(jīng)網(wǎng)絡(luò)對變形破壞過程中巖石中的不同組分進(jìn)行識別,得到識別準(zhǔn)確率隨時(shí)間的變化情況,如圖7所示。
由圖7可知,裂隙識別的準(zhǔn)確率為98%左右,但在60 s 左右時(shí)有小幅降低;黑云母識別的準(zhǔn)確率為95%左右,在60,150,200 s 左右時(shí)有小幅下降;長石識別的準(zhǔn)確率為83%左右但波動較大,在60 s 左右時(shí)明顯下降,70 s 左右時(shí)為85%左右,200 s 后下降較大;石英識別的準(zhǔn)確率為75%~80%波動,60 s 左右明顯下降,70 s 左右時(shí)為80%左右,200 s 后下降幅度較大。
圖7 花崗巖中不同組分識別準(zhǔn)確率隨時(shí)間的變化Fig.7 Accuracy of recognition of various compositions on granite with time
由此可知,花崗巖中不同組分識別準(zhǔn)確率大小順序是:裂隙>黑云母>長石>石英。加壓至60 s 左右時(shí)巖石從變形階段轉(zhuǎn)到破壞階段,各組分識別的準(zhǔn)確率均會下降;200 s 后巖石完全破壞,巖石中黑云母、長石和石英這三種基本組分識別的準(zhǔn)確率不斷降低。
將網(wǎng)絡(luò)深度、初始學(xué)習(xí)率和網(wǎng)絡(luò)迭代次數(shù)作為影響因素,使用全局準(zhǔn)確率來評估因素所建FCN 識別效果的影響。FCN 的網(wǎng)絡(luò)深度取3 個(gè),分別是17 層(擁有3 個(gè)卷積層和5 個(gè)ReLU 層)、19 層(擁有4 個(gè)卷積層和6 個(gè)ReLU 層)、21 層(擁有5 個(gè)卷積層和7 個(gè)ReLU 層);初始學(xué)習(xí)率r分別取0.001、0.002、0.004、0.006、0.008;網(wǎng)絡(luò)迭代次數(shù)分別取2 600、5 000、6 600。不同因素下所建FCN 識別效果的計(jì)算結(jié)果如表2所示。
表2 所建FCN 的全局準(zhǔn)確率計(jì)算結(jié)果Table 2 Global Accuracies of established FCN
由表2可以看出,網(wǎng)絡(luò)深度越深,F(xiàn)CN 的識別效果越好;初始學(xué)習(xí)率越大,F(xiàn)CN 的識別效果越好;5 000 次迭代的識別效果最好。
本文使用全卷積神經(jīng)網(wǎng)絡(luò)和單軸壓縮試驗(yàn)視頻,研究了單軸壓縮條件下花崗巖變形破壞過程中不同組分分布與網(wǎng)絡(luò)識別準(zhǔn)確率隨時(shí)間的變化特征,分析了網(wǎng)絡(luò)深度、初始學(xué)習(xí)率和迭代次數(shù)對巖石中不同組分識別正確性的影響,結(jié)果表明:
(1)在單軸壓縮條件下,花崗巖首先在試樣中部區(qū)域萌生裂隙、最后該裂隙縱向貫穿巖石表面,黑云母組分分布分散且不斷向試樣左上或右上移動,石英和長石大多向試樣左右兩側(cè)移動;
(2)全卷積神經(jīng)網(wǎng)絡(luò)對花崗巖中不同組分識別準(zhǔn)確率的大小順序是:裂隙>黑云母>長石>石英,巖石從變形階段轉(zhuǎn)到破壞階段時(shí)各組分識別準(zhǔn)確率出現(xiàn)小幅下降,巖石完全破壞時(shí)各分識別準(zhǔn)確率迅速降低;
(3)對于所建全卷積神經(jīng)網(wǎng)絡(luò)來說,網(wǎng)絡(luò)深度越深、初始學(xué)習(xí)率越大、則識別效果越好,迭代次數(shù)5 000時(shí)的識別效果較好。