王吉源
(江西理工大學(xué)信息工程學(xué)院,江西 贛州 341000)
隨著社會(huì)的發(fā)展,我國(guó)對(duì)礦產(chǎn)資源的需求日益增加[1-2],如何更加高效地利用礦石,減少加工過(guò)程中產(chǎn)生的廢料,是當(dāng)前迫切需要解決的問(wèn)題。 解決這個(gè)問(wèn)題的關(guān)鍵之一是精準(zhǔn)地識(shí)別礦物[3],為不同種類、不同大小的礦物選取合適的冶煉方法。
傳統(tǒng)礦物識(shí)別方法[4-5]大多依靠專家經(jīng)驗(yàn)遴選,也就是具有一定知識(shí)經(jīng)驗(yàn)的人通過(guò)目測(cè)礦石顏色、光澤、紋路等進(jìn)行經(jīng)驗(yàn)判斷,這種方法在現(xiàn)代規(guī)?;a(chǎn)背景下效率相對(duì)低下,且過(guò)度依賴專家的檢查能力,易受主觀因素影響。 隨著可見光—近紅外光譜技術(shù)的發(fā)展和傳感器精度的提高,一些研究者提出使用高光譜[6-11]來(lái)進(jìn)行礦物識(shí)別[2,5-6]。 車永飛等提出一種基于主次光譜吸收組合特征的高光譜遙感礦物識(shí)別方法,該方法對(duì)多個(gè)特征賦予了不同權(quán)重,但如何為特征選擇合適的權(quán)重仍有待進(jìn)一步探討[11];賀金鑫等提出一種基于樸素貝葉斯分類器的高光譜遙感礦物識(shí)別方法,該方法利用多種礦物光譜識(shí)別屬性進(jìn)行識(shí)別, 聯(lián)合特征的識(shí)別表現(xiàn)比單一特征好,但是識(shí)別代價(jià)更高[10]。 以上方法大多依靠手動(dòng)提取光譜特征, 然后進(jìn)行匹配識(shí)別等大量計(jì)算,傳統(tǒng)方法存在著不可忽視的缺陷,手動(dòng)提取的特征通常不能精確表達(dá)礦物特征,且成本高,考慮到效率和成本因素, 需專家學(xué)者進(jìn)一步研究探索。
隨著人工智能技術(shù)發(fā)展, 研究者考慮將智能算法[8-10]引入礦物識(shí)別的研究[6,12-15]。甘甫平提出將巖礦的完全波形光譜輸入神經(jīng)網(wǎng)絡(luò)中進(jìn)行巖礦識(shí)別,但該方法僅能實(shí)現(xiàn)二分類,無(wú)法完成多類識(shí)別任務(wù)[15]; MOUNTRAKIS 等提出使用支持向量機(jī)對(duì)高光譜遙感數(shù)據(jù)進(jìn)行分析,該方法能應(yīng)對(duì)訓(xùn)練樣本數(shù)量受限的分類任務(wù),但學(xué)習(xí)過(guò)程中的參數(shù)分配問(wèn)題對(duì)識(shí)別表現(xiàn)影響很大,如何選擇合適的參數(shù)使得識(shí)別表現(xiàn)最優(yōu),需要再進(jìn)行研究[16];張兵等提出利用蟻群算法對(duì)礦物進(jìn)行識(shí)別,其后又針對(duì)蟻群算法提出了改進(jìn)[17-18],在原來(lái)的基礎(chǔ)上添加了啟發(fā)信息,雖然性能較之前有了提升,但與目前廣泛應(yīng)用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)存在一定差距。 當(dāng)前開發(fā)出來(lái)的深度網(wǎng)絡(luò)模型在多個(gè)領(lǐng)域取得較好表現(xiàn), 但其在礦物加工領(lǐng)域的應(yīng)用尚未得到充分探索。 本文提出了一種利用高光譜數(shù)據(jù)識(shí)別礦物種類的深度學(xué)習(xí)算法, 比較分析了礦物RGB 數(shù)據(jù)和高光譜數(shù)據(jù)對(duì)于礦物特征的表達(dá)能力,并應(yīng)用于礦物種類和礦物大小的分類。
通常情況下,人類可以識(shí)別出與紅色、藍(lán)色和綠色相關(guān)的3 個(gè)波長(zhǎng)區(qū)域,而高光譜相機(jī)則可以收集整個(gè)跨電磁波譜的信息。 不同的礦物具有的光譜信息不同,因此可以利用高光譜信息進(jìn)行礦物的識(shí)別。隨著成像光譜儀的光譜分辨率和空間分辨率的不斷提高,高光譜圖像被廣泛地應(yīng)用于礦物識(shí)別、植被研究[19-21]、海洋遙感[22-24]等領(lǐng)域,并發(fā)揮著越來(lái)越重要的作用。
礦石光譜通常包含一系列特征吸收譜帶,在不同的礦物中所提取的特征譜帶信息不同。礦物的診斷性吸收特征可以用光譜吸收特征參數(shù)表征,如吸收波段波長(zhǎng)位置、深度、寬度、對(duì)稱度、面積等,從這些參數(shù)中可以提取各種礦物的定性和定量信息。一些研究者對(duì)這些特征進(jìn)行手動(dòng)提取、后續(xù)分析,從而實(shí)現(xiàn)礦物種類識(shí)別。但手動(dòng)提取特征的識(shí)別表現(xiàn)受限于所提取特征的表達(dá)能力,且成本高昂。 考慮到高光譜圖像包含大量高分辨率的光譜波段,數(shù)據(jù)量大,可以考慮將其輸入適合大數(shù)據(jù)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中訓(xùn)練學(xué)習(xí),自動(dòng)提取礦物表示特征。
近年來(lái),隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來(lái)越多的計(jì)算機(jī)視覺(jué)識(shí)別方法和深度學(xué)習(xí)在各個(gè)領(lǐng)域中得到應(yīng)用。 為了提升網(wǎng)絡(luò)的學(xué)習(xí)表示能力,越來(lái)越多的深度網(wǎng)絡(luò)模型被開發(fā)出來(lái)。 主流的深度網(wǎng)絡(luò)模型有BP、CNN 和GAN。
BP[25-26]的全稱是Back Propagation,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)。 該神經(jīng)網(wǎng)絡(luò)的核心在于反饋,即模型對(duì)學(xué)習(xí)成果進(jìn)行評(píng)判,評(píng)判后的結(jié)果重新反饋給模型, 從而使模型獲得更好的學(xué)習(xí)成果。
CNN 的全稱是Convolutional Neural Networks,即卷積神經(jīng)網(wǎng)絡(luò)[27]。 該網(wǎng)絡(luò)包含3 層結(jié)構(gòu),分別是卷積層、池化層和全連接層。 卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層由若干個(gè)卷積單元組成,每個(gè)卷積單元的參數(shù)都是通過(guò)反向傳播算法優(yōu)化得到。卷積運(yùn)算的目的是提取輸入的不同特征。池化層是對(duì)卷積后的特征進(jìn)行池化操作,使其數(shù)據(jù)維度更小,表示能力更強(qiáng)。全連接層將所有局部特征連結(jié)起來(lái)形成全局特征,得到物質(zhì)的全局表示信息。
GAN 的全稱是Generative Adversarial Network,即對(duì)抗生成網(wǎng)絡(luò)[28]。 該網(wǎng)絡(luò)包含兩個(gè)子網(wǎng)絡(luò):生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)。 其中,生成網(wǎng)絡(luò)是利用一些生成技術(shù)去生成和學(xué)習(xí)數(shù)據(jù)相似的數(shù)據(jù), 目標(biāo)是盡量生成真實(shí)的數(shù)據(jù)去欺騙判別網(wǎng)絡(luò); 判別網(wǎng)絡(luò)則要判斷輸入的數(shù)據(jù)是原始數(shù)據(jù), 還是生成網(wǎng)絡(luò)生成的數(shù)據(jù)。 兩個(gè)子網(wǎng)絡(luò)相互博弈,通過(guò)博弈的過(guò)程提升整體的表現(xiàn)能力。
考慮到CNN 的廣泛適用性以及在其他領(lǐng)域的杰出識(shí)別表現(xiàn),本文選擇CNN 中的經(jīng)典Resnet 框架對(duì)礦物的RGB 數(shù)據(jù)和高光譜數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練, 比較兩者的表示能力。 所提方法應(yīng)用場(chǎng)景如圖1 所示,對(duì)開采出來(lái)的礦石進(jìn)行初步分選之后,考慮到高光譜在礦物識(shí)別中的重要作用,利用高光譜相機(jī)對(duì)礦石進(jìn)行拍照獲取高光譜圖像,然后將高光譜數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)訓(xùn)練, 實(shí)現(xiàn)礦物種類以及大小的分類,有助于后續(xù)冶煉方法的選擇。
圖1 利用高光譜圖像和深度學(xué)習(xí)分類的礦物識(shí)別示意Fig. 1 Schematic representation of mineral identification using hyperspectral images and deep learning classification
選用了在圖像分類領(lǐng)域取得杰出表現(xiàn)的R esNet 框架構(gòu)建礦物識(shí)別的深度模型。 圖2 所示為ResNet 模型的結(jié)構(gòu), 其輸入為礦物圖像, 經(jīng)過(guò)5 層設(shè)計(jì)好的卷積層后,再經(jīng)過(guò)一個(gè)全連接層得到分類概率。
圖2 礦物識(shí)別模型Fig. 2 The module of mineral recognition
礦物識(shí)別模型中的殘差模塊能夠有效地消除由于模型層數(shù)增加而導(dǎo)致的梯度彌散或梯度爆炸問(wèn)題。 殘差模塊如圖3 所示,由2 個(gè)3×3 的卷積層組成。
圖3 礦物識(shí)別殘差模塊Fig. 3 The module of Residual
同一層的殘差模塊的輸入和輸出維度相同,采用恒等映射:y=F(x)+x;圖2 中的降采樣殘差模塊表示當(dāng)輸入和輸出維度不同時(shí), 采用線性投影匹配維度:y=F(x)+Wxx。 其中,y表示殘差塊的輸出,x表示殘差塊的輸入,F(xiàn)(x)表示x經(jīng)過(guò)卷積后的輸出,Wx表示投影系數(shù)。
為了增加模型的內(nèi)聚性,用中心損失替換原模型中的softmax 損失。 令xi∈Rd(i=1,2,···,t)表示模型最后輸出的特征向量,yi表示輸出類別礦物種類,d表示特征向量的維度。t表示每一個(gè)pouch 訓(xùn)練圖像的數(shù)量。Wi∈Rd(i=1,2,···,n)是最后一個(gè)全連接層權(quán)重W∈Rd×n的第i列,n表示類別總數(shù),b表示偏置項(xiàng)參數(shù)。
原始的softmax 損失構(gòu)造如下:
式(1)中:ai表示softmax 的第i個(gè)輸出值。Yi表示真實(shí)的分類結(jié)果。
中心損失在其基礎(chǔ)上增加了一個(gè)限制模型參數(shù)擴(kuò)張的變量, 使最終的模型能夠在內(nèi)聚性上表現(xiàn)更好。 中心損失函數(shù)構(gòu)造如下:
式(2)中:cyi∈Rd表示第yi類的中心。 全局損失函數(shù)構(gòu)造如下:
中心點(diǎn)在每個(gè)批次訓(xùn)練后更新,其更新公式為:
當(dāng)x為真時(shí),δ(x)的值等于1,否則等于0。
為了驗(yàn)證本文所提的深度方法能否有效識(shí)別礦物種類,選用了黃銅礦、方鉛礦和3 種不同粒徑的赤鐵礦作為實(shí)驗(yàn)樣本拍攝圖像制作實(shí)驗(yàn)數(shù)據(jù)集,選擇以上5 種礦物基于以下兩方面的考慮:首先,黃銅礦和方鉛礦是硫化物礦物, 赤鐵礦是一種氧化物礦物,可以分析該方法是否能對(duì)硫化物和氧化物礦物進(jìn)行分類。 其次,選擇3 種不同粒徑的赤鐵礦是為了考察該方法是否能對(duì)不同尺寸的礦物進(jìn)行區(qū)分,從而提高選礦加工效率。 由于實(shí)際取得的礦物圖像數(shù)據(jù)較小,深度網(wǎng)絡(luò)難以充分訓(xùn)練獲得較為魯棒的表示,本文對(duì)獲取的礦物圖片使用了水平翻轉(zhuǎn)、平移、旋轉(zhuǎn)、高斯模糊等多種增廣方式,經(jīng)過(guò)增廣后的實(shí)驗(yàn)所用礦物數(shù)據(jù)集大小設(shè)置如表1 所列。
表1 礦物數(shù)據(jù)集大小設(shè)置Table 1 Mineral dataset settings
3.2.1 基于礦物RGB 圖像的識(shí)別效果分析
為了加快數(shù)據(jù)的處理速度,選用預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,節(jié)省了從頭開始訓(xùn)練的時(shí)間。 實(shí)驗(yàn)結(jié)果表明, 利用RGB 圖像進(jìn)行識(shí)別時(shí),5 種礦物的分類準(zhǔn)確率為39.52%。 這可能是因?yàn)榈V物的RGB 圖像中包含的信息不足以判斷礦物的種類。例如專家在判定礦物種類時(shí)會(huì)綜合考慮礦物的顏色、光澤、條紋、重量等多個(gè)因素,而RGB 圖像中所含信種類較單一。 礦物識(shí)別的準(zhǔn)確度和損失函數(shù)的值如圖4所示。
圖4 利用RGB 圖像的識(shí)別表現(xiàn)Fig. 4 Recognition performance using RGB images
3.2.2 基于礦物高光譜圖像的識(shí)別效果分析
首先對(duì)黃銅礦、 方鉛礦的高光譜圖像進(jìn)行訓(xùn)練分類,驗(yàn)證該網(wǎng)絡(luò)是否能正確識(shí)別不同的礦物種類,表2 展示了兩種礦物在數(shù)據(jù)集上測(cè)試的混淆矩陣。
表2 兩種礦物的實(shí)驗(yàn)結(jié)果Table 2 Result of the two minerals in the test set
實(shí)驗(yàn)測(cè)試集包含19 400 張高光譜圖像,其中,方鉛礦9 700 張,黃銅礦9 700 張。9 387 張方鉛礦圖像被正確識(shí)別,占測(cè)試集比例為48.39%;313 張方鉛礦圖像被識(shí)別為黃銅礦,占測(cè)試集比例為1.61%。 9 511張黃銅礦圖像被正確識(shí)別,占測(cè)試集比例為49.03%;189 張黃銅礦圖像被識(shí)別為方鉛礦,占測(cè)試集比例為0.97%。 識(shí)別正確的圖像共計(jì)18 898 張,識(shí)別正確率為97.41%。 實(shí)驗(yàn)結(jié)果表明本文所提出的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在利用高光譜數(shù)據(jù)學(xué)習(xí)時(shí),能有效區(qū)分礦物的種類。
對(duì)不同粒徑大小的赤鐵礦訓(xùn)練,驗(yàn)證該網(wǎng)絡(luò)是否具有區(qū)分不同尺寸礦石的能力,3 種不同尺寸的赤鐵礦在測(cè)試集上的混淆矩陣如表3 所列。
表3 3 種不同尺寸礦物的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of three minerals of different sizes
實(shí)驗(yàn)測(cè)試集合共包含29 900 張不同粒徑的赤鐵礦高光譜圖像,其中,大粒徑赤鐵礦圖像9 600 張,中粒徑赤鐵礦圖像10 100 張, 小粒徑赤鐵礦圖像10 200 張。 9 079 張大粒徑赤鐵礦圖像被正確識(shí)別,占測(cè)試集比例為30.36%;378 張大粒徑赤鐵礦圖像被識(shí)別為中粒徑赤鐵礦,143 張被識(shí)別為小粒徑赤鐵礦。 9 387 張中粒徑赤鐵礦圖像被正確識(shí)別,站測(cè)試集比例為31.39%;252 張中粒徑赤鐵礦圖像被識(shí)別為大粒徑赤鐵礦,461 張中粒徑赤鐵礦圖像被識(shí)別為小粒徑赤鐵礦。 9 860 張小粒徑赤鐵礦圖像被正確識(shí)別, 占測(cè)試集比例為32.98%;168 張小粒徑赤鐵礦圖像被識(shí)別為大粒徑赤鐵礦,172 張小粒徑赤鐵礦圖像被識(shí)別為中粒徑赤鐵礦。 識(shí)別正確的圖像共計(jì)28326張,識(shí)別正確率為94.73%。 結(jié)果表明,本文所提的利用高光譜數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)能滿足礦物加工時(shí)的分類需求。
針對(duì)目前礦石種類復(fù)雜、大小不一、加工方法難以選擇的情況, 提出利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)礦石自動(dòng)分類分級(jí),為后續(xù)生產(chǎn)過(guò)程中,對(duì)不同礦物選擇不同礦物加工方法,提升精選效率,并減少?gòu)U渣提供有效的保障。
為了篩選出礦物表達(dá)能力強(qiáng)的數(shù)據(jù),本文比較了礦物的RGB 圖像和高光譜圖像經(jīng)深度網(wǎng)絡(luò)學(xué)習(xí)后的識(shí)別結(jié)果,發(fā)現(xiàn)前者的識(shí)別結(jié)果僅為39.52%,而基于高光譜圖像的識(shí)別結(jié)果達(dá)到了94.7%以上(黃銅礦和方鉛礦的分類準(zhǔn)確率為97.41%,3 種粒徑大小的赤鐵礦分類正確率為94.73%)。 因此,本文采用的卷積神經(jīng)網(wǎng)絡(luò)能有效學(xué)習(xí)到輸入數(shù)據(jù)的隱藏特征,達(dá)到礦物種類分類分級(jí)的要求,解決了礦物加工方法選擇過(guò)程中顧此失彼的問(wèn)題。 礦物RGB 的識(shí)別表現(xiàn)低下的原因可能是因?yàn)镽GB 圖像所攜信息較為單一, 不足以判斷礦物種類,后續(xù)關(guān)于選礦方法的研究所采用的特征可重點(diǎn)考慮高光譜信息。 另外,由于以上實(shí)驗(yàn)數(shù)據(jù)是針對(duì)實(shí)驗(yàn)環(huán)境,有限礦物種類下,脫機(jī)訓(xùn)練完成的。 未考慮實(shí)際生產(chǎn)中礦物種類多、分類時(shí)間要求短的情況,因此,后續(xù)研究將著重于解決復(fù)雜條件下的多種礦物快速分類問(wèn)題。