馬明剛,潘月梁,彭澤豹,王龍寶
(1.浙江寧海抽水蓄能有限公司,浙江 寧海 315600;2.河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)
巖性識別作為地質(zhì)勘探、施工質(zhì)量監(jiān)控等工作中的重要環(huán)節(jié),在水利、電力、礦業(yè)等領(lǐng)域被廣泛研究。常規(guī)的巖性識別方法包括肉眼觀察[1]、薄片鑒定和試驗(yàn)分析[2],但識別周期長,識別成本高以及主觀性強(qiáng)。自動化巖性識別手段包括傳統(tǒng)圖像處理技術(shù)和機(jī)器學(xué)習(xí)方法,傳統(tǒng)圖像處理手段包括提取和量化巖石圖像信息、利用濾波技術(shù)進(jìn)行巖石色彩和紋理分析等[3-5]。然而,受限于試驗(yàn)數(shù)據(jù)類別和顏色通道數(shù)量,在分析中存在計(jì)算量大、復(fù)雜度高、周期長等問題。機(jī)器學(xué)習(xí)模型手段包括多層感知機(jī)分類巖石薄片[5],支持向量機(jī)提取巖石顏色、紋理特征,進(jìn)行巖石薄片巖性分類[6],主成分分析法構(gòu)建巖性單元的特征向量比值,增強(qiáng)巖性的可識別性[7],AlexNet神經(jīng)網(wǎng)絡(luò)構(gòu)建巖石新鮮剖面的巖性分類模型[8],以及結(jié)合遷移學(xué)習(xí)建立深度學(xué)習(xí)模型進(jìn)行巖性識別[9-10]等。以上對于巖石圖像巖性分類的研究,多集中在提取巖石圖像中的特征信息,無法在少量樣本下進(jìn)行訓(xùn)練至參數(shù)收斂。
然而,由于行業(yè)的特殊性,巖石圖像存在種類多、數(shù)量少的特點(diǎn),部分類別樣本數(shù)量匱乏,造成數(shù)據(jù)樣本分布非常不均勻,如按常規(guī)深度學(xué)習(xí)方法進(jìn)行訓(xùn)練,會造成網(wǎng)絡(luò)的過擬合,無法取得令人滿意的結(jié)果。同時(shí),研究對象多為巖石薄片圖像而非光學(xué)圖像,不符合野外實(shí)時(shí)分類的要求。為此,本文提出基于一種融合注意力自適應(yīng)元學(xué)習(xí)的巖性分類方法,以巖石光學(xué)圖像為輸入對象,能在少樣本場景和有限的計(jì)算資源下,根據(jù)積累先驗(yàn)知識快速學(xué)習(xí)新的識別任務(wù),在巖石圖像特征分布不均衡的條件下,實(shí)現(xiàn)少樣本場景下的巖石分類問題。
在經(jīng)典的元學(xué)習(xí)算法基礎(chǔ)上融合注意力機(jī)制,提出融合注意力的自適應(yīng)元學(xué)習(xí)巖性分類方法,解決巖石圖像數(shù)據(jù)集特征提取不充分以及權(quán)值更新缺乏自適應(yīng)情況,致使巖性分類的準(zhǔn)確率較低的問題。
元學(xué)習(xí)被稱為“學(xué)習(xí)如何學(xué)習(xí)”[11],元學(xué)習(xí)的提出是針對傳統(tǒng)深度學(xué)習(xí)模型,在少樣本場景下存在的泛化性能有所欠缺、不能快速適應(yīng)新任務(wù)的問題,其目標(biāo)在于設(shè)計(jì)一種有著與人類相似的學(xué)習(xí)能力深度的學(xué)習(xí)模型,利用先前的學(xué)習(xí)中提取的先驗(yàn)知識,僅僅使用少量的數(shù)據(jù)獲得相關(guān)經(jīng)驗(yàn)進(jìn)行快速學(xué)習(xí)[12-13]。
基于優(yōu)化方法的元學(xué)習(xí)基本思路為:將元學(xué)習(xí)視為一個(gè)雙層循環(huán)優(yōu)化的問題,分別是基礎(chǔ)學(xué)習(xí)器層面和元學(xué)習(xí)器層面,包括LSTM元學(xué)習(xí)器、MAML、iMAML,此外,以MAML算法作為基本框架,衍生出了一系列優(yōu)秀的元學(xué)習(xí)算法,包括LLAMA、BMAML、PLATIPUS等,應(yīng)用概率論的理論在MAML的基礎(chǔ)上進(jìn)行擴(kuò)展,提供多個(gè)方案來解決任務(wù)。
在圖像分類任務(wù)中,基于優(yōu)化的方法重點(diǎn)在于學(xué)習(xí)圖像之間最容易作為分類依據(jù)的關(guān)鍵特征,即學(xué)習(xí)如何快速適應(yīng)新任務(wù)的能力。但MAML算法由于其梯度下降學(xué)習(xí)機(jī)制,內(nèi)層循環(huán)存在訓(xùn)練瓶頸,學(xué)習(xí)率的設(shè)置嚴(yán)重影響內(nèi)層循環(huán)的梯度下降效率,且需要人工干預(yù)。
巖性分類的目標(biāo)是識別輸入巖石圖像的巖石類別。提出的融合注意力的自適應(yīng)元學(xué)習(xí)巖性分類方法(Adaptive Meta-Learning with Fused Attention,F(xiàn)A-AML)包括融合注意力的特征提取網(wǎng)絡(luò)和自適應(yīng)元網(wǎng)絡(luò)。
FA-AML由基礎(chǔ)學(xué)習(xí)器以及自適應(yīng)元網(wǎng)絡(luò)組成。其中,基礎(chǔ)學(xué)習(xí)器包含融合注意力的殘差注意網(wǎng)絡(luò)和分類層;自適應(yīng)元網(wǎng)絡(luò)則根據(jù)每個(gè)步驟的當(dāng)前權(quán)重和梯度值生成學(xué)習(xí)率與正則項(xiàng)系數(shù)超參數(shù)。FA-AML可以在少樣本場景下充分提取巖石圖像特征,獲得最具區(qū)分性的特征信息,解決巖石圖像特征分布不均衡的問題。同時(shí),在元學(xué)習(xí)訓(xùn)練過程中每個(gè)內(nèi)部循環(huán)迭代能夠適應(yīng)給定的任務(wù),解決權(quán)值更新適應(yīng)性問題。整體框架見圖1。
圖1 FA-AML整體框架
1.2.1 融合注意力的特征提取網(wǎng)絡(luò)
在少樣本的巖性分類場景中,由于缺乏足夠的巖石圖像數(shù)據(jù),沒有足夠的數(shù)據(jù)使得網(wǎng)絡(luò)微調(diào)至擬合,因此深層網(wǎng)絡(luò)架構(gòu)往往在少樣本條件下是沒有用的。注意力機(jī)制的提出使得深度學(xué)習(xí)模型更有效和更有目的性,利用注意力機(jī)制巧妙地提取巖石圖像中的重要信息而忽略無關(guān)信息,提高網(wǎng)絡(luò)的表征能力。
為充分地嵌入巖石圖像特征,設(shè)計(jì)巖石圖像特征提取網(wǎng)絡(luò)MLA-ResNet-12,將改進(jìn)的卷積注意力模塊嵌入至殘差網(wǎng)絡(luò)ResNet-12,更有效地提取巖石圖像特征,緩解特征分布不均衡的問題,自適應(yīng)引導(dǎo)分類。改進(jìn)后的卷積注意力模塊見圖2。該注意力模塊包含2個(gè)分支:空間注意力與通道注意力(見圖3),提取這2個(gè)主要維度中有意義的巖石圖像特征。
圖2 注意力模塊
圖3 注意力模塊2個(gè)分支
在乘法過程中,空間注意力和通道注意力并行計(jì)算,能夠在有限的樣本數(shù)據(jù)中獲得足夠的特征信息??臻g注意力模塊給出了在網(wǎng)絡(luò)學(xué)習(xí)過程中關(guān)注的位置的描述,而通道注意力模塊給出了在學(xué)習(xí)過程中的內(nèi)容。同時(shí),采用擠壓激勵網(wǎng)絡(luò)策略,通過額外的全局最大池化操作,在單層中提取更多的通道信息,并在通道注意力模塊中嘗試通過2個(gè)分支的組合獲得更好的特征。
1.2.2 超參數(shù)自適應(yīng)元網(wǎng)絡(luò)
超參數(shù)自適應(yīng)元網(wǎng)絡(luò)(HAML)在MAML的基礎(chǔ)上引入一個(gè)小型的元網(wǎng)絡(luò),自動更新超參數(shù)(學(xué)習(xí)率與正則項(xiàng)系數(shù)),使訓(xùn)練在任務(wù)條件下的內(nèi)環(huán)更新更有效,其自適應(yīng)規(guī)則與基于梯度下降的優(yōu)化算法有相似之處。其中,每個(gè)權(quán)值的學(xué)習(xí)率可以由過去梯度的累積矩來調(diào)節(jié),這些超參數(shù)是由一個(gè)元網(wǎng)絡(luò)生成的,該元網(wǎng)絡(luò)經(jīng)過明確的訓(xùn)練,以實(shí)現(xiàn)對看不見的例子的泛化。該方法具有自適應(yīng)學(xué)習(xí)速率和正則化超參數(shù)的能力,可控制權(quán)值更新的方向和幅度。
綜合基礎(chǔ)學(xué)習(xí)器以及自適應(yīng)元網(wǎng)絡(luò)解決巖石圖像樣本數(shù)量少、樣本分布不均衡的問題,達(dá)到一個(gè)良好的巖性分類效果。
巖石圖像數(shù)據(jù)集Rock-ImageNet是通過巖石數(shù)據(jù)庫、網(wǎng)絡(luò)搜索、某大壩現(xiàn)場無人機(jī)拍攝等不同手段采集所得。對樣本數(shù)據(jù)集進(jìn)行逐一人工篩選,剔除模糊、對焦不清晰的巖石圖像,根據(jù)巖性將樣本進(jìn)行分類整理、常規(guī)幾何變換,制作成2 437張20類常見巖石圖像。巖石數(shù)據(jù)集圖像示例見圖4。
圖4 巖石數(shù)據(jù)集圖像示例
在元數(shù)據(jù)集制作中,首先對上述數(shù)據(jù)集進(jìn)行小樣本任務(wù)劃分,從數(shù)據(jù)集的類別中隨機(jī)抽取若干類別的圖像,再在剩余的類別中再抽取若干類別的圖像作為試驗(yàn)驗(yàn)證集圖像,最后剩余類別的樣本作為測試集圖像。具體分類情況為:9類元訓(xùn)練集、5類元驗(yàn)證集、6類元測試集。
2.2.1 超參數(shù)設(shè)置
融合注意力的特征提取網(wǎng)絡(luò)由4個(gè)融合注意力的殘差單元構(gòu)成,每個(gè)殘差塊包含3個(gè)卷積層、64個(gè)濾波器(3×3)、批量歸一化層、ReLU函數(shù)。此外,將注意力模塊中的空間注意力調(diào)節(jié)器參數(shù)T設(shè)置為1倍epochs捕捉巖石圖像中的細(xì)節(jié)信息,以便更好地進(jìn)行巖性分類。同時(shí),對于所引入的超參數(shù)生成網(wǎng)絡(luò),采用了1個(gè)層間ReLU激活的3層MLP。超參數(shù)生成網(wǎng)絡(luò)在每一個(gè)內(nèi)環(huán)更新步驟時(shí)都是基于基礎(chǔ)學(xué)習(xí)器網(wǎng)絡(luò)的梯度和權(quán)值的分層均值。
對于巖石圖像數(shù)據(jù)集的N-way K-shot分類問題,采用經(jīng)典的5-way 1-shot和5-way 5-shot的epoch小樣本任務(wù)設(shè)定。網(wǎng)絡(luò)訓(xùn)練損失函數(shù)選擇交叉熵函數(shù)E,即
(1)
式中,pi(j)和qi(j)分別為在第i個(gè)類別中的第j個(gè)樣本的真實(shí)值與預(yù)測值。
損失函數(shù)的E值越小,預(yù)測值與真實(shí)值越接近。因此,模型訓(xùn)練的最終目標(biāo)是希望損失函數(shù)的值達(dá)到最小。試驗(yàn)過程中,批處理(batch size)設(shè)置為16,超參數(shù)生成網(wǎng)絡(luò)的初始學(xué)習(xí)率為1×10-4,訓(xùn)練次數(shù)取值(epoch)為100,每次訓(xùn)練元任務(wù)數(shù)設(shè)置為1×102,初始權(quán)重衰減為1×10-6。
2.2.2 評價(jià)指標(biāo)
評價(jià)指標(biāo)使用測試階段的測試準(zhǔn)確率來評價(jià)所提模型的分類性能,其中測試準(zhǔn)確率簡稱為準(zhǔn)確率。訓(xùn)練階段,每個(gè)epoch訓(xùn)練結(jié)束,對網(wǎng)絡(luò)模型進(jìn)行評估驗(yàn)證并統(tǒng)計(jì)驗(yàn)證結(jié)果,每個(gè)epoch的驗(yàn)證準(zhǔn)確率為驗(yàn)證結(jié)果的平均值。測試階段,在元測試集上隨機(jī)構(gòu)建1×102個(gè)測試任務(wù),用于測試模型性能,測試結(jié)果平均值作為測試準(zhǔn)確率。其中,每次任務(wù)置信區(qū)間為95%。
為了驗(yàn)證所提出的元學(xué)習(xí)方法的性能,在自建巖石圖像數(shù)據(jù)集Rock-ImageNet上進(jìn)行性能對比試驗(yàn),將FA-AML和以下方法進(jìn)行比較:
(1)匹配網(wǎng)絡(luò)?;谧⒁饬陀洃浟C(jī)制,利用余弦距離作為網(wǎng)絡(luò)的度量函數(shù),計(jì)算網(wǎng)絡(luò)根據(jù)對支持樣本和查詢樣本進(jìn)行編碼后結(jié)果的相似度確定查詢樣本的類別屬性。
(2)原型網(wǎng)絡(luò)。通過平均每個(gè)類支持示例的提取特征計(jì)算類代表或原型,預(yù)測最接近的類原型為輸出類。
(3)關(guān)系網(wǎng)絡(luò)。該網(wǎng)絡(luò)包含嵌入模塊和關(guān)系模塊。其中,嵌入模塊用于提取數(shù)據(jù)樣本特征;關(guān)系模塊由卷積網(wǎng)絡(luò)構(gòu)成,利用樣本間的特征相似度進(jìn)行計(jì)算從而完成分類。
(4)MAML(4-CONV)。以4層的卷積網(wǎng)絡(luò)(4-CONV)作為特征提取網(wǎng)絡(luò),MAML創(chuàng)造一種獨(dú)特的模型訓(xùn)練結(jié)構(gòu),雙層循環(huán)結(jié)構(gòu)的訓(xùn)練過程能夠有效地使模型不再傾向于數(shù)據(jù)本身,而是針對新的不同任務(wù)適應(yīng)層面,即盡可能學(xué)習(xí)一種快速適應(yīng)新的任務(wù)的能力。
(5)MAML(ResNet-12)。與MAML(4-CONV)唯一不同的是利用殘差網(wǎng)絡(luò)ResNet-12作為特征提取網(wǎng)絡(luò)。
不同元學(xué)習(xí)方法圖像分類對比試驗(yàn)結(jié)果見表1。從表1可知,F(xiàn)A-AML在自建巖石數(shù)據(jù)集的試驗(yàn)效果均優(yōu)于其他基線方法,達(dá)到了良好的分類性能。對于5-way 1-shot任務(wù),所提出的FA-AML比匹配網(wǎng)絡(luò)、原型網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)、MAML(4-CONV)以及MAML(ResNet-12)分別提高了5.84%、1.83%、0.93%、4.02%和1.79%。在5-way 5-shot中,F(xiàn)A-AML比匹配網(wǎng)絡(luò)、原型網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)、MAML(4-CONV)以及MAML(ResNet-12)分別提高了6.81%、4.05%、1.52%、3.96%和2.54%。所提出的FA-AML方法在5-way 1-shot、5-way 5-shot設(shè)置下的平均增益比其他5種方法分別高出2.88%和3.58%。另外,在5-way 5-shot設(shè)置下,F(xiàn)A-AML算法的分類準(zhǔn)確率達(dá)到了75.28%,初步達(dá)到了少樣本情境下巖石圖像分類效果的要求。
表1 不同元學(xué)習(xí)方法圖像分類對比試驗(yàn)結(jié)果 %
從性能對比發(fā)現(xiàn),融合注意力機(jī)制的自適應(yīng)元學(xué)習(xí)FA-AML效果高于傳統(tǒng)的元學(xué)習(xí)分類算法,相比于采用ResNet12作為特征提取網(wǎng)絡(luò)的MAML算法也有較大提升。原因是因?yàn)樵谝胱⒁饬C(jī)制對特征提取網(wǎng)絡(luò)進(jìn)行了優(yōu)化,并且增加了超參數(shù)自適應(yīng)環(huán)節(jié),提升了分類的準(zhǔn)確性。
匹配網(wǎng)絡(luò)作為元學(xué)習(xí)中的度量學(xué)習(xí)的經(jīng)典模型分類效果一般。原型網(wǎng)絡(luò)提出原型點(diǎn)的概念,將同類嵌入向量的均值作為該類的原型點(diǎn),通過聚類思想進(jìn)行分類,相較于匹配網(wǎng)絡(luò)分類效果有所提升。而同樣屬于度量學(xué)習(xí)的關(guān)系網(wǎng)絡(luò),利用關(guān)系網(wǎng)絡(luò)抽取樣本特征并進(jìn)行比對,使用可學(xué)習(xí)的度量函數(shù),提升度量學(xué)習(xí)方法的精度和通用性,分類效果明顯優(yōu)于匹配網(wǎng)絡(luò)以及原型網(wǎng)絡(luò)。MAML作為元學(xué)習(xí)中的經(jīng)典算法,選取不同的特征提取骨干網(wǎng)絡(luò)時(shí),分類效果有明顯差異,使用ResNet-12作為特征提取網(wǎng)絡(luò)的MAML算法比使用4CONV作為特征提取網(wǎng)絡(luò)的MAML算法分類準(zhǔn)確率在巖石數(shù)據(jù)集上分別提升了1.93%和4.12%,可能是因?yàn)镽esNet-12的網(wǎng)絡(luò)結(jié)構(gòu)比4CONV的網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,提取特征更具充分。
融合注意力的自適應(yīng)元學(xué)習(xí)FA-AML整體分類效果最佳,其分類準(zhǔn)確率有顯著提升的原因是:
(1)針對特征提取網(wǎng)絡(luò)的不足,融合注意力機(jī)制使得特征提取網(wǎng)絡(luò)在少樣本情景下充分提取巖石圖像最具區(qū)分性特征,緩解巖石圖像數(shù)據(jù)集存在的特征分布不均衡的問題,從而提高了網(wǎng)絡(luò)的表征能力。
(2)針對元學(xué)習(xí)的訓(xùn)練數(shù)據(jù)維度差異問題,引入1個(gè)超參數(shù)自適應(yīng)網(wǎng)絡(luò)動態(tài)生成學(xué)習(xí)率與正則項(xiàng)系數(shù)的超參數(shù),使得每個(gè)內(nèi)環(huán)迭代都能快速適應(yīng)給定的巖石圖像分類任務(wù)。
設(shè)置消融試驗(yàn)驗(yàn)證融合注意力的特征提取網(wǎng)絡(luò)模塊和自適應(yīng)元網(wǎng)絡(luò)的有效性。
以融合注意力的ResNet-12網(wǎng)絡(luò)與不添加注意力機(jī)制的ResNet-12網(wǎng)絡(luò)作為對照組,超參數(shù)更新均采用自適應(yīng)元網(wǎng)絡(luò)控制,在Rock-ImageNet上進(jìn)行試驗(yàn)。試驗(yàn)設(shè)置5-way 1-shot及5-way 5-shot這2種場景。試驗(yàn)結(jié)果見表2。從表2可知,同樣選擇ResNet-12網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò),融合注意力的MLA-ResNet-12特征提取網(wǎng)絡(luò)表型更好,在Rock-ImageNet上分別提升了1.34%和2.21%,說明融合注意力的特征提取網(wǎng)絡(luò)可以有效提取最具區(qū)分性的圖像特征,緩解樣本分布導(dǎo)致的特征分布不均衡問題,從而幫助模型學(xué)習(xí)到更好的特征表示,提升模型的分類性能。
表2 特征提取網(wǎng)絡(luò)模塊有效性試驗(yàn)結(jié)果 %
為驗(yàn)證超參數(shù)自適應(yīng)元網(wǎng)絡(luò)在面向巖石圖像分類任務(wù)上的有效性,將超參數(shù)自適應(yīng)元網(wǎng)絡(luò)應(yīng)用于MAML、MAML以及自適應(yīng)元網(wǎng)絡(luò)應(yīng)用與隨機(jī)初始化作為對照組,以MLA-ResNet-12作為特征提取網(wǎng)絡(luò),分別在2個(gè)數(shù)據(jù)集上進(jìn)行試驗(yàn),結(jié)果見表3。從表3可知,在Rock-ImageNet數(shù)據(jù)集上,自適應(yīng)元網(wǎng)絡(luò)FA-AML應(yīng)用于MAML時(shí)可以取得最好的分類性能,比只使用MAML框架時(shí)分別提升1.05%和1.84%,即使應(yīng)用于參數(shù)隨機(jī)初始化時(shí),也有顯著的性能提升,說明超參數(shù)自適應(yīng)元網(wǎng)絡(luò)通過使學(xué)習(xí)率和正則化系數(shù)適應(yīng)基礎(chǔ)學(xué)習(xí)器的當(dāng)前學(xué)習(xí)狀態(tài),能夠有效提升少樣本場景下巖石圖像的分類性能。
表3 自適應(yīng)元網(wǎng)絡(luò)有效性試驗(yàn)結(jié)果 %
本文針對巖石圖像樣本少、種類多以及樣本分布不均衡的問題,提出融合注意力的自適應(yīng)元學(xué)習(xí)巖性分類方法FA-AML,從特征提取、超參數(shù)更新2個(gè)方面進(jìn)行研究。通過混合通道注意力與空間注意力的卷積注意力模塊,嵌入包含4個(gè)殘差塊的殘差網(wǎng)絡(luò)ResNet-12,構(gòu)建殘差注意力網(wǎng)絡(luò)MLA-ResNet-12,用于提取巖石圖像最具區(qū)分性特征,解決特征分布不均衡的問題。對于網(wǎng)絡(luò)的超參數(shù)更新,引入一個(gè)小型的元網(wǎng)絡(luò),對學(xué)習(xí)率和正則化系數(shù)進(jìn)行自適應(yīng)更新,提高模型在不同種類巖石分類的泛化性能。結(jié)果表明,本文提出的融合注意力的自適應(yīng)元學(xué)習(xí)能夠充分提取圖像特征,提高權(quán)值自適應(yīng)能力,同時(shí)具有良好的巖石圖像分類效果。