• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      影像解譯中的深度學(xué)習(xí)可解釋性分析方法

      2022-07-05 08:12:06龔健雅宦麟茜鄭先偉
      測繪學(xué)報(bào) 2022年6期
      關(guān)鍵詞:解釋性分類器分析法

      龔健雅,宦麟茜,鄭先偉

      1.武漢大學(xué)測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室,武漢 430079;2.武漢大學(xué)遙感信息工程學(xué)院,武漢 430079

      算法的可解釋性一直是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要研究問題??山忉屝匝芯康哪康脑谟谧屓祟惸芾斫馑惴ǖ倪\(yùn)行機(jī)理,以及做出某種推斷的原因。如果一個(gè)算法具備良好的可解釋性,不僅有利于開發(fā)者改進(jìn)算法,增強(qiáng)使用者對(duì)該算法的信任度,同時(shí)可進(jìn)一步在使用中確定是否需要人機(jī)交互以避免錯(cuò)誤的決策。

      近年來,隨著深度學(xué)習(xí)對(duì)大量研究問題智能化的推進(jìn),可解釋人工智能系統(tǒng)(XAI)受到越來越多的重視。由于依賴大量數(shù)據(jù)誤差后向傳播而實(shí)現(xiàn)參數(shù)優(yōu)化,深度學(xué)習(xí)模型通常被比喻為“黑箱”,即難以用人類思維直接理解模型的具體含義和行為。事實(shí)上,在機(jī)器學(xué)習(xí)領(lǐng)域,復(fù)雜的算法(如隨機(jī)森林)雖然通常比簡單的算法(如線性回歸)在較難的問題上有更好的表現(xiàn),但同時(shí)也會(huì)帶來較低的可解釋性,如圖1所示。而相比于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,深度神經(jīng)網(wǎng)絡(luò)中每個(gè)隱含層的神經(jīng)元輸出基本由上層輸出特征的線性組合經(jīng)過一個(gè)非線性變換產(chǎn)生,神經(jīng)元的龐大數(shù)量、強(qiáng)波動(dòng)性、復(fù)雜組合均使得直接理解深度神經(jīng)網(wǎng)絡(luò)參數(shù)含義和運(yùn)作方式變得十分困難。因此,對(duì)深度學(xué)習(xí)算法進(jìn)行可解釋性分析以判斷模型的決策原理,也成為一個(gè)極具挑戰(zhàn)性的問題。

      圖1 模型可解釋性與模型復(fù)雜度的關(guān)系

      在影像解譯領(lǐng)域,對(duì)深度學(xué)習(xí)模型的可解釋性研究主要集中于研究不同的可視化算法,從而以人類可理解的方式揭示一個(gè)訓(xùn)練好的深度網(wǎng)絡(luò)模型所學(xué)習(xí)的信息。雖然,當(dāng)前可解釋性的研究尚未能使深度學(xué)習(xí)模型完全透明化,但已有一些實(shí)踐證明可解釋性的研究對(duì)理解模型運(yùn)作機(jī)制有良好的促進(jìn)作用。例如,文獻(xiàn)[1]發(fā)現(xiàn),在PASCAL VOC數(shù)據(jù)[2]上表現(xiàn)良好的模型會(huì)以圖片上的水印作為判斷圖中目標(biāo)物體是馬的依據(jù)。而文獻(xiàn)[3]則發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)模型會(huì)根據(jù)圖上場景中是否有雪來區(qū)分狼和哈士奇。文獻(xiàn)[4]則通過圖像紋理信息(如給貓的圖像換上象皮的紋理),發(fā)現(xiàn)網(wǎng)絡(luò)模型主要通過紋理來判斷目標(biāo)類別,并基于這一發(fā)現(xiàn)改進(jìn)了分類算法的分類精度及對(duì)噪聲的穩(wěn)健性。

      因此,通過可視化方法研究深度學(xué)習(xí)模型的可解釋性,對(duì)模型的設(shè)計(jì)、優(yōu)化和安全性提升等方面有著重要意義。

      1 可解釋性分析方法

      深度學(xué)習(xí)可解釋性方法主要探究一個(gè)已訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型如何進(jìn)行推斷。當(dāng)前影像解譯相關(guān)的可解釋方法主要可分為:激活值最大化分析法(activation maximization methods)、代理模型分析方法(surrogate models)、歸因分析法(attribution methods)、擾動(dòng)分析法(perturbation-based method)、類激活圖分析法(class activation map)和樣例分析法(example-based methods)。激活值最大化和代理模型分析法主要通過優(yōu)化或者近似的手段可視化網(wǎng)絡(luò)模型學(xué)習(xí)到的特征;歸因分析法、擾動(dòng)分析法和類激活圖分析法生成顯著圖(saliency map)來反映影像中不同像素對(duì)推斷結(jié)果的影響;樣例分析法關(guān)注尋找具有代表性的正、負(fù)樣本??山忉屝苑治龇椒赏茢嗄P妥龀鰶Q策的原因,從而為模型改進(jìn)、數(shù)據(jù)分析、人機(jī)交互以及決策等提供重要輔助信息。

      1.1 激活值最大化分析法

      給定模型中的一個(gè)神經(jīng)元(neuron),激活值最大化分析法通過反向傳播的方式(back-propagation),合成可最大化該神經(jīng)元激活值的影像,以可視化該神經(jīng)元所偏好的模式,從而反映其編碼的特征[5]。文獻(xiàn)[6]認(rèn)為,如果一個(gè)神經(jīng)元對(duì)某種影像模式有極大的響應(yīng)值,那么該模式可視為是此神經(jīng)元所學(xué)習(xí)內(nèi)容的一個(gè)良好一階表達(dá)?;谶@個(gè)思想,文獻(xiàn)[6]在2009年提出激活值最大化分析法,以獲得深度網(wǎng)絡(luò)中高層特征的定量解釋。由于激活值最大化分析法易生成能帶來高激活值的不真實(shí)圖像(圖2),部分研究向目標(biāo)函數(shù)中加入圖像先驗(yàn)約束(如表1(b)所示),以減少合成影像中出現(xiàn)難以解釋的高頻噪聲模式[5,7],從而通過梯度上升迭代生成人類可理解的圖片。比如,L2正則項(xiàng)常用于減少合成圖像中數(shù)值過高的像素值[8](arXiv:1506.06579.2015),則高斯模糊(Gaussian blur)和全變分(total variation)約束則可在優(yōu)化迭代中懲罰高頻信息[9](arXiv:1506.06579.2015)。在采用全變分正則項(xiàng)的基礎(chǔ)上,有學(xué)者進(jìn)一步設(shè)計(jì)基于數(shù)據(jù)驅(qū)動(dòng)的圖像塊先驗(yàn)正則項(xiàng)(arXiv:1507.02379,2015),以約束網(wǎng)絡(luò)模型可視化中的色彩分布;而文獻(xiàn)[9]則引入了隨機(jī)圖像抖動(dòng)操作(random jitter)[10](arXiv:1602.03616,2016)來間接約束圖像的合成。雖然施加正則化處理有助于生成可解釋性高的特征影像,但生成的影像傾向包含重復(fù)性的局部物體特征,故主要反映給定神經(jīng)元所偏好的局部特征,而無法展現(xiàn)網(wǎng)絡(luò)是否學(xué)習(xí)到全局結(jié)構(gòu)信息[5]。因此,部分學(xué)者探索加強(qiáng)合成影響的全局一致性(global coherence),以合成更自然易讀的特征影像(arXiv:1602.03616,2016)。

      表1 激活值最大化分析法的3種類型[5]

      注:藍(lán)色虛線表示前向傳播,橙色虛線表示后向傳播

      圖4對(duì)比了兩種基于人工先驗(yàn)的激活值最大分析法和DGN-AM所生成的影像,由圖可見DGN-AM可以生成強(qiáng)真實(shí)性的合成影像,從而易于使用者識(shí)別網(wǎng)絡(luò)模型所學(xué)習(xí)的信息。

      圖4 文獻(xiàn)[7,9]為兩種使用人工先驗(yàn)的方法,文獻(xiàn)[11]為DGN-AM方法

      1.2 代理模型分析方法

      代理模型分析法通過使用可解釋的算法來局部近似復(fù)雜的模型,從而解釋復(fù)雜模型的預(yù)測原理。文獻(xiàn)[3]提出了局部解釋法LIME(local interpretable model-agnostic explanations),以一組可解釋的模型(如線性模型和決策樹等)來解釋復(fù)雜算法,并證明所提出的LIME可用于任意分類器。如谷歌的Inception網(wǎng)絡(luò)和支持向量機(jī)SVM。文獻(xiàn)[13]通過無監(jiān)督的方法從卷積神經(jīng)網(wǎng)絡(luò)的卷積層中自動(dòng)分離出不同的物體部分模式,從而構(gòu)造出一個(gè)解釋圖,以揭示卷積神經(jīng)網(wǎng)絡(luò)內(nèi)部的知識(shí)層次結(jié)構(gòu)。如圖5所示,解釋圖中的每個(gè)節(jié)點(diǎn)代表一個(gè)部件模式,且圖中的每條邊編碼共同激活關(guān)系和模式間的空間關(guān)系。類似地,文獻(xiàn)[14]通過決策樹對(duì)隱藏在神經(jīng)網(wǎng)絡(luò)全卷積層中的決策模式進(jìn)行由精到細(xì)的編碼,從而對(duì)卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測進(jìn)行語義級(jí)的解釋。通過這樣的決策樹,使用者可以確定不同物體的部件對(duì)預(yù)測結(jié)果的貢獻(xiàn)程度。由于尋找近似的代理模型與用于模型壓縮的知識(shí)蒸餾技術(shù)相似,部分學(xué)者通過知識(shí)蒸餾的方法將龐大的神經(jīng)網(wǎng)絡(luò)模型所學(xué)習(xí)的知識(shí)提取到可解釋的模型中,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)模型的解釋。例如,文獻(xiàn)[15]利用知識(shí)蒸餾技術(shù)讓決策樹模型擁有與深度神經(jīng)網(wǎng)絡(luò)相近的知識(shí),以同時(shí)獲得較好的任務(wù)表現(xiàn)和可解釋性,而文獻(xiàn)[16]采用將卷積神經(jīng)網(wǎng)絡(luò)模型所學(xué)習(xí)的知識(shí)蒸餾到一個(gè)可解釋的加性模型中,從而定量地解釋網(wǎng)絡(luò)模型的預(yù)測。

      圖5 用解釋圖表示卷積神經(jīng)網(wǎng)線的卷積層中所學(xué)習(xí)到的不同物體部分的知識(shí)[13]

      1.3 歸因分析法

      基于逐層傳播的方法主要通過設(shè)計(jì)反向傳播的方式(back-propagation),來尋找輸入圖像中能最大激活某種特征的模式[21]。DeConvNet[22]使用一個(gè)多層反卷積網(wǎng)絡(luò)[23],將模型學(xué)習(xí)到的特征投射回輸入像素空間以觀察不同階段神經(jīng)元所學(xué)習(xí)到的信息;指導(dǎo)型反向傳播技術(shù)(guided back-propagation)[24]通過限制負(fù)梯度的回傳,以剔除可視化的特征中的噪聲;文獻(xiàn)[25]提出激勵(lì)反向傳播(excitation backprop),并通過一個(gè)概率贏家通吃的過程(probabilistic winner-take-all process)在網(wǎng)絡(luò)中傳遞自上而下的信號(hào),來獲得類似顯著性圖的網(wǎng)絡(luò)注意力圖;逐層相關(guān)性傳播技術(shù)(layer-wise relevance propagation)[26]借由設(shè)定局部反向傳播規(guī)則來計(jì)算相鄰層間神經(jīng)元的相關(guān)度,并根據(jù)相關(guān)度將高層信息傳播到低層;DeepLIFT[27]設(shè)計(jì)}“中性”參考輸入(reference input)以通過輸入圖與參考圖之間的差異來解釋模型的決策,由此來減少由于函數(shù)飽和問題造成的反向傳播結(jié)果的偽影。雖然基于梯度的方法與基于逐層信號(hào)傳播的方法在獲得顯著性圖的思路上有所不同,但文獻(xiàn)[20]指出LRP和DeePLIFT實(shí)際上是通過特殊的梯度公式來獲得顯著性圖,并給出了LRP和DeepLIFT對(duì)應(yīng)的改寫梯度公式,見表2。

      表2 文獻(xiàn)[20]中部分歸因分析法顯著性圖計(jì)算公式

      1.4 擾動(dòng)分析法

      擾動(dòng)分析法(perturbation-based method)通過對(duì)輸入使用擾動(dòng)或者遮擋的操作,觀察預(yù)測的變化,來判斷輸入中與給定類別關(guān)系緊密的模式,從而解釋模型預(yù)測的機(jī)理。文獻(xiàn)[22]用灰色塊遮擋輸入圖像的不同部分,從而證明了模型識(shí)別了圖像中物體的位置,而非只是使用了物體周圍的上下文信息。沿用文獻(xiàn)[29]所提出的基于遮擋信息差模型解釋技術(shù),文獻(xiàn)[30]用滑動(dòng)窗口的方法對(duì)輸入圖像進(jìn)行區(qū)域采樣,來尋找對(duì)預(yù)測結(jié)果影響大的圖像塊。給定一個(gè)訓(xùn)練好的分類器、一張輸入圖像與其對(duì)應(yīng)的類別,文獻(xiàn)[31]通過迭代優(yōu)化來獲得一個(gè)對(duì)分類影響最大的最小區(qū)域掩膜,以代表的區(qū)域是分類器決策時(shí)所依賴的顯著區(qū),從而反映分類模型的決策原理?;谙嗤难谀_動(dòng)思路,文獻(xiàn)[32]提出訓(xùn)練掩膜生成模型來尋找對(duì)分類器分類影響較大的輸入圖像中的掩膜M,且M所遮擋的區(qū)域滿足兩個(gè)條件:①該區(qū)域是分類器能進(jìn)行可靠預(yù)測所依賴的最小區(qū)域;②當(dāng)該區(qū)域的信息被移除時(shí),會(huì)破壞分類的可靠性。類似地,文獻(xiàn)[33]提出極端擾動(dòng)(extremal perturbation)的概念,即在固定區(qū)域的所有擾動(dòng)中對(duì)網(wǎng)絡(luò)預(yù)測有最大影響的擾動(dòng)。文獻(xiàn)[33]通過尋找滿足一定平滑度的極端擾動(dòng)來確定輸入中的顯著區(qū)域。與文獻(xiàn)[31]和文獻(xiàn)[32]等依賴優(yōu)化的擾動(dòng)分析方法不同,文獻(xiàn)[34]首先隨機(jī)生成多種掩膜與其對(duì)應(yīng)的被遮擋輸入,然后基于輸出的分?jǐn)?shù)計(jì)算不同掩膜對(duì)應(yīng)的權(quán)重,最后對(duì)掩膜進(jìn)行加權(quán)平均獲得顯著性圖。擾動(dòng)分析法的思想不僅可用于解釋神經(jīng)網(wǎng)絡(luò)模型,也可用于評(píng)估可解釋性方法的可靠性,及弱監(jiān)督或者全監(jiān)督的目標(biāo)定位任務(wù)[35-37]。

      1.5 類激活圖分析法

      (1)

      (2)

      1.6 樣例分析法

      樣例分析法是一種根據(jù)給定法則生成或者從訓(xùn)練集中選取對(duì)模型預(yù)測有顯著影響的樣本,從而解釋模型決策的方法。樣例分析法所尋找的樣本類型主要有表3所示的幾種。給定一個(gè)模型,基于原型的可解釋性法通常關(guān)注目標(biāo)類別的最具代表性的樣本,而基于影響樣本和反事實(shí)樣本的方法則更關(guān)注模型對(duì)某個(gè)輸入進(jìn)行分類決策的依據(jù)。因此,基于原型的方法可給出較為全局的解釋,而基于影響樣本和反事實(shí)樣本的方法可偏向給出局部解釋。早期樣例分析法主要尋找原型樣本[44-47],文獻(xiàn)[48]認(rèn)為僅使用原型樣本集來解釋模型只適用于較為干凈的數(shù)據(jù),而面對(duì)存在噪聲的真實(shí)數(shù)據(jù),依賴原型樣本容易導(dǎo)致不正確的解釋。因此,文獻(xiàn)[48]提出同時(shí)使用原型樣本和不能被原型樣本集概括的批判樣本來對(duì)模型進(jìn)行解釋,并使用最大平均差異指標(biāo)(maximum mean discrepancy)完成兩種樣本的選取。文獻(xiàn)[49]認(rèn)為原型不一定必須在于已有的觀測數(shù)據(jù)中,并使用自編碼器(auto-encoder)實(shí)現(xiàn)在隱空間中學(xué)習(xí)原型樣本的低維編碼,然后通過解碼器(decoder)還原出對(duì)應(yīng)的原型樣本圖像。

      表3 樣例分析法的目標(biāo)樣本的主要類型

      為提供局部解釋,在經(jīng)典機(jī)器學(xué)習(xí)可解釋性算法里,有大量工作采用刪減診斷法(deletion diagnostics),即刪除某些樣本后重新訓(xùn)練模型,來確定對(duì)模型訓(xùn)練影響較大的樣本[50];而在深度學(xué)習(xí)領(lǐng)域,文獻(xiàn)[51]則提出使用基于一階泰勒近似的影響函數(shù)(influence function)以在無須重新訓(xùn)練模型的情況下,評(píng)估剔除某個(gè)訓(xùn)練樣本對(duì)模型的影響。文獻(xiàn)[52]進(jìn)一步驗(yàn)證了影響函數(shù)不僅可選取單獨(dú)的影響樣本,也可用于選取影響樣本群。

      與解釋模型做出某種預(yù)測的原因的方法不同,基于反事實(shí)樣本的可解釋性方法主要考慮如何通過輕微的擾動(dòng),使給定輸入對(duì)應(yīng)的模型預(yù)測結(jié)果發(fā)生預(yù)定的改變[53-54]。雖然基于反事實(shí)樣本的方法在金融、醫(yī)療健康等方面有著大量的應(yīng)用(arXiv:2010.10596,2020.),但在影像解譯領(lǐng)域,由于其關(guān)注如何修改輸入以獲得期望的預(yù)測,故常用于模型安全問題,而非模型解釋。然而,仍有部分工作通過反事實(shí)樣例來探究為何模型對(duì)輸入不做出某種預(yù)測,從而解釋模型決策的原理。如文獻(xiàn)[55]提出尋找反事實(shí)視覺樣本,從而研究模型做不同決策時(shí)所關(guān)注的目標(biāo)特征的不同。

      2 解釋質(zhì)量評(píng)估

      對(duì)可解釋性分析方法的評(píng)估主要可分為定性和定量評(píng)估。定性評(píng)估指標(biāo)包括連貫性(coherence)、類敏感性(class sensitivity)和連續(xù)性(explanation continuity)[5,7,20],下面列出了幾種常用指標(biāo)的定義。

      (1)連貫性(coherence):指可解釋性方法所給出與預(yù)測密切相關(guān)的輸入模式應(yīng)當(dāng)是具有區(qū)分性的特征。如對(duì)歸因分析法而言,其所給出的顯著性圖所高亮顯示的像素應(yīng)該集中于具有代表性的特征,而非噪聲。

      (2)類敏感性(class sensitivity):指可解釋性方法給出的解釋應(yīng)該對(duì)類別敏感,對(duì)不同的類別可給出不同的解釋。

      (3)選擇性(selectivity):對(duì)于一張輸入影像而言,當(dāng)方法所生成的顯著性圖中被認(rèn)為重要的像素被刪除后,對(duì)應(yīng)的模型預(yù)測類別概率應(yīng)當(dāng)下降。

      (4)連續(xù)性(explanation continuity):對(duì)于相似的輸入,可解釋性方法應(yīng)給出相似的解釋。

      (5)不變性(implementation invariance):當(dāng)兩個(gè)待解釋模型等價(jià)時(shí),即對(duì)同一輸入給出相同預(yù)測結(jié)果,可解釋性方法應(yīng)該對(duì)這兩個(gè)模型給出相同的解釋。

      (6)N階敏感性(sensitivity-N):對(duì)于顯著性圖的分析方法而言,任給N個(gè)像素,若其對(duì)應(yīng)的分值之和等于輸入中遮蔽這些信號(hào)后預(yù)測值的變化差值,則該方法認(rèn)為滿足N階敏感性。式(3)給出了N階敏感性的定義

      (3)

      定量評(píng)估的方法有ROAR法(remove and retrain),KAR法(keep and retrain),網(wǎng)絡(luò)分解法等[56-57]。ROAR法和KAR法由文獻(xiàn)[57]提出,這兩種方法衡量當(dāng)被可解釋性方法給出的重要特征被移除或者針對(duì)性保留時(shí),對(duì)模型的預(yù)測造成影響,且常用于基于顯著性圖的可解釋性方法。這兩種方法的具體操作如下。

      (1)ROAR法:該評(píng)估方法研究當(dāng)顯著性圖中最重要的N%個(gè)像素特征被移除時(shí),重新訓(xùn)練的模型的精度變化。

      (2)KAR法:該評(píng)估方法研究當(dāng)顯著性圖中最不重要的N%個(gè)像素特征被移除時(shí),重新訓(xùn)練的模型的精度變化。

      文獻(xiàn)[38]和文獻(xiàn)[39]通過使用生成的類激活圖進(jìn)行弱監(jiān)督的目標(biāo)定位任務(wù),以證明其類激活圖的解釋準(zhǔn)確度。

      雖然上述評(píng)估指標(biāo)與方法能在一定程度上反映可解釋性方法的表現(xiàn),但這些指標(biāo)對(duì)算法的衡量通常并不全面,具有一定的局限性。比如,一些指標(biāo)只適用于簡單或者特定類型的算法,并且驗(yàn)證一個(gè)方法是否普遍地滿足定性評(píng)估指標(biāo)并不容易;同時(shí),并非滿足的指標(biāo)越多,該方法就越可靠[58]。不同工作所使用的定量評(píng)估方法也并不完全統(tǒng)一,使用者難以進(jìn)行對(duì)比,故現(xiàn)有衡量指標(biāo)難以廣泛用于評(píng)估多種算法的解釋質(zhì)量。因此,如何設(shè)計(jì)適用性更廣泛、更具統(tǒng)一性的評(píng)估方法尚待進(jìn)一步研究。

      3 相關(guān)開源軟件

      隨著深度學(xué)習(xí)的發(fā)展,可解釋性領(lǐng)域中已有部分工作提供了公開可用的工具和代碼。本節(jié)主要給出部分可解釋性方法的開源軟件和代碼,以供研究者深入了解當(dāng)前可解釋性研究的進(jìn)展。文獻(xiàn)[59]提供了基于逐層相關(guān)性傳播技術(shù)的工具箱(layer-wise relevance propagation);文獻(xiàn)[60]發(fā)布了基于Keras框架的開源可解釋庫INNvestigate,其中包含SmoothGrad、DeConvNet和深度泰勒分解多種經(jīng)典歸因分析法;文獻(xiàn)[61]將多種可解釋性方法實(shí)現(xiàn)為Tensorflow(arXiv:1603.04467,2015.)的回調(diào)函數(shù),以簡化可解釋性方法的使用;有文獻(xiàn)提出了基于Pytorch[62]的Captum可解釋性方法庫(arXiv:2009.07896,2020),其中包含了多種基于梯度和擾動(dòng)的可解釋性分析算法,以及相關(guān)的一組評(píng)估指標(biāo),并且提供了基于庫的交互式可視化工具Captum Insights;還有學(xué)者提出了開源的AI Explainability 360工具包(arXiv:1909.03012,2019.),其中包含了較為全面的可解釋性算法種類。除了上述集合了多種解釋性方法的開源庫,大量研究工作也開源了其相關(guān)方法的代碼,如LIME[3]、IG[19]和Group-CAM(arXiv:2103.13859,2021.)等。但由于不同工作使用的深度學(xué)習(xí)框架并不統(tǒng)一,前沿工作的方法不易于整合入已有開源庫中,因此,研究具有較強(qiáng)擴(kuò)展性的開源庫對(duì)可解釋性研究領(lǐng)域有重要意義。

      4 可解釋深度學(xué)習(xí)與遙感影像

      近年來,人工智能算法極大地推進(jìn)了測繪遙感技術(shù)的發(fā)展[63-64],尤其是在遙感智能解譯任務(wù)上,取得了顯著的性能提升[65]。隨著影像解譯可解釋性方法研究的進(jìn)展,部分學(xué)者使用已有可解釋性方法對(duì)遙感影像進(jìn)行分析和算法改進(jìn)。當(dāng)前深度學(xué)習(xí)可解釋性研究主要面向自然影像,而對(duì)遙感影像的特性缺少相關(guān)的研究,故如何針對(duì)遙感影像設(shè)計(jì)可靠的可解釋性算法仍需深入的探索。本節(jié)以使用ResNet50[66]分類網(wǎng)絡(luò)進(jìn)行土地利用分類為例,開展相關(guān)可解釋性分析試驗(yàn),以展示如何將可解釋性方法運(yùn)用于遙感影像分析中。

      4.1 試驗(yàn)設(shè)置

      試驗(yàn)使用UC Merced Land Use數(shù)據(jù)集[67]對(duì)ResNet50網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和測試。該數(shù)據(jù)集共包含21種土地利用類別,每個(gè)類別有100張像素分辨率為1英尺且尺寸為256×256的圖像。本試驗(yàn)將每個(gè)類別數(shù)據(jù)的80%劃分為訓(xùn)練數(shù)據(jù),20%劃分為測試數(shù)據(jù),從而得到1680個(gè)訓(xùn)練樣本和420個(gè)測試樣本。試驗(yàn)使用一張GeForce RTX 3090對(duì)ResNet50進(jìn)行訓(xùn)練,并使用IG[19]、指導(dǎo)型反向傳播技術(shù)(GuidedBP)[24]、SmoothGrad(arXiv:1706.03825,2017)、遮擋分析技術(shù)(occlusion)[22]、Grad-CAM++[40]和Score-CAM[42]對(duì)訓(xùn)練好的ResNet50模型進(jìn)行可解釋性分析。

      4.2 試驗(yàn)結(jié)果與分析

      圖6給出了由IG、指導(dǎo)型反向傳播技術(shù)(GuidedBP)、SmoothGrad、遮擋分析技術(shù)(Occlusion)、Grad-CAM++和Score-CAM共6種可解釋性方法生成的顯著性圖。由圖6可見,6種可解釋性方法生成的顯著性圖具有一定的一致性。試驗(yàn)中所比較的方法皆能對(duì)不同的目標(biāo)給出對(duì)應(yīng)的解釋,故都有較好的類敏感性。這6種方法的顯著性圖雖然都能突出目標(biāo)物體的代表性特征,但也會(huì)在不同程度給噪聲高分值。相較于其他方法而言,由于基于類激活圖技術(shù)的Grad-CAM++與Score-CAM通常以區(qū)域響應(yīng)的形式定位目標(biāo)物體,故在面對(duì)目標(biāo)分布范圍廣的影像時(shí),易給更多的噪聲賦予高分值,如圖6(c)、(d)、(f)、(g)的顯著性圖所示;而面對(duì)目標(biāo)較集中的情況,則能顯示出較好的連貫性,甚至在一些場景中給出更好的顯著性圖(如圖6(b))。因此Grad-CAM++與Score-CAM的連貫性會(huì)隨場景特性發(fā)生明顯變化。

      進(jìn)一步詳細(xì)橫向?qū)Ρ榷鄠€(gè)方法可以發(fā)現(xiàn),作為歸因分析法的IG、GuidedBP和SmoothGrad,可給出細(xì)節(jié)較多的顯著性圖,且GuidedBP和SmoothGrad比IG更為清晰,噪聲更少;與IG等方法不同,遮擋分析法、Grad-CAM++和Score-CAM生成的顯著性圖主要尋找對(duì)決策重要性高的片狀區(qū)域。因此,當(dāng)面對(duì)具體物體的分類解釋時(shí)(如圖6(a)原圖被分為飛機(jī)類),這后3種方法可以給出較好解釋,即分類器的決策依賴目標(biāo)物體所在區(qū)域的信息;然而,當(dāng)面對(duì)用地類型和場景分類時(shí)(如圖6(c)和(g)),由于與決策相關(guān)的信息在影像中較為分散,遮擋分析法、Grad-CAM++和Score-CAM難以確定對(duì)決策重要的區(qū)域,故給出的顯著性圖不能較好地解釋分類器的決策原理。進(jìn)一步縱向?qū)Ρ炔煌跋竦慕忉尳Y(jié)果可發(fā)現(xiàn),分類器對(duì)于不同的影像特性依賴不同的信息。由圖6(a)和(b)的試驗(yàn)結(jié)果可見,ResNet50分類器主要關(guān)注目標(biāo)物體所覆蓋的像素,來判斷場景中物體的類別。圖6(c)和(d)的顯著性圖說明,在對(duì)農(nóng)業(yè)用地與森林用地分類時(shí),分類器主要依賴圖中的紋理信息。換言之,分類器在對(duì)大面積用地進(jìn)行分類時(shí),影像中土地的紋理信息具有較高的重要性。與前兩種情況不同,圖6(e)、(f)、(g)結(jié)果則說明,與場景關(guān)系密切的物體是分類器進(jìn)行決策的重要依據(jù)。例如,在多個(gè)可解釋性方法的顯著性圖中,十字路口的交叉中心、飛機(jī)跑道的地標(biāo)和港口的船舶對(duì)決策都有較高的重要性。

      圖6 不同可解釋性方法生成的顯著性圖對(duì)比(顯著性圖中,像素顏色越深(黑),重要性越高;顏色越淺(白),重要性越低)

      綜上所述,當(dāng)前的可解釋性方法可用于遙感影像土地利用分類模型,且能解釋分類模型對(duì)不同類型的影像進(jìn)行決策時(shí),所依賴的不同信息。然而,在對(duì)大場景用地分類時(shí),部分方法的適用性仍舊有限。

      5 未來與展望

      可解釋性研究是當(dāng)前深度學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一,對(duì)“黑箱”深度學(xué)習(xí)網(wǎng)絡(luò)模型的可解釋性研究在優(yōu)化模型結(jié)構(gòu)、增強(qiáng)安全性、提供決策信息等方面有著重要意義。本文總結(jié)了當(dāng)前影像解譯領(lǐng)域中的6種主流可解釋性方法、相關(guān)定性與定量評(píng)估方法,以及部分集成了6種可解釋性方法的開源庫。為驗(yàn)證當(dāng)前可解釋性方法在遙感影像解譯研究中的適用性,本文給出了部分具有代表性的方法在遙感數(shù)據(jù)上進(jìn)行分類網(wǎng)絡(luò)模型的可解釋性分析。盡管試驗(yàn)表明當(dāng)前可解釋性方法可用于光學(xué)遙感影像分析,但由于當(dāng)前可解釋性方法的研究主要集中于普通自然影像,已有可解釋性方法對(duì)遙感影像中大型場景的適用性有限,并且無法運(yùn)用先驗(yàn)知識(shí)集成地學(xué)抽象規(guī)則,也難以為非RGB遙感影像(如InSAR數(shù)據(jù)和高光譜影像等)的解譯提供可靠解釋。同時(shí),由于當(dāng)前可解釋性方法以解釋分類模型為主,而對(duì)如目標(biāo)檢測和語義分割等高級(jí)任務(wù)的可解釋性研究較少,現(xiàn)有可解釋性方法適用任務(wù)范圍狹窄,難以與當(dāng)前智能AI的發(fā)展齊頭并進(jìn)。故而,要可靠地解釋用于遙感影像分析的深度網(wǎng)絡(luò)模型,亟須研究涵蓋多任務(wù)多遙感影像種類,且可嵌入遙感地學(xué)先驗(yàn)知識(shí)的可解釋性統(tǒng)一框架,從而為模型結(jié)構(gòu)優(yōu)化提供科學(xué)依據(jù)。

      猜你喜歡
      解釋性分類器分析法
      異步機(jī)傳統(tǒng)分析法之困難及其克服
      論行政自由裁量的“解釋性控權(quán)”
      法律方法(2021年4期)2021-03-16 05:35:16
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      英漢互譯中的認(rèn)知隱喻翻譯探究
      文教資料(2018年30期)2018-01-15 10:25:06
      基于時(shí)間重疊分析法的同車倒卡逃費(fèi)探析
      融媒體時(shí)代解釋性報(bào)道的發(fā)展之路
      傳播力研究(2017年5期)2017-03-28 09:08:30
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      非解釋性憲法適用論
      層次分析法在SWOT分析法中的應(yīng)用
      吴旗县| 普兰县| 阜城县| 天全县| 即墨市| 平利县| 宣恩县| 左贡县| 金堂县| 江永县| 车险| 库尔勒市| 安化县| 东阳市| 台东市| 泾源县| 汤原县| 友谊县| 甘肃省| 迭部县| 兴国县| 新绛县| 金堂县| 南平市| 祥云县| 英超| 漳州市| 乌兰县| 锦屏县| 韶关市| 青海省| 广河县| 丹棱县| 西昌市| 安塞县| 通城县| 蓝田县| 信宜市| 遵义县| 云霄县| 永顺县|