雷霞,羅雄麟
深度學(xué)習(xí)可解釋性研究綜述
雷霞,羅雄麟*
(中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院,北京 102249)(?通信作者電子郵箱luoxl@cup.edu.cn)
隨著深度學(xué)習(xí)的廣泛應(yīng)用,人類越來(lái)越依賴于大量采用深度學(xué)習(xí)技術(shù)的復(fù)雜系統(tǒng),然而,深度學(xué)習(xí)模型的黑盒特性對(duì)其在關(guān)鍵任務(wù)應(yīng)用中的使用提出了挑戰(zhàn),引發(fā)了道德和法律方面的擔(dān)憂,因此,使深度學(xué)習(xí)模型具有可解釋性是使它們令人信服首先要解決的問(wèn)題。于是,關(guān)于可解釋的人工智能領(lǐng)域的研究應(yīng)運(yùn)而生,主要集中于向人類觀察者明確解釋模型的決策或行為。對(duì)深度學(xué)習(xí)可解釋性的研究現(xiàn)狀進(jìn)行綜述,為進(jìn)一步深入研究建立更高效且具有可解釋性的深度學(xué)習(xí)模型確立良好的基礎(chǔ)。首先,對(duì)深度學(xué)習(xí)可解釋性進(jìn)行了概述,闡明可解釋性研究的需求和定義;然后,從解釋深度學(xué)習(xí)模型的邏輯規(guī)則、決策歸因和內(nèi)部結(jié)構(gòu)表示這三個(gè)方面出發(fā)介紹了幾種可解釋性研究的典型模型和算法,另外還指出了三種常見的內(nèi)置可解釋模型的構(gòu)建方法;最后,簡(jiǎn)單介紹了忠實(shí)度、準(zhǔn)確性、魯棒性和可理解性這四種評(píng)價(jià)指標(biāo),并討論了深度學(xué)習(xí)可解釋性未來(lái)可能的發(fā)展方向。
深度學(xué)習(xí);可解釋性;決策歸因;隱層表示;評(píng)價(jià)指標(biāo)
近年來(lái),基于深度學(xué)習(xí)模型的算法已逐步改變?nèi)祟愄幚憩F(xiàn)實(shí)問(wèn)題的方式,深度學(xué)習(xí)在社會(huì)和生活等各個(gè)領(lǐng)域的應(yīng)用呈現(xiàn)高速增長(zhǎng)的趨勢(shì)。由于深度學(xué)習(xí)領(lǐng)域的研究,深度學(xué)習(xí)模型成功地應(yīng)用在醫(yī)療[1-2]、自動(dòng)駕駛[3-4]、圖像處理分類和檢測(cè)[5-6]、語(yǔ)音和音頻處理[7-8]、網(wǎng)絡(luò)安全[9-10]等現(xiàn)實(shí)生活的各種應(yīng)用場(chǎng)景中,但是這種表現(xiàn)更多地依賴于模型復(fù)雜的體系結(jié)構(gòu)和實(shí)驗(yàn)的調(diào)參技術(shù),人們無(wú)法探知深度學(xué)習(xí)模型究竟從數(shù)據(jù)中學(xué)到了哪些知識(shí),如何進(jìn)行最終決策,以及缺乏完備的數(shù)學(xué)理論指導(dǎo)和改進(jìn)深度學(xué)習(xí)模型的表達(dá)能力、訓(xùn)練能力和泛化能力[11-13]。
另外,深度學(xué)習(xí)模型的不可解釋性存在很多的潛在危險(xiǎn),尤其在安全攻防領(lǐng)域[14-16]應(yīng)用方面對(duì)可解釋性的需求尤為明顯。首先,不可解釋性會(huì)降低模型的可信度,難以建立人與機(jī)器之間的信任;另一方面,也會(huì)帶來(lái)難以解決的安全問(wèn)題,作為一個(gè)具有大量參數(shù)的復(fù)雜模型,人們往往難以對(duì)深度學(xué)習(xí)模型的決策進(jìn)行預(yù)判和解釋。例如,即使一個(gè)深度學(xué)習(xí)模型具有很好的性能,在物體識(shí)別任務(wù)上有很好的泛化能力,然而,Szegedy等[17]發(fā)現(xiàn)通過(guò)對(duì)輸入圖像進(jìn)行某種不可察覺的擾動(dòng)就可以任意改變網(wǎng)絡(luò)的預(yù)測(cè),即對(duì)抗樣本攻擊。Nguyen等[18]提出MAP?Elites(Multi?dimensional Archive of Phenotypic Elites)算法,采用訓(xùn)練好的、在ImageNet或MNIST數(shù)據(jù)集上有良好表現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),并利用演化算法的思想隨機(jī)生成對(duì)于人類不可識(shí)別的圖像,但深度學(xué)習(xí)模型以99.99%的可信度將其識(shí)別為特定物體。
因此,盡管深度學(xué)習(xí)模型可以在許多任務(wù)中取得優(yōu)異的表現(xiàn),但考慮到信任[19-21]、道德[22-25]、對(duì)人工智能(Artificial Intelligence, AI)的偏見[26-28],以及對(duì)抗性樣本[29-32]在欺騙分類器決策的影響等問(wèn)題,最近對(duì)深度學(xué)習(xí)可解釋性的研究逐漸增多。為了提高人類對(duì)深度學(xué)習(xí)模型決策的信任度,促進(jìn)決策過(guò)程的透明和公平,需要為深度學(xué)習(xí)模型提供一個(gè)可解釋的解決方案。
鑒于深度學(xué)習(xí)可解釋性研究的理論意義和重要的現(xiàn)實(shí)意義,本文對(duì)近年來(lái)深度學(xué)習(xí)可解釋性的研究進(jìn)展進(jìn)行了系統(tǒng)性的綜述,為進(jìn)一步深入研究建立更高效且具有可解釋性的深度學(xué)習(xí)模型確立良好的基礎(chǔ),圖1給出了綜述內(nèi)容的全面概覽圖。
圖1 綜述內(nèi)容的概覽
隨著深度學(xué)習(xí)模型在醫(yī)療保健、自動(dòng)駕駛、信用評(píng)分和貸款評(píng)估等高風(fēng)險(xiǎn)領(lǐng)域的應(yīng)用,除了關(guān)注模型的準(zhǔn)確性之外,對(duì)深度學(xué)習(xí)模型可解釋性的需求也越來(lái)越高,主要體現(xiàn)在以下三個(gè)方面:
1)提高模型透明度:深度學(xué)習(xí)模型的透明度是指模型所具有的表達(dá)能力和能夠被人類理解的能力。透明度可以是算法本身的一部分,也可以使用外部手段,如使用代理模型進(jìn)行解釋提高透明度。利用黑箱模型給出最終決策讓人們無(wú)法判定其公平性和合理性,因此通過(guò)對(duì)模型內(nèi)部機(jī)制的理解提高其透明度是非常必要的。透明度對(duì)于評(píng)估模型預(yù)測(cè)的結(jié)果和分析模型受到對(duì)抗性樣本攻擊的原因有重要意義。
2)提高模型可信度:深度學(xué)習(xí)模型的可信度是對(duì)人類和終端用戶在動(dòng)態(tài)現(xiàn)實(shí)環(huán)境中對(duì)給定模型的預(yù)期工作的信心的衡量。盡管深度學(xué)習(xí)模型在一些測(cè)試集上表現(xiàn)出了良好的性能,但現(xiàn)實(shí)環(huán)境仍然要復(fù)雜得多,缺乏可靠決策依據(jù)的模型往往可能遭遇到失敗,這對(duì)于一些要求高度可靠的預(yù)測(cè)系統(tǒng)來(lái)說(shuō)可能會(huì)導(dǎo)致災(zāi)難性的結(jié)果。理解一個(gè)深度學(xué)習(xí)模型做出決策的原因和依據(jù)的決策特征,能讓我們判斷模型是否符合常理并分析模型發(fā)生錯(cuò)誤的原因,對(duì)提高終端用戶的信任度至關(guān)重要。因此,往往一個(gè)次優(yōu)決策的具有可解釋性的模型要比一個(gè)沒有任何解釋的高準(zhǔn)確率模型要好。
3)倫理和法律的需求:考慮對(duì)深度學(xué)習(xí)模型做出解釋以評(píng)估算法生成的決策是否符合道德和倫理的標(biāo)準(zhǔn)[33]有很重要的現(xiàn)實(shí)意義。比如,當(dāng)深度學(xué)習(xí)模型應(yīng)用于推薦系統(tǒng)時(shí),保證推薦的內(nèi)容符合道德和倫理的標(biāo)準(zhǔn)至關(guān)重要。文獻(xiàn)[34]中提到法院應(yīng)用深度學(xué)習(xí)模型來(lái)預(yù)測(cè)個(gè)人再次犯罪的可能性以決定誰(shuí)該釋放誰(shuí)該拘留,這也引起了人們對(duì)道德的擔(dān)憂。另外,為了保證預(yù)測(cè)模型不會(huì)因種族等其他因素而產(chǎn)生偏見,準(zhǔn)確性不應(yīng)該作為模型的唯一評(píng)價(jià)指標(biāo),公平性也同樣至關(guān)重要,這也迫切地要求模型具有可解釋性。另一方面,在歐盟的《通用數(shù)據(jù)保護(hù)條例》[35]也有提到,受算法決策影響的個(gè)人具有解釋權(quán)。
由于不同研究者對(duì)可解釋性研究側(cè)重的角度不同,所提出的可解釋性方法也各有不同,總體可分為內(nèi)置可解釋性和事后可解釋性兩大類。內(nèi)置可解釋性[36]的方法是指設(shè)計(jì)本身具有良好的可解釋性的模型;而事后可解釋性的方法是指利用可解釋的方法對(duì)已設(shè)計(jì)好的模型進(jìn)行解釋,給出決策依據(jù)。
線性回歸、樸素貝葉斯模型和決策樹模型等都可以當(dāng)作常用的內(nèi)置可解釋模型,由這些常用的可解釋模型也衍生出了許多復(fù)雜深度學(xué)習(xí)模型的代理模型,進(jìn)而得到事后可解釋性方法。近年來(lái),關(guān)于事后可解釋性的方法不斷被提出,其中主要包括全局可解釋性和局部可解釋性的方法[37]。沒有統(tǒng)一的定義方式,下面分別從全局可解釋性、局部可解釋性和內(nèi)置可解釋性這三個(gè)角度給出如下定義:
圖 2 可解釋性的含義
本章主要從解釋深度學(xué)習(xí)模型的邏輯規(guī)則、決策歸因和內(nèi)部結(jié)構(gòu)表示這三個(gè)方面出發(fā)介紹幾種可解釋性研究的典型方法。
2.1.1基于決策樹的可解釋性方法
基于決策樹或決策規(guī)則的解釋往往是容易被人理解的,因此已有不少研究從深度學(xué)習(xí)模型中提取決策規(guī)則從而獲得可理解的描述,同時(shí)滿足提取的規(guī)則近似于原模型的決策結(jié)果。由于決策樹可以被簡(jiǎn)化為決策規(guī)則集,在本文中沒有明確區(qū)分基于決策樹和決策規(guī)則這兩種解釋方法。
規(guī)則提取的解釋方法大多是全局解釋方法,可分為分解法和教學(xué)法。分解法是指將神經(jīng)網(wǎng)絡(luò)分解到神經(jīng)元層面提取決策規(guī)則來(lái)模仿單個(gè)單元的行為。CRED(Continuous Rule Extractor via Decision tree induction)算法[38]利用決策樹對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行分解,并將從每棵樹中提取的規(guī)則進(jìn)行合并,得到生成規(guī)則。該算法不依賴于網(wǎng)絡(luò)結(jié)構(gòu),只提取數(shù)據(jù)中輸入和輸出變量之間的關(guān)系,同時(shí)適用于連續(xù)和離散的問(wèn)題。
但是,CRED只適用于淺層的網(wǎng)絡(luò),DeepRED(Deep neural network Rule Extraction via Decision tree induction)[39]將CRED擴(kuò)展到任意多個(gè)隱藏層的深度神經(jīng)網(wǎng)絡(luò),該算法使用RxREN(Rule extraction by Reverse Engineering the Neural networks)[40]修剪不必要的輸入,并應(yīng)用算法C4.5[41]簡(jiǎn)化決策樹,從而得到創(chuàng)建簡(jiǎn)約決策樹的統(tǒng)計(jì)方法。
雖然DeepRED能夠構(gòu)建與原始網(wǎng)絡(luò)非常接近的完整樹,但生成的樹可能非常大,并且該方法的實(shí)現(xiàn)需要大量時(shí)間和內(nèi)存,因此可擴(kuò)展性受到限制。另一種教學(xué)法將深度學(xué)習(xí)模型視作一個(gè)黑盒子,直接將輸入映射到輸出來(lái)提取規(guī)則,而不是考慮神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作原理。DecText[42]就是采用經(jīng)過(guò)黑盒子的數(shù)據(jù)來(lái)提取決策規(guī)則,該方法采用遺傳算法對(duì)訓(xùn)練后的網(wǎng)絡(luò)進(jìn)行查詢和原型提取,然后使用原型選擇機(jī)制來(lái)選擇原型的子集,最后,使用ID3或C5.0等標(biāo)準(zhǔn)歸納方法提取決策樹。
給定一個(gè)已訓(xùn)練的神經(jīng)網(wǎng)絡(luò)和一個(gè)期望的輸出向量,一個(gè)原型就是一個(gè)能被歸為期望的輸出類的輸入向量。首先,采用遺傳算法的原型提取方法,其中遺傳算法的適應(yīng)度函數(shù)為:
為了克服決策樹加深對(duì)可解釋性造成的影響,Wu等[43]提出了區(qū)域樹正則化的方法,該方法采用預(yù)定義的覆蓋整個(gè)輸入空間的區(qū)域集所對(duì)應(yīng)的決策樹集很好地逼近深度模型。全局樹正則的定義如下:
2.1.2基于知識(shí)圖譜的可解釋性方法
由于KG大多數(shù)屬于異構(gòu)圖結(jié)構(gòu),對(duì)比其他的數(shù)據(jù)結(jié)構(gòu)有更強(qiáng)的表達(dá)能力,因此,基于KG的可解釋性通常比基于決策樹的解釋方法包含更多信息,更容易讓人類理解。本節(jié)主要從基于路徑的方法和基于嵌入的方法這兩個(gè)方面對(duì)KG在深度學(xué)習(xí)可解釋性中的研究進(jìn)行一個(gè)概述。
1)基于路徑的方法。
為了建模實(shí)體的順序依賴關(guān)系和連接用戶?項(xiàng)目對(duì)的路徑的復(fù)雜關(guān)系,同時(shí)還能在推斷用戶興趣時(shí)能區(qū)分不同路徑的不同貢獻(xiàn)提高模型可解釋性,Wang等[45]提出了一種新的解決方案,稱為知識(shí)感知路徑遞歸網(wǎng)絡(luò)(Knowledge?aware Path Recurrent Network, KPRN),該模型通過(guò)組合實(shí)體和關(guān)系的語(yǔ)義來(lái)生成路徑表示,然后采用長(zhǎng)短期記憶(Long Short?Term Memory, LSTM)網(wǎng)絡(luò)來(lái)建模實(shí)體和關(guān)系的順序依賴關(guān)系。最后,執(zhí)行池操作來(lái)聚合路徑的表示,以獲得用戶?項(xiàng)目對(duì)的預(yù)測(cè)信號(hào)。更重要的是,用一種新的加權(quán)池化操作來(lái)區(qū)分用戶與物品連接的不同路徑的貢獻(xiàn)大小,使模型具有一定的可解釋性。
但KPRN在大規(guī)模KG中完全探索每個(gè)用戶?項(xiàng)目對(duì)的所有路徑是不現(xiàn)實(shí)的。文獻(xiàn)[48]中提出一種稱為策略導(dǎo)向路徑推理(Policy?Guided Path Reasoning, PGPR)的方法,它用強(qiáng)化學(xué)習(xí)的方法去代替有監(jiān)督學(xué)習(xí),通過(guò)一個(gè)智能體自動(dòng)在圖上探索解釋的路徑,使這種方法得到的解釋更加靈活。跟大多數(shù)現(xiàn)有方法不同的是,它不只利用KG來(lái)獲得更準(zhǔn)確的推薦,而且使用知識(shí)執(zhí)行顯式推理,以便通過(guò)可解釋的因果推理過(guò)程生成并支持推薦。
然后,將KGRE?Rec問(wèn)題形式化為馬爾可夫決策過(guò)程(Markov Decision Process, MDP),記為:
PGPR方法的所有實(shí)驗(yàn)是在亞馬遜電子商務(wù)數(shù)據(jù)集[49]上進(jìn)行的,該數(shù)據(jù)集由亞馬遜的產(chǎn)品評(píng)論和元信息組成。KGRE?Rec問(wèn)題的目標(biāo)是推薦測(cè)試集中用戶購(gòu)買的物品,以及每個(gè)用戶?物品對(duì)的推理路徑。與之前的方法相比,PGPR方法在所有數(shù)據(jù)集上的歸一化折損累計(jì)增益(Normalized Discounted Cumulative Gain, NDCG)、命中率、召回率和精度都優(yōu)于所有其他基線。
2)基于嵌入的方法。
基于KG的可解釋性方法的另一個(gè)研究方向是利用KG嵌入模型[50-51],將KG中的元素映射到一個(gè)正則向量空間中,并通過(guò)計(jì)算實(shí)體之間的表示距離來(lái)揭示實(shí)體之間的相似性,這有助于提升算法的性能。然而,KG嵌入方法缺乏發(fā)現(xiàn)多跳關(guān)系路徑的能力。Ai等[52]提出了協(xié)同過(guò)濾(Collaborative Filtering, CF)方法在KG嵌入基礎(chǔ)上進(jìn)行個(gè)性化推薦,然后提出了一種軟匹配算法來(lái)尋找用戶與商品之間的解釋路徑。
由于求解式(12)的所有解在實(shí)際中是不可行的,Ai等[52]采用基于嵌入式的生成框架來(lái)學(xué)習(xí),優(yōu)化目標(biāo)為:
然而,根據(jù)觀察到的關(guān)系找到有效的解釋路徑通常是困難的,于是提出在解釋構(gòu)建的隱空間中進(jìn)行實(shí)體軟匹配,通過(guò)擴(kuò)展softmax函數(shù)來(lái)計(jì)算實(shí)體的概率:
表1對(duì)基于KG的深度學(xué)習(xí)可解釋模型的研究方法進(jìn)行了簡(jiǎn)單的對(duì)比分析。
表1 基于KG的可解釋模型研究的概述
2.2.1特征歸因
特征歸因是根據(jù)輸入特征對(duì)輸出的影響,得到輸入特征對(duì)于決策的重要性大小。下面將特征歸因的解釋方法主要分為基于擾動(dòng)的方法、基于反向傳播的方法和基于代理模型的方法三種。
1)基于擾動(dòng)的方法。
基于擾動(dòng)的可解釋性方法是指通過(guò)探究輸入數(shù)據(jù)的擾動(dòng)對(duì)輸出的影響,從而試圖解釋輸入特征對(duì)相應(yīng)類輸出決策的重要性大小的方法。Zeiler等[54]使用反卷積網(wǎng)絡(luò)DeConvNet將CNN各隱藏層的特征進(jìn)行可視化,另外,通過(guò)遮擋輸入圖像的不同區(qū)域并觀察輸出結(jié)果的變化,找到對(duì)結(jié)果影響最大的特征。模型通過(guò)訓(xùn)練以及反卷積操作后,提取效果最好的特征,并投影到像素空間進(jìn)行可視化。通過(guò)可視化,能夠發(fā)現(xiàn)當(dāng)輸入特征存在一定變形時(shí),輸出特征仍能夠保持不變。同時(shí),每層的可視化結(jié)果反映了網(wǎng)絡(luò)的層次化特點(diǎn),每層可以分別學(xué)習(xí)到圖像的輪廓、顏色和紋理等。另一方面,通過(guò)可視化分析每層的特征以及特征隨模型訓(xùn)練而發(fā)生變化也能更好地改進(jìn)模型結(jié)構(gòu)。
從而,由式(18)得到模型預(yù)測(cè)結(jié)果主要依據(jù)的樣本特征,并且通過(guò)實(shí)驗(yàn)展示了模型對(duì)決策特征的歸因,同時(shí)上述理論還可以用于生成對(duì)抗樣本和修正錯(cuò)誤的標(biāo)注。
然后通過(guò)條件采樣、多元分析、深度可視化在ImageNet和醫(yī)學(xué)影像(MRI腦掃描)兩個(gè)數(shù)據(jù)集上實(shí)現(xiàn)可視化結(jié)果,說(shuō)明了一種可以突出顯示給定輸入圖像中提供支持或者反對(duì)某個(gè)類的證據(jù)的區(qū)域,為分類器決策過(guò)程提供新的視角。
在幾個(gè)基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,RISE與之前的相關(guān)方法相比表現(xiàn)出了更好的性能。
表2對(duì)已有的基于擾動(dòng)的解釋方法的相關(guān)研究做了簡(jiǎn)單的概述和對(duì)比分析。
表2 關(guān)于基于擾動(dòng)的方法的已有研究的總結(jié)
2)基于反向傳播的方法。
以下主要將基于反向傳播的方法分為梯度反向傳播、類激活映射(Class Activation Mapping, CAM)、分層關(guān)聯(lián)傳播這三類典型的方法做介紹。
梯度反向傳播:基于梯度的可解釋性方法是指利用神經(jīng)網(wǎng)絡(luò)中信息流的反向傳遞來(lái)理解輸入的變化對(duì)輸出的影響,以解釋輸入特征對(duì)相應(yīng)類輸出決策的重要性大小的方法。由于損失函數(shù)關(guān)于輸入的梯度反映了損失函數(shù)變化最快的方向,因此使用梯度來(lái)解釋分類決策是一種自然的想法,如在線性模型中,梯度就是模型的權(quán)重系數(shù),能直接反映樣本特征重要性,權(quán)重絕對(duì)值越大,則該特征對(duì)最終預(yù)測(cè)結(jié)果的貢獻(xiàn)越大,反之則越小。這也是線性模型通常被認(rèn)為是可解釋的一個(gè)重要原因。下面具體介紹一些常見的方法。
Simonyan等[58]提出了利用反向傳播推斷特征重要性的解釋方法,通過(guò)計(jì)算模型的輸出類別相對(duì)于輸入圖像的梯度來(lái)求解該輸入圖像所對(duì)應(yīng)的分類顯著圖,從而可視化一個(gè)特定類的輸出決策依據(jù)。Springenberg等[59]結(jié)合了文獻(xiàn)[58]和文獻(xiàn)[54]中的方法提出了導(dǎo)向反向傳播方法,在梯度反向傳播過(guò)程中只考慮正的誤差信號(hào),這種方法有助于解釋深度網(wǎng)絡(luò)中每個(gè)神經(jīng)元對(duì)輸入圖像的影響。
與只計(jì)算輸出針對(duì)當(dāng)前輸入的梯度不同,Sundararajan等[60]提出了一種集成梯度方法,該方法通過(guò)計(jì)算輸入從某些起始值按比例放大到當(dāng)前值的梯度的積分代替單一梯度,具體如下:
盡管上述CAM解釋方法計(jì)算效率高,解釋結(jié)果視覺效果好且易于理解,但缺乏像素級(jí)別梯度可視化解釋方法顯示細(xì)粒度特征重要性的能力。文獻(xiàn)[64]中提出的Grad?CAM++方法能提供更細(xì)粒度的解釋結(jié)果,它只考慮梯度有正誤差信號(hào)時(shí),反向傳播通過(guò)ReLU層,此時(shí)取權(quán)重
圖3 Grad?CAM和Grad?CAM++的說(shuō)明
分層關(guān)聯(lián)傳播:基于梯度的可解釋方法有時(shí)可能會(huì)失效,如考慮一個(gè)分段連續(xù)函數(shù):
另外,分層相關(guān)性傳播的公式為:
顯著性方法旨在解釋深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè),但是當(dāng)解釋對(duì)與模型預(yù)測(cè)無(wú)關(guān)的因素敏感時(shí),解釋方法就會(huì)缺乏可靠性。Kindermans等[67]引入了輸入不變性的概念,它要求歸因方法滿足模型對(duì)輸入轉(zhuǎn)換的不變性,并通過(guò)幾個(gè)例子說(shuō)明不滿足輸入不變性的顯著性方法會(huì)導(dǎo)致錯(cuò)誤歸因。
3)基于代理模型的方法。
基于代理模型的可解釋性方法是指通過(guò)簡(jiǎn)單的可解釋模型作為代理模型對(duì)初始模型的局部決策或整體決策行為做出解釋。
由于線性模型的系數(shù)權(quán)重的大小反映了針對(duì)輸入樣例所做的決策依據(jù)的每一維特征重要性的大小,從而以一種可解釋的且令人信服的方式解釋任意分類器的預(yù)測(cè)值,并將該方法用于提取對(duì)網(wǎng)絡(luò)輸出高度敏感的圖像區(qū)域。
由于LIME往往無(wú)法準(zhǔn)確地解釋如循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)這種包含序列數(shù)據(jù)依賴關(guān)系的神經(jīng)網(wǎng)絡(luò),Guo等[69]提出了一種適用于安全應(yīng)用的高保真度解釋方法LEMNA,利用一個(gè)簡(jiǎn)單的回歸模型逼近復(fù)雜的深度學(xué)習(xí)決策邊界的局部區(qū)域。與LIME不同的是,LEMNA假設(shè)待解釋模型的局部邊界是非線性的,首先通過(guò)訓(xùn)練混合回歸模型來(lái)近似RNN針對(duì)每個(gè)輸入實(shí)例的局部決策邊界,然后通過(guò)引入融合Lasso正則來(lái)處理RNN模型中的特征依賴問(wèn)題,有效地彌補(bǔ)了LIME等方法的不足,從而提高了解釋的保真度。
雖然LIME和LEMNA較簡(jiǎn)單,但隨機(jī)擾動(dòng)和特征選擇方法導(dǎo)致生成的解釋不穩(wěn)定,Zafar等[70]提出了一個(gè)確定性局部可解釋模型不可知論解釋(Deterministic Local Interpretable Model?agnostic Explainations,DLIME)方法,該方法使用凝聚層次聚類(Hierarchical Clustering, HC)和K?最近鄰(K?Nearest Neighbour,KNN)算法來(lái)代替隨機(jī)擾動(dòng),首先使用HC將訓(xùn)練數(shù)據(jù)分組聚類,并使用KNN來(lái)選擇與待解釋樣例最近的鄰域。當(dāng)KNN選擇了一個(gè)聚類時(shí),在選定的聚類上訓(xùn)練一個(gè)線性模型來(lái)生成解釋,該方法生成的模型解釋比傳統(tǒng)的LIME算法更穩(wěn)定。另外,由于擾動(dòng)樣本由均勻分布產(chǎn)生,忽略了特征之間復(fù)雜的相關(guān)性,Shi等[71]引入一種使用修正擾動(dòng)采樣操作(Modified Perturbed Sampling Operation for LIME, MPS?LIME)對(duì)圖像數(shù)據(jù)提取超像素信息的替代方法。通過(guò)將超像素轉(zhuǎn)換為無(wú)向圖,將傳統(tǒng)的超像素選取操作轉(zhuǎn)化為團(tuán)集構(gòu)造問(wèn)題。各種實(shí)驗(yàn)表明,MPS?LIME對(duì)黑箱模型的解釋在可理解性、保真度和效率方面取得了更好的性能。
Bramhall等[72]使用二次近似框架QLIME,將LIME提出的線性關(guān)系重新定義為二次關(guān)系,擴(kuò)展了它在非線性情況下的靈活性,提高了特征解釋的準(zhǔn)確性。該模型使用的數(shù)據(jù)來(lái)自一家全球人力資源公司,其目標(biāo)是成功預(yù)測(cè)候選人的工作安置問(wèn)題。實(shí)驗(yàn)結(jié)果表明,QLIME增加了模型的可解釋性,而且在使用均方誤差作為比較度量方式的前提下,QLIME比LIME在預(yù)測(cè)類標(biāo)簽的均方誤差方面有所改進(jìn)。
2.2.2概念歸因
目前大部分深度學(xué)習(xí)模型在低級(jí)特征如像素值層面運(yùn)算,而無(wú)法與人類能輕易理解的高級(jí)概念相對(duì)應(yīng)。Kim等[73]引入概念激活向量(Concept Activation Vector,CAV),并使用方向?qū)?shù)來(lái)量化用戶定義的概念對(duì)分類結(jié)果的敏感度,得到一種以人類友好的概念來(lái)解釋神經(jīng)網(wǎng)絡(luò)內(nèi)部狀態(tài)的全局可解釋性方法。
但是,由于人們?cè)谶x擇概念時(shí)帶有主觀性,如果沒有正確地選擇輸入概念,TCAV可能會(huì)產(chǎn)生無(wú)意義的CAV。與TCAV方法不同的是,Ghorbani等[74]提出了一種叫作自動(dòng)概念解釋(Automatic Concept Interpretation, ACE)的全局解釋方法,通過(guò)在不同的數(shù)據(jù)中聚合相關(guān)的局部圖像片段,在沒有人工監(jiān)督的情況下對(duì)訓(xùn)練好的分類器進(jìn)行全局解釋。為了提取類的所有概念,ACE首先對(duì)給定的類圖像使用多個(gè)分辨率進(jìn)行分割,然后將相似的片段作為相同概念的例子進(jìn)行分組,最后,基于概念的TCAV分?jǐn)?shù)為特定分類提供重要性評(píng)分并通過(guò)實(shí)驗(yàn)表明提取的概念適用于深度學(xué)習(xí)模型中的決策。
如果訓(xùn)練數(shù)據(jù)實(shí)例中包含多個(gè)類,即使類之間的相關(guān)性很低,諸如TCAV之類的方法也會(huì)遇到概念混淆的問(wèn)題。此外,數(shù)據(jù)集中的偏差可能會(huì)影響概念,以及輸入數(shù)據(jù)中的顏色。Goyal等[75]通過(guò)提出因果概念效應(yīng)模型CaCE改進(jìn)了TCAV方法,該模型研究了高層次概念的存在或缺失對(duì)深度學(xué)習(xí)模型預(yù)測(cè)的因果效應(yīng)。
Goyal等[75]提出GT?CaCE(Ground Truth CaCE,GT?CaCE)的方法,通過(guò)對(duì)數(shù)據(jù)生成過(guò)程進(jìn)行精確干預(yù)的情況下就可以準(zhǔn)確地計(jì)算CaCE。另外,還闡述了一種使用變分自編碼器(Variational Auto?Encoder, VAE)估算CaCE的方法,稱為VAE?CaCE。在四個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,即使數(shù)據(jù)集存在偏差或相關(guān)性,CaCE方法的聚類和性能也得到了改善。
通過(guò)在合成數(shù)據(jù)集和真實(shí)世界的文本和圖像數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法與TCAV相比在尋找能夠完整解釋決策和可解釋的概念方面更有效。
2.2.3樣本歸因
基于樣本的解釋方法是選擇數(shù)據(jù)集的特定樣本來(lái)解釋機(jī)器學(xué)習(xí)模型的行為或底層數(shù)據(jù)分布。
基于樣本的解釋被廣泛用于提高高度復(fù)雜分布的可解釋性,然而,僅靠原型不足以代表復(fù)雜性的要點(diǎn)。為了讓用戶構(gòu)建更好的心理模型并理解復(fù)雜的數(shù)據(jù)分布,還需要用批評(píng)來(lái)解釋哪些樣本沒有被原型捕獲。在貝葉斯模型批評(píng)框架的推動(dòng)下,Kim等[79]開發(fā)了能夠有效學(xué)習(xí)原型和批評(píng)的MMD? critic。MMD?critic的目標(biāo)是最小化選擇的原型分布和數(shù)據(jù)分布之間的差異,其中最大平均差異的計(jì)算公式是:
與現(xiàn)有方法相比,MMD?critic作為最接近的原型分類器表現(xiàn)出了較好的性能。一項(xiàng)人類受試者的初步研究表明,當(dāng)批評(píng)與原型一起出現(xiàn)時(shí),人類能夠更好地執(zhí)行預(yù)測(cè)任務(wù),從而使數(shù)據(jù)分布得到很好的解釋。
除此之外,不少學(xué)者還提出了一些利用原型構(gòu)建可解釋性的深度學(xué)習(xí)模型的方法。Li等[80]構(gòu)建了一個(gè)包含自動(dòng)編碼器和原型層的網(wǎng)絡(luò)架構(gòu),原型層的每個(gè)單元存儲(chǔ)一個(gè)權(quán)重向量,類似于編碼的訓(xùn)練輸入。根據(jù)編碼的輸入和學(xué)到的原型之間的接近程度進(jìn)行預(yù)測(cè)。除了交叉熵?fù)p失和自動(dòng)編碼器重構(gòu)誤差外,它們還包括兩個(gè)可解釋性正則化項(xiàng),鼓勵(lì)每個(gè)原型至少與一個(gè)編碼輸入相似,反之亦然。網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練后,這些原型可以自然地用作解釋。
與文獻(xiàn)[80]不同的是,Chen等[81]引入一種深度網(wǎng)絡(luò)架構(gòu)的原型零件網(wǎng)絡(luò)ProtoPNet,該模型不需要解碼器來(lái)可視化原型,每個(gè)原型都是某個(gè)訓(xùn)練圖像塊的隱表示,自然而忠實(shí)地成為原型的可視化。另外,解碼器的去除也有助于網(wǎng)絡(luò)的訓(xùn)練,以獲得更好的解釋和更高的準(zhǔn)確性。
深度學(xué)習(xí)模型的內(nèi)部結(jié)構(gòu)表示的解釋旨在了解流經(jīng)這些網(wǎng)絡(luò)的數(shù)據(jù)的作用和結(jié)構(gòu),其中包括解釋隱層的隱表示和單個(gè)神經(jīng)元的行為。
2.3.1隱層的表示
為了研究深度神經(jīng)網(wǎng)絡(luò)的每一層學(xué)習(xí)到哪些特征,Zeiler等[54]使用反卷積網(wǎng)絡(luò)DeConvNet將CNN各隱藏層的特征進(jìn)行可視化,從而直觀地呈現(xiàn)出各隱藏層學(xué)習(xí)到的特征。通過(guò)實(shí)驗(yàn)?zāi)軌虬l(fā)現(xiàn)每層的可視化結(jié)果反映了網(wǎng)絡(luò)的層次化特點(diǎn),低層學(xué)習(xí)到的特征基本上是顏色、邊緣等通用特征,而隨著層數(shù)的增加學(xué)習(xí)到的特征開始變得復(fù)雜,進(jìn)一步學(xué)習(xí)到紋理、輪廓等比較有區(qū)別性的特征。另一方面,通過(guò)可視化分析每層的特征以及特征隨模型訓(xùn)練而發(fā)生變化也能更好地改進(jìn)模型結(jié)構(gòu)。
另一方面,可以通過(guò)測(cè)試隱層學(xué)習(xí)的特征向量用于解決與網(wǎng)絡(luò)最初訓(xùn)練的問(wèn)題不同的任務(wù)的性能來(lái)解釋其有效性和通用性。Razavian等[82]發(fā)現(xiàn)對(duì)目標(biāo)圖像進(jìn)行分類的CNN的中間層輸出產(chǎn)生的特征向量可以直接重新用于解決許多其他不同的識(shí)別任務(wù),包括場(chǎng)景識(shí)別、細(xì)粒度識(shí)別、屬性檢測(cè)和圖像檢索等,這突出了隱層學(xué)習(xí)的隱變量表示的有效性和通用性。Razavian等[82]使用OverFeat網(wǎng)絡(luò)針對(duì)不同識(shí)別任務(wù)進(jìn)行了一系列實(shí)驗(yàn),經(jīng)過(guò)訓(xùn)練后可以在ILSVRC13上進(jìn)行圖像分類。實(shí)驗(yàn)結(jié)果表明即使像SVM這樣簡(jiǎn)單的模型都能夠直接將隱層學(xué)習(xí)的隱表示應(yīng)用于目標(biāo)問(wèn)題,并且在不訓(xùn)練全新深度網(wǎng)絡(luò)的情況下比先前的方法表現(xiàn)出更好的性能。
由于深度學(xué)習(xí)模型第一層學(xué)習(xí)的隱表示具有通用性,最后一層學(xué)習(xí)到的特征具有特殊性,于是需要進(jìn)一步研究特征是如何從通用特征過(guò)渡到特定特征的。Yosinski等[83]定義了一個(gè)特定的方法來(lái)量化各層學(xué)習(xí)到的隱表示的可遷移性,并通過(guò)實(shí)驗(yàn)量化了CNN的每一層神經(jīng)元的通用性和特殊性。結(jié)果表明,可遷移性受到兩個(gè)不同問(wèn)題的負(fù)面影響:1)較高層的神經(jīng)元對(duì)其原始任務(wù)的特定性是以犧牲對(duì)目標(biāo)任務(wù)的性能為代價(jià)的;2)相鄰層上的共適應(yīng)神經(jīng)元之間的網(wǎng)絡(luò)分裂而導(dǎo)致的優(yōu)化困難。另外,特征的可轉(zhuǎn)移性隨著基本任務(wù)和目標(biāo)任務(wù)之間距離的增加而降低,最后一個(gè)令人驚訝的結(jié)果是,使用從幾乎任何層轉(zhuǎn)移的特征來(lái)初始化網(wǎng)絡(luò),可以促進(jìn)泛化,即使在對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行微調(diào)后,這種泛化也會(huì)持續(xù)存在。
2.3.2神經(jīng)元的表示
單個(gè)隱層內(nèi)的信息可以進(jìn)一步細(xì)分為單個(gè)神經(jīng)元或單個(gè)卷積濾波器,這些單個(gè)單元的作用可以通過(guò)創(chuàng)建輸入模式的可視化來(lái)最大化單個(gè)單元的響應(yīng)來(lái)定性地理解,或者通過(guò)測(cè)試一個(gè)單元解決遷移問(wèn)題的能力來(lái)定量地理解。
2014年,Zhou等[84]提出一種數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)估計(jì)CNN中每個(gè)樣本中不同神經(jīng)元的感受野即其對(duì)原圖像的感受范圍的形狀和大小。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)隨著層的加深,每個(gè)神經(jīng)元的感受野大小逐漸增加,激活區(qū)域變得更語(yǔ)義化而且可以進(jìn)行目標(biāo)定位。
2018年,DeepMind[85]表示不管是去掉高語(yǔ)義或者去掉低語(yǔ)義的神經(jīng)元,對(duì)網(wǎng)絡(luò)的整體分類準(zhǔn)確度的影響都是無(wú)差異的,所以神經(jīng)元的語(yǔ)義沒有意義,也不影響網(wǎng)絡(luò)的泛化能力。隨后,Zhou等[86]指出文獻(xiàn)[85]中只是分析了神經(jīng)元對(duì)整體分類準(zhǔn)確度的影響,而忽略了對(duì)不同類別的分類結(jié)果的影響。他們指出去掉高語(yǔ)義的神經(jīng)元,會(huì)對(duì)某些特定類別的分類有毀滅性影響。
2020年,Bau等[87]把之前的一系列解析一個(gè)神經(jīng)元價(jià)值的工作整合起來(lái),通過(guò)分析在激活或關(guān)閉神經(jīng)元時(shí)網(wǎng)絡(luò)所產(chǎn)生的變化,量化分析了場(chǎng)景分類網(wǎng)絡(luò)和生成網(wǎng)絡(luò)里面一個(gè)神經(jīng)元的價(jià)值,并且將該分析框架應(yīng)用于解釋對(duì)抗性攻擊和圖片編輯。
總之,通過(guò)對(duì)單個(gè)神經(jīng)元的系統(tǒng)分析可以對(duì)深層網(wǎng)絡(luò)的黑盒內(nèi)部產(chǎn)生深刻的見解,了解網(wǎng)絡(luò)已經(jīng)學(xué)習(xí)到的知識(shí)結(jié)構(gòu),并建立幫助人類與這些強(qiáng)大模型交互的系統(tǒng)。
最后,表3對(duì)第2章中從三類解釋目標(biāo)出發(fā)常見的幾種解釋方法及其相關(guān)文獻(xiàn)做了概述總結(jié)。
表3 可解釋性文獻(xiàn)的概述總結(jié)
由于決策樹模型可以被線性化為一系列由if?then形式組成的決策規(guī)則,所以淺層的決策樹模型是通常被認(rèn)為是可解釋的,于是,由此衍生出了許多可解釋的深度學(xué)習(xí)模型。Letham等[88]引入貝葉斯規(guī)則列表(Bayesian Rule List, BRL)得到一個(gè)生成模型,對(duì)可能的決策列表產(chǎn)生后驗(yàn)分布,在保持準(zhǔn)確性的同時(shí)提高可解釋性。Yang等[89]進(jìn)一步通過(guò)改進(jìn)理論邊界、計(jì)算重用和高度調(diào)優(yōu)的語(yǔ)言庫(kù)提高了BRL的可伸縮性。
另外,Zhou等[90]提出了一種基于決策樹的內(nèi)置可解釋性的深度學(xué)習(xí)方法gcForest。該方法采用一種深度樹集成方法,比深度神經(jīng)網(wǎng)絡(luò)具有更少的超參數(shù),并且可以根據(jù)數(shù)據(jù)自動(dòng)確定模型復(fù)雜度。另外,gcForest所需的訓(xùn)練數(shù)據(jù)集較小,這使gcForest訓(xùn)練起來(lái)更容易,也使其可解釋性理論分析更簡(jiǎn)單。該算法具有很強(qiáng)的魯棒性,即使遇到不同領(lǐng)域的不同數(shù)據(jù),也能取得很好的結(jié)果。
目前大多數(shù)的可解釋模型是基于使用實(shí)際標(biāo)簽的數(shù)據(jù)或基于黑盒模型的預(yù)測(cè),但是得到的全局可解釋模型可能與黑盒模型的局部解釋不一致。Pedapati等[91]構(gòu)造了一個(gè)透明的全局模型,同時(shí)與黑盒模型的局部解釋保持準(zhǔn)確性和一致性。Pedapati等[91]引入了一個(gè)自然的局部一致性度量,量化黑箱模型的局部解釋和預(yù)測(cè)是否也與代理全局透明模型一致。同時(shí),從黑盒模型的稀疏局部對(duì)比解釋中創(chuàng)建自定義布爾特征,然后訓(xùn)練一個(gè)全局透明模型,并通過(guò)實(shí)驗(yàn)表明,與其他已知策略相比,這些模型具有更高的局部一致性,而且在性能上仍然接近那些通過(guò)訪問(wèn)原始數(shù)據(jù)而訓(xùn)練出來(lái)的模型。
1986年,Hastie等[92]提出了廣義可加模型GAM,其形式如下:
由于對(duì)GAM使用低階光滑樣條函數(shù)進(jìn)行擬合能減少過(guò)度擬合且適合分析,Caruana等[93]將具有成對(duì)交互的高性能廣義可加模型GA2M應(yīng)用于真實(shí)的醫(yī)療保健問(wèn)題,獲得了具有高精確度的可解釋模型。
另外,往往GAM需要數(shù)百萬(wàn)棵決策樹來(lái)使用加法算法提供準(zhǔn)確的結(jié)果,作為GAM的一種改進(jìn)的方法,Agarwal等[94]提出了神經(jīng)可加性模型(Neural Additive Model, NAM)(如圖4),它將深度神經(jīng)網(wǎng)絡(luò)的某些表達(dá)性與廣義可加性模型固有的可理解性結(jié)合起來(lái)。
NAM學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的線性組合,每個(gè)神經(jīng)網(wǎng)絡(luò)關(guān)注一個(gè)單一的輸入特征,同時(shí)這些網(wǎng)絡(luò)是聯(lián)合訓(xùn)練的,可以學(xué)習(xí)它們的輸入特征和輸出之間任意復(fù)雜的關(guān)系。通過(guò)在回歸和分類數(shù)據(jù)集上的實(shí)驗(yàn)表明,NAM比常見的可解釋模型如邏輯回歸和淺層決策樹更準(zhǔn)確,在精確度上與現(xiàn)有的最先進(jìn)的廣義加性模型相似,但可以更容易地應(yīng)用于現(xiàn)實(shí)世界的問(wèn)題。
圖 4 神經(jīng)可加性模型
生成可解釋模型是指通過(guò)設(shè)計(jì)生成人類可理解的模型如視覺問(wèn)答系統(tǒng)[95-96]等,作為深度神經(jīng)網(wǎng)絡(luò)顯式訓(xùn)練的一部分。在完成系統(tǒng)的主要任務(wù)的同時(shí),它還可以生成可視化解釋、文本解釋以及同時(shí)包含這兩者的多模態(tài)解釋。
Hendricks等[97]提出一個(gè)使用自然語(yǔ)言進(jìn)行深層視覺解釋的框架,聯(lián)合分類和解釋模型,對(duì)圖像給出的預(yù)測(cè)標(biāo)簽的依據(jù)做出可視化解釋。該模型基于長(zhǎng)時(shí)遞歸卷積神經(jīng)網(wǎng)絡(luò)(Long?term Recurrent Convolutional Network, LRCN)[98],它由一個(gè)卷積網(wǎng)絡(luò)和兩個(gè)堆疊的LSTM組成,前者提取高級(jí)視覺特征,后者根據(jù)視覺特征生成描述。與LRCN不同的是,Hendricks等[97]通過(guò)同時(shí)包含相關(guān)性損失和區(qū)別性損失來(lái)確保生成的描述滿足特定圖像實(shí)例中呈現(xiàn)的視覺內(nèi)容的同時(shí),包含適當(dāng)?shù)男畔?lái)解釋圖像為何屬于特定類別。CUB數(shù)據(jù)集上的結(jié)果顯示,該模型能夠生成與圖像一致的解釋,而且比此前的字幕方法生成的描述更具鑒別性。
由于之前的可解釋模型大多是單模態(tài)的,文獻(xiàn)[99]中提出一種生成包含視覺和文本解釋的多模態(tài)解釋方法,表明兩種模態(tài)之間有互相促進(jìn)提升解釋質(zhì)量的優(yōu)勢(shì)。該系統(tǒng)建立在2016年視覺問(wèn)答(Visual Question Answering,VQA)[96]挑戰(zhàn)的獲勝者的基礎(chǔ)上,并進(jìn)行了一些簡(jiǎn)化和添加。該模型定義了活動(dòng)識(shí)別任務(wù)(Activity Recognition Task, ACT?X)和視覺問(wèn)答任務(wù)(Visual Question Answering Task, VQA?X)的數(shù)據(jù)集,除了問(wèn)答任務(wù)和內(nèi)部注意圖,該系統(tǒng)還訓(xùn)練了一個(gè)額外的解釋生成器,以及優(yōu)化為視覺解釋的第二注意圖。無(wú)論是視覺解釋還是文字解釋,實(shí)驗(yàn)表明在用戶信任和解釋質(zhì)量的評(píng)估上都有很好的得分。
另一方面,由于VQA模型往往只捕捉到訓(xùn)練集合中表面的語(yǔ)言相關(guān)性,不能推廣到不同QA分布的測(cè)試集。理想的VQA模型應(yīng)具有以下兩個(gè)不可缺少的特性:1)視覺可解釋性,模型在做出決策時(shí)應(yīng)該依賴于正確的視覺區(qū)域;2)問(wèn)題敏感型,該模型應(yīng)該對(duì)所討論的語(yǔ)言變化敏感。為此,文獻(xiàn)[100]中提出一個(gè)模型不可知的反事實(shí)樣本合成訓(xùn)練方案CSS。CSS通過(guò)掩蓋圖像中的關(guān)鍵對(duì)象或問(wèn)題中的單詞,并分配不同的真實(shí)答案,生成大量反事實(shí)訓(xùn)練樣本。在使用原始和生成的樣本訓(xùn)練之后,VQA模型被迫集中于所有關(guān)鍵的對(duì)象和單詞,這顯著提高了視覺解釋和問(wèn)題敏感的能力,同時(shí)模型的性能得到了進(jìn)一步提升。
不同類型的解釋之間的可解釋性往往很難進(jìn)行比較,需要針對(duì)不同解釋方法的目的提出一些不同的評(píng)價(jià)方法。例如,對(duì)于基于決策樹和邏輯規(guī)則的解釋方法,通常將提取的規(guī)則模型的大小作為解釋的復(fù)雜度的評(píng)判標(biāo)準(zhǔn)[101-102],如規(guī)則的數(shù)量、每條規(guī)則的前因數(shù)量、決策樹的深度等。本章主要介紹忠實(shí)度、準(zhǔn)確性、魯棒性和可理解性這四種的評(píng)價(jià)指標(biāo)。
2)準(zhǔn)確性:指可解釋方法得到的特征歸因的正確性。Hooker等[104]通過(guò)刪除重要?dú)w因的輸入特征并對(duì)編輯后的數(shù)據(jù)實(shí)例進(jìn)行預(yù)測(cè),進(jìn)而觀察由此產(chǎn)生的性能下降情況,從而可以評(píng)估所得的特征歸因的準(zhǔn)確性。但是如果不對(duì)模型進(jìn)行再訓(xùn)練,修改后的輸入可能會(huì)落在訓(xùn)練數(shù)據(jù)流形之外,因此,很難區(qū)分準(zhǔn)確性下降是由于數(shù)據(jù)落入分布之外還是由于良好的特征歸因。另一方面,重新訓(xùn)練導(dǎo)致模型與被解釋的原始模型不同,因此應(yīng)該采用仍服從原來(lái)分布的輸入對(duì)原始模型進(jìn)行方法評(píng)估。
Yang等[105]引入一個(gè)名為基準(zhǔn)歸因方法(Benchmarking Attribution Method, BAM)的框架來(lái)評(píng)估特征歸因的正確性和它們的相對(duì)重要性。BAM數(shù)據(jù)集是通過(guò)復(fù)制稱為公共特征的像素組生成的,這些像素組代表MSCOCO數(shù)據(jù)集[106]中的對(duì)象類別,并將它們粘貼到MiniPlaces數(shù)據(jù)集[107]中。由于專注于粘貼對(duì)象的歸因方法在增強(qiáng)重要特征的特征歸因方面做得并不好,Yang等[105]還提出了三個(gè)定量評(píng)價(jià)歸因方法的指標(biāo):1)模型對(duì)比評(píng)分MCS,用來(lái)比較不同模型之間的相對(duì)特征重要性;2)輸入相關(guān)率IDR,用來(lái)學(xué)習(xí)公共特征對(duì)單個(gè)實(shí)例的相關(guān)性;3)輸入獨(dú)立率IIR:用來(lái)學(xué)習(xí)兩個(gè)功能相似的輸入之間特征的差異性。
4)可理解性:指人類對(duì)可解釋方法合理性和容易理解的程度的評(píng)估,也就是解釋符合人類期望的程度。Mohseni等[109]引入一個(gè)以人為基礎(chǔ)的評(píng)估基準(zhǔn)來(lái)評(píng)估由可解釋算法生成的特征顯著性圖解釋,這種以人為基礎(chǔ)的基準(zhǔn)能夠快速、可復(fù)制和客觀地執(zhí)行顯著性解釋的評(píng)估實(shí)驗(yàn)。與此同時(shí),這種方法的一個(gè)根本缺陷可能是在解釋中加入了人為偏見。然而,人類對(duì)來(lái)自一個(gè)大群體的單個(gè)數(shù)據(jù)點(diǎn)的標(biāo)簽可以抵消固有偏見的影響。Holzinger等[110]引入系統(tǒng)因果關(guān)系量表(System Causability Scale, SCS)來(lái)理解面向用戶的人機(jī)界面的解釋需求,同時(shí)描述了一個(gè)將SCS工具應(yīng)用于弗雷明漢風(fēng)險(xiǎn)工具的醫(yī)療場(chǎng)景,以了解人機(jī)界面的特定特征的影響和重要性。
目前大多數(shù)的可解釋性研究主要是對(duì)深度學(xué)習(xí)模型的行為和做出決策的潛在原因的解釋,但是關(guān)于如何在不損害網(wǎng)絡(luò)性能的情況下主動(dòng)地使深度學(xué)習(xí)模型可解釋仍然是一個(gè)有待解決的問(wèn)題。同時(shí),這些研究中大多數(shù)處理的是數(shù)據(jù)驅(qū)動(dòng)的可解釋性,以克服黑盒算法的不透明性,針對(duì)目標(biāo)驅(qū)動(dòng)的可解釋性研究如可解釋的智能體等的貢獻(xiàn)仍然缺失,發(fā)展具有可解釋性的人工智能體,取得人類用戶的“信任”,從而產(chǎn)生高效的人機(jī)協(xié)作,進(jìn)而融入一個(gè)人機(jī)共生共存的社會(huì)是未來(lái)人工智能研究的一個(gè)美好愿景[111]。此外,目前仍缺乏完備的數(shù)學(xué)理論指導(dǎo)和改進(jìn)深度學(xué)習(xí)模型的表達(dá)能力、學(xué)習(xí)優(yōu)化能力和泛化能力,為深度學(xué)習(xí)模型提供理論保證的道路仍然任重而道遠(yuǎn)。
由于對(duì)透明人工智能系統(tǒng)需求和興趣的日益增長(zhǎng),本文進(jìn)行了一個(gè)對(duì)深度學(xué)習(xí)可解釋性研究的全面回顧。首先,闡明了可解釋性研究的需求和定義,然后,詳細(xì)介紹了從三種解釋目標(biāo)出發(fā)的可解釋性研究的幾種典型方法并指出了各模型提出的原因以及具有的優(yōu)缺點(diǎn),同時(shí)還指出了三種類型的內(nèi)置可解釋模型的構(gòu)建方法,隨后還給出了幾種常見的對(duì)可解釋性的評(píng)價(jià)指標(biāo)。最后對(duì)未來(lái)的研究方向進(jìn)行了闡述,指出了其未來(lái)巨大的應(yīng)用潛力。總之,隨著對(duì)深度學(xué)習(xí)可解釋性研究的不斷深入,未來(lái)勢(shì)必將發(fā)揮越來(lái)越重要的作用。
[1] LEE S M, SEO J B, YUN J, et al. Deep learning applications in chest radiography and computed tomography[J]. Journal of Thoracic Imaging, 2019, 34(2): 75-85.
[2] CHEN R P, YANG L, GOODISON S, et al. Deep?learning approach identifying cancer subtypes using high?dimensional genomic data[J]. Bioinformiatics, 2020, 36(5): 1476-1483.
[3] GRIGORESCU S, TRASNEA B, COCIAS T, et al. A survey of deep learning techniques for autonomous driving[J]. Journal of Field Robotics, 2020, 37(3): 362-386.
[4] FENG D, HAASE?SCHüTZ C, ROSENBAUM L, et al. Deep multi?modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(3): 1341-1360.
[5] SAHBA A, DAS A, RAD P, et al. Image graph production by dense captioning[C]// Proceedings of the 2018 World Automation Congress. Piscataway: IEEE, 2018: 1-5.
[6] BENDRE N, EBADI N, PREVOST J J, et al. Human action performance using deep neuro?fuzzy recurrent attention model[J]. IEEE Access, 2020, 8: 57749-57761.
[7] BOLES A, RAD P. Voice biometrics: deep learning?based voiceprint authentication system[C]// Proceedings of the 12th System of Systems Engineering Conference. Piscataway: IEEE, 2017: 1-6.
[8] PANWAR S, DAS A, ROOPAEI M, et al. A deep learning approach for mapping music genres[C]// Proceedings of the 12th System of Systems Engineering Conference. Piscataway: IEEE, 2017: 1-5.
[9] DE LA TORRE PARRA G, RAD P, CHOO K K R, et al. Detecting Internet of Things attacks using distributed deep learning[J]. Journal of Network and Computer Applications, 2020, 163: No.102662.
[10] CHACON H, SILVA S, RAD P. Deep learning poison data attack detection[C]// Proceedings of the IEEE 31st International Conference on Tools with Artificial Intelligence. Piscataway: IEEE, 2019: 971-978.
[11] MHASKAR H N, POGGIO T. Deep vs. shallow networks: an approximation theory perspective[J]. Analysis and Applications, 2016, 14(6): 829-848.
[12] LIAO Q L, POGGIO T. Theory of deep learning Ⅱ: landscape of the empirical risk in deep learning: CBMM Memo No.066[EB/OL]. (2017-06-23)[2021-09-23].https://cbmm.mit.edu/sites/default/files/publications/CBMM%20Memo%20066_1703.09833v2.pdf.
[13] ZHANG C Y, LIAO Q L, RAKHLIN A, et al. Musings on deep learning: properties of SGD, CBMM Memo Series 067[EB/OL]. (2017-12-26)[2021-09-23].https://cbmm.mit.edu/sites/default/files/publications/CBMM?Memo?067?v4.pdf.
[14] CINà A E, TORCINOVICH A, PELILLO M. A black?box adversarial attack for poisoning clustering[J]. Pattern Recognition, 2022, 122: No.108306.
[15] SEMWAL P, HANDA A. Cyber?attack detection in cyber?physical systems using supervised machine learning[M]// CHOO K K R, DEHGHANTANHA A. Handbook of Big Data Analytics and Forensics. Cham: Springer, 2022: 131-140.
[16] ENGSTROM L, TRAN B, TSIPRAS D, et al. Exploring the landscape of spatial robustness[C]// Proceedings of the 36th International Conference on Machine Learning. New York: JMLR.org, 2019: 1802-1811.
[17] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[EB/OL]. (2014-02-19)[2021-05-16].https://arxiv.org/pdf/1312.6199.pdf.
[18] NGUYEN A, YOSINSKI J, CLUNE J. Deep neural networks are easily fooled: high confidence predictions for unrecognizable images[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 427-436.
[19] HENGSTLER M, ENKEL E, DUELLI S. Applied artificial intelligence and trust — the case of autonomous vehicles and medical assistance devices[J]. Technological Forecasting and Social Change, 2016, 105: 105-120.
[20] LUI A, LAMB G W. Artificial intelligence and augmented intelligence collaboration: regaining trust and confidence in the financial sector[J]. Information and Communications Technology Law, 2018, 27(3): 267-283.
[21] WELD D S, BANSAL G. The challenge of crafting intelligible intelligence[J]. Communications of the ACM, 2019, 62(6): 70-79.
[22] BOSTROM N, YUDKOWSKY E. The ethics of artificial intelligence[M]// FRANKISH K, RAMSEY W M. The Cambridge Handbook of Artificial Intelligence Cambridge: Cambridge University Press, 2014: 316-334.
[23] ETZIONI A, ETZIONI O. Incorporating ethics into artificial intelligence[J]. The Journal of Ethics, 2017, 21(4): 403-418.
[24] STAHL B C, WRIGHT D. Ethics and privacy in ai and big data: implementing responsible research and innovation[J]. IEEE Security and Privacy, 2018, 16(3): 26-33.
[25] KESKINBORA K H. Medical ethics considerations on artificial intelligence[J]. Journal of Clinical Neuroscience, 2019, 64: 277-282.
[26] CHEN L Y, CRUZ A, RAMSEY S, et al. Hidden bias in the DUD?E dataset leads to misleading performance of deep learning in structure?based virtual screening[J]. PLoS ONE, 2019, 14(8): No.e0220113.
[27] CHALLEN R, DENNY J, PITT M, et al. Artificial intelligence, bias and clinical safety[J]. BMJ Quality and Safety, 2019, 28(3):231-237.
[28] SINZ F H, PITKOW X, REIMER J, et al. Engineering a less artificial intelligence[J]. Neuron, 2019, 103(6): 967-979.
[29] KURAKIN A, GOODFELLOW I J, BENGIO S. Adversarial machine learning at scale[EB/OL]. (2017-02-11)[2021-07-09].https://arxiv.org/pdf/1611.01236.pdf.
[30] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. (2015-03-20)[2021-05-16].https://arxiv.org/pdf/1412.6572.pdf.
[31] SU J W, VARGAS D V, SAKURAI K. One pixel attack for fooling deep neural networks[J]. IEEE Transactions on Evolutionary Computation, 2019, 23(5): 828-841.
[32] HUANG S, PAPERNOT N, GOODFELLOW I, et al. Adversarial attacks on neural network policies[EB/OL]. (2017-02-08)[2020-05-16].https://arxiv.org/pdf/1702.02284.pdf.
[33] GOODMAN B, FLAXMAN S. European Union regulations on algorithmic decision?making and a “right to explanation”[J]. AI Magazine, 2017, 38(3): 50-57.
[34] CHOULDECHOVA A. Fair prediction with disparate impact: a study of bias in recidivism prediction instruments[J]. Big Data, 2017, 5(2): 153-163.
[35] VOIGT P, VON DEM BUSSCHE A. The EU General Data Protection Regulation (GDPR): A Practical Guide[M]. Cham: Springer, 2017: 141-187.
[36] ALVAREZ?MELIS D, JAAKKOLA T. Towards robust interpretability with self?explaining neural networks[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 7786-7795.
[37] GUIDOTTI R, MONREALE A, RUGGIERI S, et al. A survey of methods for explaining black box models[J]. ACM Computing Surveys, 2018, 51(5): No.93.
[38] SATO M, TSUKIMOTO H. Rule extraction from neural networks via decision tree induction[C]// Proceedings of the 2001 International Joint Conference on Neural Networks. Piscataway: IEEE, 2001: 1870-1875.
[39] ZILKE J R, LOZA MENCíA E, JANSSEN F. DeepRED?rule extraction from deep neural networks[C]// Proceedings of the 2016 International Conference on Discovery Science, LNCS 9956. Cham: Springer, 2016: 457-473.
[40] AUGASTA M G, KATHIRVALAVAKUMAR T. Reverse engineering the neural networks for rule extraction in classification problems[J]. Neural Processing Letters, 2012, 35(2): 131-150.
[41] SALZBERG S L. C4.5: Programs for Machine Learning by J. Ross Quinlan. Morgan Kaufmann Publishers, Inc., 1993[J]. Machine Learning, 1994, 16(3): 235-240.
[42] BOZO O. Extracting decision trees from trained neural networks[C]// Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2002:456-461.
[43] WU M, PARBHOO S, HUGHES M C, et al. Regional tree regularization for interpretability in deep neural networks[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 6413-6421.
[44] WU M, HUGHES M C, PARBHOO S, et al. Beyond sparsity: tree regularization of deep models for interpretability[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 1670-1678.
[45] WANG X, WANG D X, XU C R, et al. Explainable reasoning over knowledge graphs for recommendation[C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 5329-5336.
[46] YU X, REN X, GU Q Q, et al. Collaborative filtering with entity similarity regularization in heterogeneous information networks[C/OL]// Proceedings of the 2nd IJCAI Workshop on Heterogeneous Information Network Analysis. [2021-09-22].http://hanj.cs.illinois.edu/pdf/hina13_xyu.pdf.
[47] GAO L, YANG H, WU J, et al. Recommendation with multi? source heterogeneous information[C]// Proceedings of the 27th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2018: 3378-3384.
[48] XIAN Y K, FU Z H, MUTHUKRISHNAN S, et al. Reinforcement knowledge graph reasoning for explainable recommendation[C]// Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2019: 285-294.
[49] HE R N, McAULEY J. Ups and downs: modeling the visual evolution of fashion trends with one?class collaborative filtering[C]// Proceedings of the 25th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2016: 507-517.
[50] BORDES A, USUNIER N, GARCIAD?DURáN A, et al. Translating embeddings for modeling multi?relational data[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2013: 2787-2795.
[51] LIN Y K, LIU Z Y, SUN M S, et al. Learning entity and relation embeddings for knowledge graph completion[C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 2181-2187.
[52] AI Q Y, AZIZI V, CHEN X, et al. Learning heterogeneous knowledge base embeddings for explainable recommendation[J]. Algorithms, 2018, 11(9): No.137.
[53] REN H Y, HU W H, LESKOVEC J. Query2box: reasoning over knowledge graphs in vector space using box embeddings[EB/OL]. (2020-02-29)[2021-05-16].https://arxiv.org/pdf/2002.05969.pdf.
[54] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8689. Cham: Springer, 2014: 818-833.
[55] KOH P W, LIANG P. Understanding black?box predictions via influence functions[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 1885-1894.
[56] ZINTGRAF L M, COHEN T S, ADEL T, et al. Visualizing deep neural network decisions: prediction difference analysis[EB/OL]. (2017-02-15)[2021-05-16].https://arxiv.org/pdf/1702.04595.pdf.
[57] PETSIUK V, DAS A, SAENKO K. RISE: randomized input sampling for explanation of black?box models[C]// Proceedings of the 2018 British Machine Vision Conference. Durham: BMVA Press, 2018: No.1064.
[58] SIMONYAN K, VEDALDI A, ZISSERMAN A. Deep inside convolutional networks: visualising image classification models and saliency maps[EB/OL]. (2014-04-19)[2021-05-06].https://arxiv.org/pdf/1312.6034.pdf.
[59] SPRINGENBERG J T, DOSOVITSKIY A, BROX T, et al. Striving for simplicity: the all convolutional net[EB/OL]. (2015-04-13)[2021-06-07].https://arxiv.org/pdf/1412.6806.pdf.
[60] SUNDARARAJAN M, TALY A, YAN Q Q. Gradients of counterfactuals[EB/OL]. (2016-11-15)[2021-06-11].https://arxiv.org/pdf/1611.02639.pdf.
[61] SMILKOV D, THORAT N, KIM B, et al. SmoothGrad: removing noise by adding noise[EB/OL]. (2017-06-12)[2021-06-23].https://arxiv.org/pdf/1706.03825.pdf.
[62] ZHOU B L, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2921-2929.
[63] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad?CAM: visual explanations from deep networks via gradient?based localization[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 618-626.
[64] CHATTOPADHAY A, SARKAR A, HOWLADER P, et al. Grad?CAM++: generalized gradient?based visual explanations for deep convolutional networks[C]// Proceedings of the 2018 IEEE Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2018: 839-847.
[65] SHRIKUMAR A, GREENSIDE P, KUNDAJE A. Learning important features through propagating activation differences[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 3145-3153.
[66] BACH S, BINDER A, MONTAVON G, et al. On pixel?wise explanations for non?linear classifier decisions by layer?wise relevance propagation[J]. PLoS ONE, 2015, 10(7): No.e0130140.
[67] KINDERMANS P J, HOOKER S, ADEBAYO J, et al. The (un)reliability of saliency methods[M]// SAMEK W, MONTAVON G, VEDALDI A, et al. Explainable AI: Interpreting, Explaining and Visualizing Deep Learning, LNCS 11700. Cham: Springer, 2019: 267-280.
[68] RIBEIRO M T, SINGH S, GUESTRIN C. "Why should I trust you?" explaining the predictions of any classifier[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 1135-1144.
[69] GUO W B, MU D L, XU J, et al. LEMNA: explaining deep learning based security applications[C]// Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2018: 364-379.
[70] ZAFAR M R, KHAN N M. DLIME: a deterministic local interpretable model?agnostic explanations approach for computer? aided diagnosis systems[EB/OL]. (2019-06-24)[2021-07-03].https://arxiv.org/pdf/1906.10263.pdf.
[71] SHI S, ZHANG X F, FAN W. A modified perturbed sampling method for local interpretable model?agnostic explanation[EB/OL]. (2020-02-18)[2021-08-16].https://arxiv.org/pdf/2002.07434.pdf.
[72] BRAMHALL S, HORN H, TIEU M, et al. QLIME — a quadratic local interpretable model?agnostic explanation approach[J]. SMU Data Science Review, 2020, 3(1): No.4.
[73] KIM B, WATTENBERG M, GILMER J, et al. Interpretability beyond feature attribution: quantitative Testing with Concept Activation Vectors (TCAV)[C]// Proceedings of the 35th International Conference on Machine Learning. New York: JMLR.org, 2018: 2668-2677.
[74] GHORBANI A, WEXLER J, ZOU J, et al. Towards automatic concept?based explanations[C/OL]// Proceedings of the 33rd Conference on Neural Information Processing Systems. [2021-09-21].https://proceedings.neurips.cc/paper/2019/file/77d2afcb31f6493e350fca 61764efb9a?Paper.pdf.
[75] GOYAL Y, FEDER A, SHALIT U, et al. Explaining classifiers with Causal Concept Effect (CaCE)[EB/OL]. (2020-02-28)[2021-08-19].https://arxiv.org/pdf/1907.07165.pdf.
[76] PEARL J. Causality[M]. 2nd ed. Cambridge: Cambridge University Press, 2009.
[77] YEH C?K, KIM B, ARIK S ?, et al. On completeness-aware concept-based explanations in deep neural networks[C]// NeurIPS 2020: Proceedings of the 2020 Advances in Neural Information Processing Systems 33. Berlin: Springer, 2020: 20554-20565.
[78] BIEN J, TIBSHIRANI R. Prototype selection for interpretable classification[J]. The Annals of Applied Statistics, 2011, 5(4): 2403-2424.
[79] KIM B, KHANNA R, KOYEJO O. Examples are not enough, learn to criticize! criticism for interpretability[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 2288-2296.
[80] LI O, LIU H, CHEN C F, et al. Deep learning for case?based reasoning through prototypes: a neural network that explains its predictions[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 3530-3537.
[81] CHEN C F, LI O, TAO C F, et al.looks like: deep learning for interpretable image recognition[C/OL]// Proceedings of the 33rd Conference on Neural Information Processing Systems. [2021-09-21].https://proceedings.neurips.cc/paper/2019/file/adf7ee2dcf142b0e11888e72b43fcb75-Paper.pdf.
[82] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off?the?shelf: an astounding baseline for recognition[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2014: 512-519.
[83] YOSINSKI J, CLUNE J, BENGIO Y, et al. How transferable are features in deep neural networks?[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014: 3320-3328.
[84] ZHOU B L, KHOSLA A, LAPEDRIZA A, et al. Object detectors emerge in deep scene CNNs[EB/OL]. (2015-04-15)[2021-06-16].https://arxiv.org/pdf/1412.6856.pdf.
[85] MORCOS A S, BARRETT D G T, RABINOWITZ N C, et al. On the importance of single directions for generalization[EB/OL]. (2018-05-22)[2021-05-16].https://arxiv.org/pdf/1803.06959.pdf.
[86] ZHOU B L, SUN Y Y, BAU D, et al. Revisiting the importance of individual units in CNNs via ablation[EB/OL]. (2018-06-07)[2021-05-16].https://arxiv.org/pdf/1806.02891.pdf.
[87] BAU D, ZHU J Y, STROBELT H, et al. Understanding the role of individual units in a deep neural network[J]. Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(48): 30071-30078.
[88] LETHAM B, RUDIN C, McCORMICK T H, et al. Interpretable classifiers using rules and Bayesian analysis: building a better stroke prediction model[J]. The Annals of Applied Statistics, 2015, 9(3): 1350-1371.
[89] YANG H Y, RUDIN C, SELTZER M. Scalable Bayesian rule lists[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 3921-3930.
[90] ZHOU Z H, FENG J. Deep forest: towards an alternative to deep neural networks[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2017: 3553-3559.
[91] PEDAPATI T, BALAKRISHNAN A, SHANMUGAN K, et al. Learning global transparent models consistent with local contrastive explanations[C/OL]// Proceedings of the 34th Conference on Neural Information Processing Systems. [2021-09-21]. https://proceedings.neurips.cc/paper/2020/file/24aef8cb3281a2422a 59b51659f1ad2e?Paper.pdf.
[92] HASTIE T, TIBSHIRANI R J. Generalized additive models[J]. Statistical Science, 1986, 1(3):297-310.
[93] CARUANA R, LOU Y, GEHRKE J, et al. Intelligible models for healthcare: predicting pneumonia risk and hospital 30?day readmission[C]// Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 1721-1730.
[94] AGARWAL R, MELNICK L, FROSST N, et al. Neural additive models: interpretable machine learning with neural nets[C/OL]// Proceedings of the 35th Conference on Neural Information Processing Systems. [2022-01-21].https://proceedings.neurips.cc/paper/2021/file/251bd0442dfcc53b5a761e050f8022b8-Paper.pdf.
[95] ANTOL S, AGRAWAL A, LU J S, et al. VQA: visual question answering[C]// Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 2425-2433.
[96] FUKUI A, PARK D H, YANG D, et al. Multimodal compact bilinear pooling for visual question answering and visual grounding[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 457-468.
[97] HENDRICKS L A, AKATA Z, ROHRBACH M, et al. Generating visual explanations[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9908. Cham: Springer, 2016: 3-19.
[98] DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al. Long?term recurrent convolutional networks for visual recognition and description[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 2625-2634.
[99] PARK D H, HENDRICKS L A, AKATA Z, et al. Multimodal explanations: justifying decisions and pointing to the evidence[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8779-8788.
[100] CHEN L, YAN X, XIAO J, et al. Counterfactual samples synthesizing for robust visual question answering[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 10797-10806.
[101] ODAJIMA K, HAYASHI Y, TIANXIA G,et al. Greedy rule generation from discrete data and its use in neural network rule extraction[J]. Neural Networks, 2008, 21(7): 1020-1028.
[102] ZHANG Q, YANG Y, MA H, et al. Interpreting CNNs via decision trees[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 6261-6270.
[103] LEI X, FAN Y K, LI K C, et al. High?precision linearized interpretation for fully connected neural network[J]. Applied Soft Computing, 2021, 109: No.107572.
[104] HOOKER S, ERHAN D, KINDERMANS P J, et al. A benchmark for interpretability methods in deep neural networks[C/OL]// Proceedings of the 33rd Conference on Neural Information Processing Systems. [2021-09-21].https://proceedings.neurips.cc/paper/2019/file/fe4b8556000d0f0cae99daa5c5c5a410-Paper.pdf.
[105] YANG M J, KIM B. Benchmarking attribution methods with relative feature importance[EB/OL]. (2019-11-04)[2021-05-01].https://arxiv.org/pdf/1907.09701.pdf.
[106] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8693. Cham: Springer, 2014: 740-755.
[107] ZHOU B L, LAPEDRIZA A, KHOSLA A, et al. Places: a 10 million image database for scene recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6): 1452-1464.
[108] ALVAREZ?MELIS D, JAAKKOLA T S. Towards robust interpretability with self?explaining neural networks[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 7786-7795.
[109] MOHSENI S, BLOCK J E, RAGAN E D. A human?grounded evaluation benchmark for local explanations of machine learning[EB/OL]. (2020-06-28)[2021-05-16].https://arxiv.org/abs/1801.05075v2.pdf.
[110] HOLZINGER A, CARRINGTON A, MüLLER H. Measuring the quality of explanations: the System Causability Scale (SCS)[J]. KI - Künstliche Intelligenz, 2020, 34(2): 193-198.
[111] EDMONDS M, GAO F, LIU H X, et al. A tale of two explanations: enhancing human trust by explaining robot behavior[J]. Science Robotics, 2019, 4(37): No.aay4663.
Review on interpretability of deep learning
LEI Xia, LUO Xionglin*
(,,102249,)
With the widespread application of deep learning, human beings are increasingly relying on a large number of complex systems that adopt deep learning techniques. However, the black?box property of deep learning models offers challenges to the use of these models in mission?critical applications and raises ethical and legal concerns. Therefore, making deep learning models interpretable is the first problem to be solved to make them trustworthy. As a result, researches in the field of interpretable artificial intelligence have emerged. These researches mainly focus on explaining model decisions or behaviors explicitly to human observers. A review of interpretability for deep learning was performed to build a good foundation for further in?depth research and establishment of more efficient and interpretable deep learning models. Firstly, the interpretability of deep learning was outlined, the requirements and definitions of interpretability research were clarified. Then, several typical models and algorithms of interpretability research were introduced from the three aspects of explaining the logic rules, decision attribution and internal structure representation of deep learning models. In addition, three common methods for constructing intrinsically interpretable models were pointed out. Finally, the four evaluation indicators of fidelity, accuracy, robustness and comprehensibility were introduced briefly, and the possible future development directions of deep learning interpretability were discussed.
deep learning; interpretability; decision attribution; latent representation; evaluation indicator
This work is partially supported by National Natural Science Foundation of China (61703434).
LEI Xia, born in 1989, Ph. D. candidate. Her research interests include machine learning, optimal control.
LUO Xionglin, born in 1963, Ph. D., professor. His research interests include control theory, process control, chemical system engineering, machine learning.
1001-9081(2022)11-3588-15
10.11772/j.issn.1001-9081.2021122118
2021?12?18;
2022?02?12;
2022?02?23。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61703434)。
TP18
A
雷霞(1989—),女,福建建甌人,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、最優(yōu)控制;羅雄麟(1963—),男,湖南汨羅人,教授,博士,主要研究方向:控制理論、過(guò)程控制、化工系統(tǒng)工程、機(jī)器學(xué)習(xí)。