李 瑤, 左興權, 王春露, 黃 海, 張修建
(1. 北京郵電大學網(wǎng)絡空間安全學院,北京 100876;2. 北京郵電大學計算機學院,北京 100876; 3. 可信分布式計算與服務教育部重點實驗室,北京 100876; 4. 北京航天計量測試技術研究所,北京 100076;5.國家市場監(jiān)管重點實驗室(人工智能計量測試與標準),北京 100076)
近年來,從智能推薦系統(tǒng)、智能電子郵件過濾到自動駕駛,人工智能的應用越來越廣泛,其面對的問題越來越復雜,機器學習模型的復雜程度越來越高。為了獲得更好的性能,機器學習模型的參數(shù)數(shù)量可達上億量級。性能提高的代價是模型透明性的缺失,人們無法理解模型的決策邏輯,因而無法信任其做出的決策。為此,學術界在2004年提出了可解釋人工智能(Explainable Artificial Intelligence,XAI)[1]的概念。為使用戶理解、信任和管理新一代人工智能系統(tǒng),2016年10月,美國國防部高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)啟動了“可解釋的人工智能”[2]項目。
XAI 可解釋性對于機器學習研究和用戶至關重要,一方面,可解釋性是衡量模型決策合理性和算法安全性的基礎;另一方面,缺乏可解釋性會阻礙人工智能在一些關鍵領域的落地應用,例如,信用評分、醫(yī)療保健、自動駕駛以及軍事領域。2018年5月,歐盟出臺了《通用數(shù)據(jù)保護條例》,首次引入了關于自動決策的條款,要求為用戶提供獲得解釋權的權利。
人工智能可解釋性研究作為人工智能領域中一個新興的分支,目前已出現(xiàn)了多種解釋技術,包括LIME[3]、SHAP[4]、顯著圖(Saliency Map)[5]及注意力機制(Attention Mechanism)[6-7]等,但如何評估XAI的可解釋性還沒有形成共識[8],XAI 可解釋性評估研究還處于早期發(fā)展階段??山忉屝栽u估工作需要針對具體的應用場景、解釋模型和用戶,需要考慮主客觀因素,因而難以形成普遍認可的科學評估體系[9]。對于可靠性要求高的領域[10],只有科學評估XAI的可解釋性,才能促進XAI在這些領域中應用。
XAI的可解釋性評估涉及人機交互(Human Co-mputer Interaction,HCI)、人類科學(Human Scien-ce)、可視化(Visualization)、機器學習(Machine Lear-ning)和數(shù)據(jù)科學(Data Science)等多領域的交叉[11],具有較大挑戰(zhàn)性。本文綜述了當前XAI可解釋性評估方法。首先,介紹了XAI的可解釋性及其評估的基本概念和分類;然后,總結和梳理了XAI可解釋性的一些特性;進而,從可解釋評估方法和可解釋性評估框架兩方面,分析和討論了可解釋性評估工作;最后,總結了當前人工智能可解釋性評估研究的不足,并展望了其未來發(fā)展方向。
人工智能可解釋性研究可追溯到1991年,G.D.Garson等[12]提出了從敏感性分析的角度,分析和解釋機器學習模型的預測結果。2004年,首次提出了XAI這一術語。目前還沒有關于人工智能可解釋性標準的且普遍接受的定義,對于如何評估可解釋性也沒有標準的普遍認可的體系[9]。
從可解釋性的角度,機器學習模型可分為透明盒(Transparent Box)模型與黑盒(Black Box)模型[13]。透明盒模型的決策機理是透明的,本身具有可解釋性,例如,決策樹模型、規(guī)則模型及線性模型等。黑盒模型的決策機理不透明,用戶無法得知決策的依據(jù),例如,神經(jīng)網(wǎng)絡、支持向量機等。目前的解釋技術主要用于解釋黑盒模型。
可解釋性涉及多領域交叉,其定義需融合不同領域對解釋的理解和需求,因而難以形成統(tǒng)一定義[14]。目前,可解釋性定義主要從技術和用戶兩方面考慮,如DARPA定義XAI為“XAI向用戶提供解釋,用以使用戶理解系統(tǒng)的整體優(yōu)勢和不足,理解系統(tǒng)在未來或不同情況下的行為,并可能允許用戶糾正系統(tǒng)的錯誤”[2]。文獻[14]指出,還需考慮可解釋性功能性需求,如公平性、因果性等,因此,從解釋受眾和解釋功能的角度出發(fā),定義XAI為:“XAI能夠提供其功能的細節(jié)和原因,使其功能對用戶而言是清晰的或容易理解的”,說明XAI在不同應用場景下的功能性目標需考慮具體的用戶。
許多文獻強調了可解釋性評估的必要性和評估指標的缺乏[11,14-15]。文獻[11]調研了381篇XAI相關文獻,其中只有5%的研究嘗試評估XAI的可解釋性。類似地,文獻[16]發(fā)現(xiàn),78%的關于決策支持系統(tǒng)解釋的研究缺乏結構化的評估工作。只有系統(tǒng)科學地評估XAI的可解釋性,才能提高XAI的可靠性和實用性,推動XAI的研究和應用。具體來說,可解釋性評估的目標包括:1)為解釋方法之間的比較提供科學、有效的評價標準;2)評價XAI是否實現(xiàn)了預期的可解釋性目標[17]。
文獻[18]將可解釋性評估分為三類:1)基于應用(Application-ground):在實際應用場景下,由用戶(尤其是專業(yè)人員)評估可解釋性;2)基于人(Human-ground):設計簡化的任務,利用基于用戶實驗獲得的評價指標來評估解釋性;3)基于功能(Function-ground):無需用戶參與,通過可解釋代理模型或量化指標來評估可解釋性,例如,決策樹的深度、模型預測的不確定性等。基于應用的評估是最理想的,因為它評估了XAI在實際應用中用戶對解釋的反饋,然而用戶的參與導致評估成本較高,且評估結果依賴于所選的專業(yè)人員的領域?;诠δ艿脑u估無需人的參與,但其評估結果的有效性難以保證,因為量化指標可能并不能很好地反映可解釋性?;谌说脑u估是一個折中方法,比基于應用的評估成本低,但比基于功能的評估更有效。
文獻[19]根據(jù)用戶是否參與評估,將可解釋性評估分為主觀、客觀評估兩類。主觀評估利用用戶或專家反饋來評估XAI可解釋性;客觀評估利用客觀評估指標來量化評估可解釋性。以上基于應用的評估和基于人的評估屬于主觀評估,而基于功能的評估屬于客觀評估。
可解釋性的特性是指可解釋性應具備的特性,用于評估和比較XAI的可解釋性。文獻[20]從解釋方法(Explanation Methods)和個體解釋(Individual Explanations)兩方面總結了可解釋性的特性。
解釋方法的特性包括4個方面:1)表達能力(Expressive Power):是指解釋方法生成的解釋的形式,如if-then規(guī)則、模糊邏輯、直方圖、決策樹、線性模型、有限制的自然語言等;2)半透明性(Translucency):是指解釋方法對機器學習模型內(nèi)部工作原理的依賴性,例如,模型無關的解釋方法與模型內(nèi)部工作原理無關,其半透明性為零;3)可移植性(Portability):是指解釋方法可應用的范圍,高半透明性的解釋方法的可移植性低;4)算法復雜性(Algorithmic Complexity):是指解釋方法的計算復雜性。此外,解釋方法的穩(wěn)定性[21]、魯棒性[22]、敏感性[23]等也是評估可解釋性的重要指標。
個體解釋是指解釋方法生成的解釋內(nèi)容,其特性包括9方面:1)準確性(Accuracy):是指解釋對未知實例預測的準確性,例如:規(guī)則形式的解釋的預測準確性;2)保真度(Fidelity):是指解釋是否反映模型真實預測行為,對于局部解釋,保真度是指解釋是否很好地反映模型在某一實例附近的預測行為;3)一致性(Consistency):是指對同一任務(如數(shù)據(jù)集)訓練得到的兩個模型的解釋的相似程度,如果這兩個模型對相似實例的解釋越相似,則一致性越高;4)穩(wěn)定性(Stability):是指對相似實例生成的解釋的相似程度,與一致性不同,穩(wěn)定性是指同一模型對相似實例解釋的相似性;5)可理解性(Comprehensibility):是指用戶對解釋的理解程度,是偏主觀的特性;6)確定性(Certainty):是指解釋能否反映模型預測的確定性,許多模型只提供預測結果,而不提供模型預測正確性的置信度;7)重要性(Importance):是指解釋能否反映其所包含的信息(如特征)間的重要性程度,例如,規(guī)則集形式的解釋中各條規(guī)則的重要程度;8)新穎性(Novelty):是指解釋能否反映來自新區(qū)域(遠離訓練數(shù)據(jù)分布的區(qū)域)的解釋實例;9)代表性(Representativeness):是指解釋覆蓋實例程度,解釋可能覆蓋整個模型行為,或只能解釋部分實例。
由于解釋是面向用戶的,因此解釋需要以用戶能理解的形式呈現(xiàn)。文獻[24]從用戶角度出發(fā),分析了人容易理解的解釋的特性,主要包括7方面:1)對比性(Contrastiveness):又稱反事實忠實性(Counter-factual Faithfulness),人們傾向于反事實思考,通常會問為什么不是其他預測結果。好的解釋應能突出事實和相關事件之間的差異性。2)選擇性(Selectivity):人們往往并不期望解釋能涵蓋模型預測的完整原因,而更傾向于從多個可能的原因中選擇主要原因作為解釋。因此,解釋方法應能明確模型預測結果的主要原因。3)社會性(Sociality):解釋需要解釋者和被解釋者之間的互動,因此需考慮社會環(huán)境和目標用戶,以適用于不同領域和環(huán)境。4)異常關注(Focus on the Abnormal):人們更關注異常事件(實例)發(fā)生的原因,分析異常事件的原因可提供更好的解釋。5)真實性(Truth):解釋應反映真實的決策邏輯。6)先驗知識一致性(Consistent with Prior Knowledge):人們更傾向于忽略與其先驗知識不一致的信息。7)普遍性(Generality):好的解釋應能應用于大多數(shù)實例。
一些文獻從其他角度分析了解釋的特性,例如:文獻[14]從解釋目標的角度分析了解釋的可信性(Trustworthiness)、因果性(Causality)、可轉移性(Transferability)、信息性(Informativeness)、置信能力(Confidence)、公平性(Fairness)、可訪問性(Accessibility)、互動性(Interactivity)及隱私意識(Privacy Awareness)。文獻[19]從解釋概念的角度分析了因果性、完整性(Completeness)等36個相關解釋特性。
可解釋性特性可用于評估和比較可解釋性水平,但有些特性的量化方法尚不明確,這是可解釋性評估工作的重要挑戰(zhàn)之一;另一個挑戰(zhàn)是:“好”解釋應滿足什么特性方面還未形成共識[25],目前研究主要從直覺出發(fā),分析“好”解釋應滿足的特性[24]。如何結合具體應用場景、評估目標、用戶類型,合理地選擇、組合、量化上述特性,對可解釋性評估至關重要。
根據(jù)是否需要用戶參與可解釋性評估,可將評估方法分為主觀評估方法和客觀評估方法。
若解釋有助于用戶建立XAI的決策邏輯的心理模型,則該解釋是有效的[19]。大多數(shù)可解釋性的評估工作以用戶為中心進行評估,基于用戶的反饋評估可解釋性。評估過程一般涉及兩類用戶[26]:普通用戶和專家用戶,普通用戶是指沒有AI專業(yè)知識或技能的用戶,專家用戶是指具有一定專業(yè)水平的數(shù)據(jù)專家和AI專家等。文獻[27]分析了653篇XAI文獻,將主觀評估研究分為定性研究、定量研究、定性和定量結合研究。
3.1.1 定性評估
定性評估基于開放式問題,通過采訪、問卷調查、量表分析等方式評估解釋的有用性、用戶滿意度和信任等[17]。DARPA的XAI項目中,R.R.Hoffman等[15]的工作是XAI可解釋性定性評估的代表,其通過建立 XAI 解釋過程的概念模型,從解釋的優(yōu)良、用戶滿意度、用戶心理模型、用戶信任與依賴以及好奇心的影響等方面評估可解釋性,并對用戶實驗設計給出具體建議和示例,示例包括:1)設計一組詢問用戶對解釋效果的感受的問題,評估解釋對用戶好奇心的影響,如“我想知道我是否正確理解這個人工智能系統(tǒng)”;2)設計5分利克特量表(Likert Scale)評估用戶滿意度和用戶信任與依賴,量表問題如:“我喜歡用該XAI系統(tǒng)來決策”。心理模型是指用戶對XAI系統(tǒng)的理解,該評估工作列出11種提取用戶心理模型的方法,并分析了各方法的優(yōu)缺點,其中典型的方法包括:1)預測任務(Prediction Task):用戶對給定的樣本進行預測并解釋預測的原因;2)自解釋任務(Self-explanation Task):用戶在完成指定任務后,描述自己的理解;3)有聲思考問題解決任務(Think-aloud Problem Solving Task):用戶在完成任務的過程中,說出自己的想法、感受、意見等。
文獻[28]在眾包平臺上召集了120名用戶,每個用戶完成4分利克特量表和5分利克特量表,從有效性、效率、說服力、滿意度、可審查性、透明性和信任7個方面來評估一個用于推薦領域的XAI的可解釋性。
解釋方法有效性驗證方面,一般通過小規(guī)模用戶實驗來驗證,例如,文獻[29]設計了一些描述題、選擇題、判斷題,請47位學過機器學習課程的學生回答,通過統(tǒng)計用戶預測的準確度來驗證解釋方法的有效性。文獻[30]通過70位學習機器學習課程的本科學生在線用戶實驗,以驗證解釋方法的有效性。
3.1.2 定性與定量評估結合
主觀評估的定量研究以封閉式問題為基礎,計算任務完成的效果[19],例如:計算人機任務性能測試的準確性、反應時間等指標[17]。
一些評估工作結合定性和定量分析來評估和比較可解釋性[26],用戶完成預測任務后,除定量分析預測準確性、所用時長等指標外,還需用戶完成填空、量表等定性調查,以進一步分析用戶滿意度、理解性等。文獻[31]為評估醫(yī)學領域中LIME解釋方法生成的XAI的解釋性,計算XAI預測結果中醫(yī)生贊同的比例、XAI的解釋與醫(yī)生的解釋的相似性,以評估解釋的準確性和充分性,同時請醫(yī)生完成2份5分利克特量表來評估醫(yī)生對解釋的滿意與信任程度。文獻[32]為了研究復雜性對XAI的解釋性的影響,在眾包平臺上召集900名用戶,每個用戶完成3個任務和1份5分利克特量表,通過計算任務完成時間、準確度、解釋的使用難度來評估具有不同復雜性的XAI的可解釋性。一些研究利用輔助專業(yè)設備來評估可解釋性,例如,文獻[33]和文獻[34]在用戶實驗中利用眼球追蹤(Eye Tracker)設備來判斷用戶的注意力,同時利用量表來評估解釋的可信性和可依賴性。
3.1.3 總結和分析
如前所述,當前有很多以用戶為中心的主觀評估方法,但還沒有用戶實驗設計的統(tǒng)一標準[16,21]。一些研究工作提出用戶實驗設計的建議[35],例如:在DARPA的XAI項目中,S.T.Muller等[36]圍繞解釋的類型、實驗設計、用戶模型的可靠性、用戶信任等9個方面,調研和總結了從1987年至2018年間XAI可解釋性主觀評估工作,提出了一組以用戶為中心XAI設計原則[37],為可解釋性主觀評估方法提供指導。
由于解釋是面向用戶的[38],因此,用戶實驗是一種高效且直接的可解釋性評估方式。采用這種方式時,解釋的有效性依賴于用戶認知能力和解釋的應用環(huán)境。合理的用戶實驗可以評估解釋方法的實際應用效果[39]。然而,用戶實驗具有隨機性和主觀性,不同用戶可能傾向于不同類型和程度的解釋,用戶認知的局限性也可能導致用戶對解釋的合理性做出錯誤判斷。此外,用戶實驗是基于“好的解釋能提升用戶表現(xiàn)”的假設,然而此假設成立的條件有待進一步探究。文獻[39]中,一項涉及3800名參與者的研究表明,清晰、詳細的解釋反而會損害用戶表現(xiàn)。文獻[40]指出,基于用戶反饋的用戶實驗可能會導致研究人員過于追求設計一個更有說服力的解釋方法,而不是設計一個與解釋對象一致的解釋方法。
客觀評估無需用戶參與,利用客觀指標來評估XAI的可解釋性??山忉屝噪m然涉及人的主觀感受,但也可以通過量化評估指標實現(xiàn)客觀評估[23]。客觀評估方法能快速地、自動地評估XAI的可解釋性[41]。相比主觀評估,客觀評估工作相對較少。文獻[19]調研了70篇可解釋性評估文獻,其中客觀評估工作的占比為38.02%。
客觀評估研究可解釋特性的量化方法。本文總結了一些常用的量化特性,見表1。
表1 XAI可解釋性的客觀評估工作
3.2.1 穩(wěn)定性
穩(wěn)定性是指XAI對相似/鄰近樣本生成解釋的相似性[19]。對于同一樣本或相似的樣本,XAI 應產(chǎn)生相似的解釋,若生成具有較大差異的解釋,則會影響用戶對XAI 的信任。例如,自動駕駛領域中,若在行駛情況沒有發(fā)生明顯變化時,XAI向用戶提供幾種不同的解釋,則用戶會對自動駕駛系統(tǒng)失去信任[42]。
(1)
其中,fexpl為解釋方法;Bε為鄰近樣本集合;h為聚合函數(shù)。一般來說,解釋內(nèi)容的基本單元是樣本中的變量(特征或像素),當該變量為高度、面積等用戶可理解的信息時,h(xi)=xi;當該變量為像素等用戶難以理解的信息時,解釋內(nèi)容的基本單元是用戶可理解的高階變量,如像素塊,此時,h(xi)為由高階變量組成的樣本。
3.2.2 敏感性
敏感性是指XAI對輸入樣本變化的敏感程度[19]。低敏感性的XAI通常更受歡迎,因為其具有較強的抗干擾性,當輸入樣本受到與模型預測無關的微小擾動時,XAI的解釋不會產(chǎn)生明顯變化。A.Ghorbani等[48]的研究表明,具有高敏感性的解釋可能更容易受到對抗攻擊。文獻[23]提出最大敏感性指標SENSMAX(Max-sensitivity)來評估解釋的敏感性,該指標計算鄰近樣本解釋間的最大距離作為敏感性
(2)
其中,r是一個預定義的參數(shù),表示擾動范圍;x為輸入樣本;f表示黑盒模型;Φ表示解釋方法。文獻[49]提出最大敏感性和平均敏感性兩個指標來計算敏感性,這兩個指標選取與輸入樣本預測結果相同的鄰近樣本。最大敏感性按式(3)計算
(3)
其中,D為距離函數(shù);f表示黑盒模型;g表示解釋方法;x為輸入樣本;Nr表示與x距離為r的樣本集合中與x預測結果相同的所有樣本。
一些解釋方法關注于解釋的高敏感性。例如,基于顯著圖的解釋方法,通過計算輸入特征對模型輸出影響的重要性分數(shù)來解釋黑盒模型[14],文獻[51]提出Sensitivity-n指標,通過擾動來量化具有相同重要性水平的不同特征被移除時對模型預測結果的影響,以此分析解釋對重要特征的敏感性。文獻[52]和文獻[53]利用Spearman秩相關(Spearman Rank Correlation)、梯度直方圖的Pearson相關(Pearson Corre-lation of the Histogram of Gradients)、結構相似指數(shù)(Structural Similarity Index)指標分別評估解釋方法對模型參數(shù)和超參數(shù)的敏感性。
3.2.3 保真度
保真度是指解釋描述模型行為的準確程度,即解釋與黑盒模型的一致程度。保真的解釋一方面應能提供足夠的信息來描述從樣本輸入到模型預測過程中模型的完整行為,另一方面應能真實反映模型行為[17]。一些研究工作通過計算解釋的預測結果與黑盒模型預測結果間的偏差來評估保真度。例如:文獻[46]在解釋樣本的鄰近樣本集上,計算黑盒模型預測與解釋預測的F1分數(shù)來評估解釋的保真度。除F1分數(shù)外,Accuracy[54]、AUC分數(shù)[55]也是常用的指標。更多的研究工作基于樣本的擾動來評估解釋的保真度,如文獻[23]、[42]、[49]等。文獻[56]利用均方根誤差(Root Mean Square Error, RMSE)計算預測偏差來評估保真度,且基于樣本擾動進一步評估保真度,從3方面測試解釋所包含的特征是否真實地影響黑盒模型的行為:1)特征推斷測試(Feature Deduction Test):通過抹去測試樣本中解釋所包含的特征對應的特征值來構造新樣本,觀察新樣本的模型預測結果是否改變,若改變,則通過測試;2)特征增強測試(Feature Augmentation Test):從與測試樣本x不同類別的樣本集中隨機挑選一個樣本y,將測試樣本中解釋所包含的特征對應的特征值替換y的特征值來構建新樣本,觀察新樣本的預測結果是否與測試樣本的預測結果相同,若相同,則通過測試;3)綜合測試(Synthetic Test):保留測試樣本中解釋所包含的特征對應的特征值,并將其他特征進行隨機賦值來構建新樣本,觀察新樣本的預測結果是否與測試樣本相同,若相同,則通過測試。在測試集上分別進行以上三種測試,計算各測試中通過測試的樣本所占的比例來評估解釋的保真度。與上述特征推斷測試類似,文獻[5]和文獻[57]通過對圖像進行特征遮擋來計算解釋的保真度。
此外,復雜性、因果性、有效性等也是客觀評估中普遍關注的特性。還有一些客觀評估工作只針對特定解釋方法或黑盒模型。例如,文獻[58]利用決策樹代理模型來解釋卷積神經(jīng)網(wǎng)絡(Convolutio-nal Neural Network, CNN),通過控制和調節(jié)CNN來計算代理模型的特征信息增益、特征稀疏性、特征完整性、決策樹的預測準確性、完整性以量化評估可解釋性,該評估方法涉及CNN的調節(jié)和控制,是一種針對特定黑盒模型的評估方法。類似的評估工作見文獻[57]、[59]、[60],不再贅述。
3.2.4 總結和分析
客觀評估方法量化了可解釋性的特性,能快捷地評估XAI可解釋性。然而,由于解釋的特性通常是概念性的,且解釋方法、解釋形式、評估目標具有多樣性,因此即使針對同一特性,其量化方法也不盡相同。此外,一些評估方法受限于特定黑盒模型和應用場景,不具有通用性。對于一些重要特性,諸如解釋確定性、公平性及隱私意識等,仍缺乏可靠的量化評估方法。
XAI系統(tǒng)整個生命周期中,從最初需求確定到設計和開發(fā),再到系統(tǒng)使用,都需要解釋。將可解釋性評估與XAI設計和開發(fā)過程結合,研究XAI可解釋性評估的框架具有重要意義[71]。
XAI系統(tǒng)在不同階段具有不同設計目標,一個觀點是考慮XAI設計目標和評價方法之間的依賴關系[26],根據(jù)XAI設計過程和解釋目標來選擇合適的評估方法,從而對XAI可解釋性進行整體評估。文獻[26]構建了一個XAI系統(tǒng)設計與評估的嵌套框架,如圖1所示。XAI系統(tǒng)設計中,需根據(jù)XAI設計目標來確定每個框架層的可解釋性要求。這些要求根據(jù)用戶需求確定,包括法規(guī)、法律、安全標準等,隨后選擇合適的評價方法來評估可解釋性是否達到預期要求。該框架結構包括:
圖1 XAI設計與評估框架[26]Fig.1 Design and evaluation framework of XAI [26]
1)外層:XAI系統(tǒng)級設計目標層,其解釋的要求包括:a)確定解釋的目的;b)結合應用場景和目標用戶類型,選擇合適的解釋內(nèi)容;c)利用XAI系統(tǒng)的輸出來定性和定量評估XAI系統(tǒng)目標的實現(xiàn)情況。具體評估方法取決于設計目標、應用范圍和目標用戶,例如:用戶信任和依賴[72-73]、人機任務性能[74]、用戶意識[75]等。
2)中間層:解釋形式和界面設計,目的是以用戶可理解的、滿意的方式呈現(xiàn)解釋內(nèi)容。采用用戶對解釋的理解、用戶對解釋的滿意度、用戶心理模型等主觀評估方法,以改善解釋界面設計。
3)內(nèi)層:解釋算法設計層。XAI利用解釋技術來解釋黑盒模型,而各種解釋技術具有各自優(yōu)缺點和應用范圍。因此,只有選取合適的解釋技術,才能向用戶提供有用且值得信賴的解釋。可以通過定量評估XAI的可信性[76]、保真度等指標來評估內(nèi)層解釋算法的有效性。
DARPA的XAI項目[2]基于XAI解釋過程的概念模型來評估XAI的可解釋性,如圖2所示。概念模型包括:用戶、XAI的解釋、用戶心理模型(User’s Mental Model)及用戶系統(tǒng)任務表現(xiàn)(User-System Task Per-formance)4個模塊。模塊之間的關系為:用戶收到XAI提供的解釋,解釋用于建立和完善用戶的心理模型,完善的心理模型可提高用戶系統(tǒng)任務表現(xiàn)。優(yōu)良的解釋可幫助用戶構建良好的心理模型,而良好的解釋與心理模型能使用戶信任與依賴XAI的決策。針對概念模型中4個模塊,將可解釋評估劃分為以下五方面:
1)解釋優(yōu)良性(Explanation Goodness):評估解釋是否滿足優(yōu)良的解釋應具備的特性;
2)滿意度測試(Test of Satisfaction):用戶對解釋的主觀評價,包括解釋的完整性、有用性、準確性和滿意度等;
3)理解性測試(Test of Understanding):測試用戶理解XAI系統(tǒng)的程度以及用戶在新場景下預測系統(tǒng)決策/行為的能力;
4)用戶任務性能(User Task Performance):用戶能成功地執(zhí)行XAI系統(tǒng)所支持的任務;
5)合理的信任與信賴(Appropriate Trust and Reliance):用戶能合理地判斷XAI系統(tǒng)提供的解釋和預測,并適當?shù)匦湃闻c依賴該系統(tǒng)。
不同類型用戶對解釋需求和理解程度存在差異,因此,多數(shù)主觀評估工作從用戶類型角度設計評估目標,而文獻[77]從用戶所需求信息的角度出發(fā),根據(jù)解釋中包含信息的必要性,構建一個三層框架來分析XAI的設計與評估:解釋對XAI系統(tǒng)當前行為的感知、解釋對XAI行為或決策原因的感知、解釋對XAI行為的反事實分析或預測。
可解釋性評估框架為XAI可解釋性評估提供指導思路,能夠從多方位整體評估XAI的可解釋性,發(fā)現(xiàn)XAI可解釋性的缺陷,有助于設計解釋性更好的XAI,使用戶能夠系統(tǒng)、全面地理解XAI。當前雖然已有一些可解釋性評估框架,但這些框架的合理性和實用性還有待于進一步的實際應用驗證。此外,這些框架只提供了可解釋性評估的指導思路,沒有提供具體的評估方法,因此在使用中需要在框架指導下,結合具體的XAI系統(tǒng),選取合適的評估方法與指標。
表2總結和比較了主觀評估方法、客觀評估方法以及可解釋性評估框架的優(yōu)缺點。
表2 XAI可解釋性評估方法的對比
隨著XAI的快速發(fā)展,XAI可解釋性評估研究得到越來越多的關注。本文綜述了XAI可解釋性評估的研究進展。首先,分析了可解釋性應具備的特性,這些特性可用于評估和比較XAI的解釋性。然后,從主觀和客觀評估兩方面總結了當前可解釋評估方法。最后,綜述了一些可解釋性評估框架。
XAI可解釋評估研究仍然處于早期發(fā)展階段,一些研究工作有待進一步開展,未來的研究方向包括:
1)可解釋性的客觀評估方法。相較于主觀評估方法,客觀評估方法較少,這是因為:a)有些可解釋的特性是概念性的,與用戶主觀感受相關(如滿意度),難以客觀量化;b) 有些可解釋的特性目前還缺乏可靠的量化方法??陀^評估可以實現(xiàn)XAI的快速、自動評估,避免主觀評估成本高的不足,是可解釋性評估的未來發(fā)展方向。
2)可解釋性評估的統(tǒng)一標準??山忉屝栽u估標準需考慮多方面因素。一方面,不同領域XAI的評估目標不同,不同類型的用戶具有不同的解釋需求,因此需結合具體應用領域和用戶類型來劃分可解釋評估工作;另一方面,XAI設計者或用戶可能不清楚需要何種類型、何種程度的解釋,因此,需提供可解釋性評估列表,引導XAI的可解釋性評估向著規(guī)范化方向發(fā)展。
3)可解釋性評估方法比較研究。目前已存在多種可解釋性評估方法,這些方法各有優(yōu)缺點,但鮮有研究比較這些評估方法的評估效果和適用場景。可解釋評估方法的比較研究,對于XAI設計者和用戶選取合適的評估方法來評估XAI的可解釋性具有重要意義。
4)可解釋性的系統(tǒng)性評估方法。可解釋性評估需要融入XAI系統(tǒng)整個生命周期中,從多角度評估XAI系統(tǒng)的可解釋性。雖然已有一些可解釋性評估框架,但這些框架是概念性的,缺乏具體的評估細節(jié)和應用案例。深入研究和完善可解釋性評估框架,對系統(tǒng)評估XAI的可解釋性具有重要意義。
5)可解釋性在安全方面的評估。解釋可能會給XAI和用戶帶來安全隱患:a)解釋方法往往會揭示底層模型和訓練數(shù)據(jù)信息,其展示的信息可能包含模型和用戶信息,由此導致隱私泄露,因此,需要評估XAI解釋的隱私性;b)解釋中包含的信息可能會被惡意利用,以此發(fā)現(xiàn)模型漏洞和脆弱點,實施對XAI的惡意攻擊,因此解釋需要考慮安全性因素,需要評估XAI解釋的安全性。