XAI 在反洗錢領(lǐng)域的探索與應(yīng)用

2022-01-05 09:16:34中銀金科閆玲玲

華東科技 2021年12期

文/ 中銀金科閆玲玲

在大數(shù)據(jù)時代背景下，機器學習相關(guān)技術(shù)的應(yīng)用正全面滲透到金融行業(yè)當中。與傳統(tǒng)的統(tǒng)計模型相比，機器學習模型具有更好的預(yù)測表現(xiàn)能力。然而，隨著需要處理的數(shù)據(jù)規(guī)模越來越大，機器學習模型的復(fù)雜度也逐漸增加，這就為模型的可解釋性帶來了巨大的挑戰(zhàn)，用戶只能看到模型結(jié)果，無法了解模型做出決策的原因和過程。反洗錢場景的特殊性在于它屬于強監(jiān)管領(lǐng)域，工作人員在進行可疑交易上報時，必須給出詳細的判斷依據(jù)，從而確保決策的合理性，因此模型的可解釋性就顯得尤為重要。為了提高機器學習模型的可解釋性，建立用戶與決策模型之間的信任關(guān)系，更好地推動復(fù)雜機器學習模型在反洗錢領(lǐng)域的應(yīng)用，中銀金科在可解釋機器學習（XAI）領(lǐng)域進行了初步探索。

可解釋機器學習相關(guān)概念

可解釋性是指我們具有足夠的可以理解的信息來解決某個問題，可解釋的機器學習是指我們能夠?qū)斎氲奶卣骱妥罱K預(yù)測結(jié)果之間的關(guān)系進行定性理解，即每個預(yù)測結(jié)果都具備相應(yīng)的決策依據(jù)。例如金融風控領(lǐng)域的評分卡模型，通過客戶最終得分來決定他能否通過貸款申請，同時通過不同特征項的得分給出判決依據(jù)。

通常情況下，模型的復(fù)雜程度與模型的準確度相關(guān)聯(lián)，同時又與模型的可解釋性相對立。線性回歸、邏輯回歸、決策樹等結(jié)構(gòu)簡單的機器學習模型往往具有較強的可解釋性，我們可以針對模型進行歸因分析，從而確保決策的合理性，但學習能力有限，準確率不高；而集成樹模型、神經(jīng)網(wǎng)絡(luò)等復(fù)雜的機器學習模型具有較強的擬合能力，在許多目標任務(wù)中取得了良好的性能，但由于模型參數(shù)量大、工作機制復(fù)雜、透明性低，因而可解釋性又相對較差，無法說明從輸入到輸出之間的因果關(guān)系。決策者使用復(fù)雜的黑盒模型時，由于缺乏模型解釋信息，無法判別模型結(jié)果合理性，所以導致很難將模型應(yīng)用到某些實際工作場景，大大降低了模型的實際效益。

可解釋機器學習的分類

（1）根據(jù)可解釋性方法的作用階段，可以分為內(nèi)在可解釋性和事后可解釋性。

·內(nèi)在可解釋性：通過訓練結(jié)構(gòu)簡單、可解釋性好的模型或?qū)⒖山忉屝越Y(jié)合到具體的模型結(jié)構(gòu)中使模型本身具備可解釋能力。

·事后可解釋性：通過開發(fā)可解釋性技術(shù)解釋已訓練好的機器學習模型。

（2）根據(jù)可解釋性方法的使用范圍，可以分為全局可解釋性和局部可解釋性。

·全局可解釋性：解釋整個模型的預(yù)測行為，旨在幫助人們理解復(fù)雜模型背后的整體邏輯以及內(nèi)部的工作機制。

·局部可解釋性：解釋單個實例的預(yù)測行為，旨在幫助人們理解機器學習模型針對每一個輸入樣本的決策過程和決策依據(jù)。

（3）根據(jù)可解釋方法與模型的匹配關(guān)系，可以分為特定于模型的解釋和模型無關(guān)的解釋。

· 特定于模型的解釋：意味著所使用的解釋方法必須應(yīng)用到特定的模型體系結(jié)構(gòu)中。

·模型無關(guān)的解釋：意味著解釋方法與所用模型無關(guān)聯(lián)。

可解釋機器學習的常用方法

為了提高機器學習模型的可解釋性，建立用戶與模型之間的信任關(guān)系，近年來機器學習領(lǐng)域的學者對可解釋機器學習方法進行了廣泛且深入的研究。其中，決策樹主要是根據(jù)特征分裂前后的信息增益變化來衡量特征的重要性；GLM（廣義線性模型）和GAM（廣義加性模型）都是對線性模型的擴展，其核心是將模型結(jié)果看作特征效應(yīng)的總和；Rulefit 訓練M 個基分類器，生成規(guī)則，然后對規(guī)則加懲罰項進行線性擬合；ALE 根據(jù)條件分布得到在特定特征值時，預(yù)測值在局部范圍內(nèi)的平均變化；PDP 和ICE 考察某項特征的不同取值對模型輸出值的影響；Permutation Importance 隨機重排或打亂樣本中的特定一列數(shù)據(jù)，通過模型預(yù)測準確率的變化來判斷特征的重要程度；LIME 的核心思想是對于每條樣本，尋找一個更容易解釋的代理模型解釋原模型。SHAP 的概念源于博弈論，核心思想是計算特征對模型輸出的邊際貢獻。

可解釋方法的選擇

由于不同的可解釋方法解決問題的角度和側(cè)重點不同，中銀金科結(jié)合具體的工程化實施過程，對可解釋方法的選擇過程進行了系統(tǒng)的歸納和科學的總結(jié)，如下圖所示。

可解釋機器學習應(yīng)用案例

本次探索選取的應(yīng)用場景為反洗錢可疑交易監(jiān)測場景，我們的任務(wù)是通過構(gòu)建機器學習模型找出潛在的高洗錢評分案例，輔助一線工作人員進行可疑案例篩查。該場景要求工作人員甄別可疑案例時，不僅要保持較高的準確性，而且要給出每一個可疑案例的詳細判斷依據(jù)。傳統(tǒng)反洗錢領(lǐng)域建模的痛點在于，無法兼顧模型的準確性和可解釋程度。如果選擇邏輯回歸等傳統(tǒng)機器學習算法，使用者可以很清晰地看到每個客戶的評分構(gòu)成，但精度往往不盡如人意；而如果選擇預(yù)測精度較高的“黑盒”模型，那么可解釋程度又會大大下降。

目前該領(lǐng)域的常規(guī)做法是，模型構(gòu)建完畢后，給出每個客戶的可疑度評分，再由甄別人員按照可疑度由高到低進行人工復(fù)核，撰寫可疑案例報告。這種做法不僅造成了大量人力資源浪費，而且沒有充分體現(xiàn)出機器學習模型的輔助作用?；谝陨贤袋c，中銀金科借助可解釋機器學習方法，在保證模型預(yù)測結(jié)果精度的基礎(chǔ)上，給出該結(jié)果的可讀性理由，使得用戶能夠理解模型做出決策的內(nèi)在邏輯，同時根據(jù)用戶需求自動生成可疑客戶報送信息，真正做到利用機器學習模型減少一線人員的工作量，提升甄別工作效率。整體流程如下圖所示。

我們選取分別來自客戶的基礎(chǔ)信息、交易信息、補充信息以及可疑案例信息四個維度的數(shù)據(jù)，經(jīng)過數(shù)據(jù)清洗后整合成客戶寬表；根據(jù)數(shù)據(jù)探查情況，結(jié)合專家經(jīng)驗構(gòu)建特征工程；綜合比較MLP、XGBoost、SVM 等多種機器學習算法，我們發(fā)現(xiàn)XGBoost 實現(xiàn)的梯度提升樹能夠提供最佳的準確率；XGBoost的局限性在于它僅能給出全局的特征重要性度量，而反洗錢場景還需要我們對模型給出局部解釋，即針對每個客戶交易案例進行可疑度歸因分析，給出可疑度評分的預(yù)測依據(jù)。

基于以上考慮，我們結(jié)合上一節(jié)總結(jié)的可解釋方法選擇策略，最終選取SHAP 方法對模型的預(yù)測結(jié)果進行解釋。SHAP的優(yōu)點在于表達直觀且理論完備，兼顧了全局解釋、局部解釋和特征的交互作用。

主要解釋過程包括以下四個部分：

（1）構(gòu)建解釋器：輸入XGBoost 模型參數(shù)，構(gòu)建一個解釋器。SHAP 支持很多類型的解釋器，我們選取適用于樹模型的treeshap。

（2）局部解釋：選擇一條客戶數(shù)據(jù)輸入至解釋器，計算每個特征對該客戶評分結(jié)果的貢獻度，即shap value，shap value 的絕對值大小代表該特征對客戶評分結(jié)果的影響程度。

（3）全局解釋：取每個特征的shap value 絕對值的平均值作為該特征的重要性。

（4）生成可疑交易識別報告：根據(jù)業(yè)務(wù)經(jīng)驗，將量化結(jié)果轉(zhuǎn)化成符合業(yè)務(wù)邏輯的語言，提升模型的可解釋程度，輸出可解釋報告，輔助業(yè)務(wù)人員完成案例描述，樣例如下。

可解釋機器學習是各行各業(yè)都在關(guān)注的重要課題，模型使用者對模型的安全感、信賴感、認同度都取決于模型的透明性和可理解性，尤其是在智能金融領(lǐng)域，模型的可解釋性尤為迫切和重要。

本文列舉了可解釋機器學習的常用方法，對可解釋方法的選擇過程進行了系統(tǒng)的歸納和科學的總結(jié)，形成了一套通用的方法論，同時針對反洗錢場景選擇合適的可解釋方法進行案例應(yīng)用，旨在為復(fù)雜機器學習模型在強監(jiān)管領(lǐng)域的落地和應(yīng)用提供一些思路，同時為國內(nèi)使用人工智能技術(shù)的未來監(jiān)管政策打好知識和實踐基礎(chǔ)。