王巍棟 王彥博 鄧昌智 馬羚
在當(dāng)前科技與金融深度融合的時(shí)代背景下,我國反洗錢監(jiān)管體系不斷完善,懲罰力度不斷加強(qiáng),各金融機(jī)構(gòu)的反洗錢監(jiān)測系統(tǒng)亟須借助大數(shù)據(jù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、圖計(jì)算等智能技術(shù)進(jìn)行迭代升級。本文從商業(yè)銀行反洗錢業(yè)務(wù)實(shí)際出發(fā),對構(gòu)建反洗錢智能識別模型存在的難點(diǎn)進(jìn)行歸納,并創(chuàng)新提出商業(yè)銀行構(gòu)建反洗錢智能識別模型的“GREAT框架”。而后,針對反洗錢樣本數(shù)據(jù)量大但正負(fù)樣本極度不平衡的特點(diǎn),運(yùn)用仿真模擬方法對數(shù)據(jù)進(jìn)行樣本衍生,再運(yùn)用有監(jiān)督學(xué)習(xí)中解釋性較強(qiáng)的邏輯回歸模型實(shí)現(xiàn)對反洗錢可疑模型的構(gòu)建,同時(shí)借鑒金融風(fēng)控場景中經(jīng)常使用的評分卡模型對邏輯回歸模型結(jié)果進(jìn)行從評分向用戶得分的轉(zhuǎn)換,并將優(yōu)化后的模型在商業(yè)銀行反洗錢領(lǐng)域嘗試應(yīng)用。相較于傳統(tǒng)的規(guī)則模型,優(yōu)化后的模型在保證覆蓋率的前提下,篩查效率大幅提高,能夠有效提升反洗錢業(yè)務(wù)的報(bào)送效率。
我國商業(yè)銀行反洗錢業(yè)務(wù)現(xiàn)狀
反洗錢、反恐怖融資工作是推進(jìn)國家治理體系和治理能力現(xiàn)代化、維護(hù)經(jīng)濟(jì)社會安全穩(wěn)定的重要保障。當(dāng)前,我國對反洗錢的監(jiān)管和懲罰力度日漸增強(qiáng)。2021年4月16日,央行發(fā)布了《金融機(jī)構(gòu)反洗錢和反恐怖融資監(jiān)督管理辦法》,進(jìn)一步明確并完善了我國的反洗錢監(jiān)管措施。
洗錢活動主要發(fā)生在金融領(lǐng)域,處于反洗錢核心地位的商業(yè)銀行等金融機(jī)構(gòu)均已依據(jù)中國人民銀行發(fā)布的《金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法》等相關(guān)要求,建立了一套完整的反洗錢監(jiān)測報(bào)送系統(tǒng)。在每個(gè)交易日日終時(shí),將當(dāng)天交易數(shù)據(jù)傳送到反洗錢系統(tǒng),然后經(jīng)過可疑模型篩選出可疑客戶以及對應(yīng)的交易數(shù)據(jù),推送給反洗錢相關(guān)工作人員,待人工調(diào)研審查核對后統(tǒng)一報(bào)送至上級部門。面對數(shù)量龐大的可疑交易數(shù)據(jù)以及每日不斷累積的亟待審核的可疑交易數(shù)據(jù),工作人員需要在一定時(shí)間周期內(nèi)完成所有被反洗錢系統(tǒng)可疑模型判定為疑似參與洗錢活動的客戶以及相關(guān)交易的數(shù)據(jù)審查,人工審核工作量巨大。除了審核工作本身繁雜耗時(shí)之外,往往需要聯(lián)系到客戶本人或者相關(guān)人員對客戶進(jìn)行身份核實(shí)以及交易信息核驗(yàn),因而人工成本高昂、效率難以提高。
因此,充分運(yùn)用大數(shù)據(jù)和人工智能等新興技術(shù),對現(xiàn)行的反洗錢可疑模型進(jìn)行迭代升級,以科技賦能反洗錢業(yè)務(wù)提質(zhì)增效,已成為金融科技時(shí)代商業(yè)銀行反洗錢業(yè)務(wù)發(fā)展的必由之路。傳統(tǒng)的反洗錢可疑模型是根據(jù)中國人民銀行發(fā)布的相關(guān)管理辦法來進(jìn)行規(guī)則設(shè)計(jì),進(jìn)而構(gòu)建的規(guī)則模型,未能充分利用相關(guān)業(yè)務(wù)數(shù)據(jù)的潛在價(jià)值。而運(yùn)用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等智能技術(shù)對反洗錢可疑模型進(jìn)行優(yōu)化,在參考中國人民銀行相關(guān)管理辦法的基礎(chǔ)上,更加注重相關(guān)業(yè)務(wù)數(shù)據(jù)本身的信息含義,挖掘和學(xué)習(xí)數(shù)據(jù)中的規(guī)律,提高可疑模型的精確度,使其能夠更加精準(zhǔn)地定位洗錢活動相關(guān)客戶及交易,降低人工審核工作負(fù)擔(dān)。對反洗錢可疑模型的優(yōu)化不僅能夠?qū)鹘y(tǒng)可疑模型篩選出的疑似洗錢交易數(shù)據(jù)量進(jìn)行大幅縮減,而且能夠盡可能全面地發(fā)現(xiàn)參與洗錢活動的客戶及相關(guān)交易情況。
基于“GREAT框架”視角的反洗錢智能識別技術(shù)
基于當(dāng)前反洗錢業(yè)務(wù)的發(fā)展現(xiàn)狀和數(shù)據(jù)特點(diǎn),數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)建模主要存在三方面技術(shù)難點(diǎn):一是正負(fù)樣本極度不平衡;二是由于業(yè)務(wù)冷啟動造成的數(shù)據(jù)積累不足、樣本規(guī)模小;三是模型的精準(zhǔn)度不足。針對上述難點(diǎn),結(jié)合商業(yè)銀行業(yè)務(wù)實(shí)踐,本文創(chuàng)新提出以智能化算法建模解決反洗錢監(jiān)測識別問題的“GREAT框架”,即運(yùn)用圖技術(shù)(Graph based techniques)、強(qiáng)化學(xué)習(xí)技術(shù)(Reinforcement learning techniques)、集成學(xué)習(xí)技術(shù)(Ensemble learning techniques)、仿真模擬技術(shù)(Analog simulation techniques)和遷移學(xué)習(xí)技術(shù)(Transfer learning techniques),以期為反洗錢監(jiān)測識別的智能化應(yīng)用提供技術(shù)支撐。
通過圖技術(shù)(Graph based techniques)實(shí)現(xiàn)反洗錢客戶關(guān)聯(lián)關(guān)系挖掘。在反洗錢客戶身份識別工作中,大量的客戶身份信息不完整,導(dǎo)致系統(tǒng)智能識別的效果有限,大量工作需要人工介入?yún)⑴c。針對該難點(diǎn),可運(yùn)用“圖技術(shù)—知識圖譜”技術(shù),對企業(yè)和個(gè)人的交易、法人、股權(quán)等錯(cuò)綜復(fù)雜的關(guān)系進(jìn)行挖掘,通過客戶關(guān)聯(lián)關(guān)系洞察和異常關(guān)聯(lián)結(jié)構(gòu)挖掘,快速發(fā)現(xiàn)符合反洗錢特征的異常圖結(jié)構(gòu)模式,識別可疑賬戶群組,識別反洗錢團(tuán)伙,實(shí)現(xiàn)數(shù)據(jù)甄別分析智能化。
通過強(qiáng)化學(xué)習(xí)技術(shù)(Reinforcement learning techniques)實(shí)現(xiàn)小樣本下模型權(quán)重優(yōu)化。由于模型的訓(xùn)練過程受到樣本數(shù)量限制和分布的影響,傳統(tǒng)的反洗錢模型往往存在泛化能力不足的問題。強(qiáng)化學(xué)習(xí)技術(shù)為進(jìn)一步提升模型泛化能力、提高預(yù)測結(jié)果準(zhǔn)確性提供了有效的解決思路。以初期積累的小樣本數(shù)據(jù)作為初始狀態(tài)構(gòu)造初始化的模型,通過深度強(qiáng)化學(xué)習(xí)算法對初始模型進(jìn)行調(diào)整,并利用調(diào)整后的模型和環(huán)境進(jìn)行交互,得到交互后的新狀態(tài)和相應(yīng)的獎勵。如此反復(fù)循環(huán),在過程中不斷優(yōu)化,最終生成不同狀態(tài)下的優(yōu)化模型,從而盡可能優(yōu)化對洗錢客戶的識別準(zhǔn)確率,進(jìn)一步提升模型的泛化能力。
通過集成學(xué)習(xí)技術(shù)(Ensemble learning techniques)解決可疑交易的漏報(bào)問題。在反洗錢工作的長期開展過程中,由于犯罪分子已經(jīng)較為熟悉相關(guān)法律和管理辦法,傳統(tǒng)依托規(guī)則設(shè)計(jì)的可疑模型往往難以識別犯罪分子參與的洗錢交易,從而導(dǎo)致可疑交易的漏報(bào)。事實(shí)上,每天都會有海量交易數(shù)據(jù)進(jìn)入反洗錢監(jiān)測系統(tǒng),其中絕大多數(shù)正常交易數(shù)據(jù)可以通過可疑模型直接過濾掉,大量被可疑模型命中的交易數(shù)據(jù)會轉(zhuǎn)交至人工審查。但也存在部分可疑交易未被模型識別的情況,若人工對該部分?jǐn)?shù)據(jù)也無法覆蓋,則可能造成漏報(bào)情況。因此,反洗錢可疑模型的精準(zhǔn)度至關(guān)重要。
集成學(xué)習(xí)通過訓(xùn)練多個(gè)弱分類器,將每個(gè)弱分類器的結(jié)果進(jìn)行投票,往往能產(chǎn)生優(yōu)于單一機(jī)器學(xué)習(xí)模型的查準(zhǔn)率和查全率。因此,集成學(xué)習(xí)較傳統(tǒng)機(jī)器學(xué)習(xí)模型有更高的壞樣本覆蓋能力,可有效減少漏報(bào)問題。有金融機(jī)構(gòu)采用多數(shù)投票規(guī)則,將多種機(jī)器學(xué)習(xí)算法構(gòu)建的模型進(jìn)行集成融合,對反洗錢可疑模型的精準(zhǔn)度進(jìn)行提升。
通過仿真模擬技術(shù)(Analog simulation techniques)解決樣本不平衡問題。反洗錢數(shù)據(jù)的普遍特點(diǎn)是樣本數(shù)據(jù)量極大,但是正負(fù)樣本極度不平衡,上報(bào)樣本數(shù)量遠(yuǎn)小于非上報(bào)樣本數(shù)量。極度不平衡樣本又可歸納為兩類,一類是上報(bào)樣本數(shù)量雖然遠(yuǎn)小于非上報(bào)樣本數(shù)量,但是上報(bào)樣本數(shù)量本身具有一定規(guī)模,則可以運(yùn)用對非上報(bào)樣本隨機(jī)欠抽樣的方法來解決;另一類是上報(bào)樣本數(shù)量極少,且在比例極其懸殊的情況下,則可以運(yùn)用仿真模擬的方式衍生上報(bào)樣本數(shù)據(jù)。本文將詳細(xì)探討樣本衍生在反洗錢場景中的應(yīng)用案例。
通過遷移學(xué)習(xí)技術(shù)(Transfer learning techniques)解決樣本規(guī)模小的問題。現(xiàn)實(shí)中,數(shù)據(jù)往往是孤立的,同行業(yè)數(shù)據(jù)無法共享,即便是同公司,不同部門之間的數(shù)據(jù)也常常是獨(dú)立存儲和維護(hù)的。對于一些交易流水較少的金融機(jī)構(gòu)來說,往往會遇到樣本規(guī)模小、數(shù)據(jù)不足的情況;在跨機(jī)構(gòu)、跨地域、跨境合作的場景下,存在不同區(qū)域特征差異大和數(shù)據(jù)分布偏移等特點(diǎn),導(dǎo)致直接合并數(shù)據(jù)來建模不能滿足傳統(tǒng)機(jī)器學(xué)習(xí)對于建模數(shù)據(jù)獨(dú)立同分布的首要條件。因此需要優(yōu)先解決數(shù)據(jù)與模型泛化能力的矛盾。遷移學(xué)習(xí)是解決小樣本機(jī)器學(xué)習(xí)模型泛化能力問題的一種有效手段,它可以基于現(xiàn)有數(shù)據(jù),運(yùn)用更加復(fù)雜的遷移學(xué)習(xí)方法,學(xué)習(xí)形成一個(gè)泛化能力強(qiáng)的模型。有金融機(jī)構(gòu)運(yùn)用遷移學(xué)習(xí)技術(shù),在不同分行間實(shí)踐并驗(yàn)證了嫁接遷移、樣本遷移及特征遷移技術(shù)的可行性和有效性。
基于仿真模擬技術(shù)的商業(yè)銀行反洗錢可疑模型實(shí)踐案例
本文選取某股份制商業(yè)銀行反洗錢某場景下的數(shù)據(jù)作為研究樣本,運(yùn)用前文“GREAT框架”中的仿真模擬技術(shù)(Analog simulation techniques)進(jìn)行樣本衍生,以解決該銀行此場景下的正樣本(上報(bào)樣本,占整體樣本的少數(shù))不足的問題。樣本衍生即對正樣本進(jìn)行過采樣。常用的過采樣方法,如簡單過采樣方法,一般直接復(fù)制少數(shù)類樣本。由于該方法的本質(zhì)是對相同數(shù)據(jù)的重復(fù)學(xué)習(xí),其優(yōu)點(diǎn)是容易實(shí)現(xiàn),而缺點(diǎn)是容易導(dǎo)致過擬合問題。無論是從賬戶角度還是用戶角度出發(fā),反洗錢樣本數(shù)據(jù)維度多,每個(gè)賬戶對應(yīng)擁有上百種特征變量,且其中包括連續(xù)型和離散型特征。本文針對不同數(shù)據(jù)類型的特征提出不同的仿真構(gòu)造方法,具體內(nèi)容如下。
連續(xù)型特征樣本衍生
對于連續(xù)型特征,如交易額、交易頻率等,采用SMOTE (Synthetic Minority Oversampling Technique,合成少數(shù)類過采樣技術(shù))方法構(gòu)建新樣本。SMOTE算法的核心邏輯是:對于上報(bào)客戶群體數(shù)據(jù)集α中的每一個(gè)樣本a,根據(jù)樣本的連續(xù)性特征,以歐式距離為標(biāo)準(zhǔn)計(jì)算它到上報(bào)客戶樣本集中其他所有樣本的距離,升序排列后選擇前K個(gè)樣本作為其K近鄰。從K個(gè)近鄰中隨機(jī)選擇一個(gè)近鄰b,按照公式c=a+rand(0,1)*|a-b|進(jìn)行線性插值,構(gòu)造新的樣本點(diǎn)c,重復(fù)選擇N次完成N個(gè)新樣本點(diǎn)的構(gòu)造,N為衍生樣本構(gòu)建的倍數(shù)(見圖1)。
在運(yùn)用SMOTE進(jìn)行過采樣之前,需要對樣本進(jìn)行清洗,去除其中的異常值,避免插值衍生過程產(chǎn)生大量噪聲樣本,影響模型效果。
離散型特征樣本衍生
對于離散型特征,如賬戶類型、是否新老用戶等,可以轉(zhuǎn)化為多分類問題,將衍生的連續(xù)型樣本數(shù)據(jù)作為入模變量,擬構(gòu)造的離散型特征作為目標(biāo)變量進(jìn)行衍生。因此,有監(jiān)督機(jī)器學(xué)習(xí)相關(guān)分類算法,如KNN(K-Nearst Neighbors,K近鄰算法)、隨機(jī)森林、SVM(Support Vector Machines,支持向量機(jī))等均可適用。本文采用KNN算法,其核心邏輯是對于衍生的連續(xù)型數(shù)據(jù)集β的每一個(gè)樣本A,以歐式距離為標(biāo)準(zhǔn)計(jì)算它到上報(bào)客戶樣本集α所有樣本的距離,升序排列后選擇前K個(gè)樣本作為其K近鄰。對于上報(bào)客戶樣本的每個(gè)離散型特征B,選擇K近鄰中占比最大的特征取值作為A樣本離散型特征的取值,以此類推, 完成A樣本所有離散型特征的取值,則衍生樣本構(gòu)建完成。KNN 算法的優(yōu)點(diǎn)在于易理解,適合于多分類問題,對于作為目標(biāo)變量的多類型離散型特征具有較好的適用性(見圖2)。
模型調(diào)優(yōu)
在樣本構(gòu)建過程中,SMOTE和KNN都涉及對樣本K近鄰的確定,即確定距離樣本最近的K個(gè)樣本。在關(guān)鍵參數(shù)K值的選擇上,如果K值設(shè)定過小,容易受到訓(xùn)練數(shù)據(jù)噪聲的影響,導(dǎo)致過擬合;如果K值設(shè)定過大,則會受到距離較遠(yuǎn)的錯(cuò)誤樣例的影響,導(dǎo)致學(xué)習(xí)效果不佳。因此,考慮根據(jù)原始樣本數(shù)據(jù)構(gòu)造學(xué)習(xí)曲線,分析KNN關(guān)鍵參數(shù)K值與KNN算法擬合效果的關(guān)系,選擇學(xué)習(xí)曲線中擬合效果最優(yōu)的節(jié)點(diǎn),以此節(jié)點(diǎn)的K值作為參數(shù)應(yīng)用KNN,如圖3所示。基于上述邏輯,本例中KNN預(yù)測效果最佳的K值為5。
需要注意的是,在樣本構(gòu)造過程中,SMOTE和KNN都是基于距離的算法,需要對樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化或歸一化處理,將有量綱的數(shù)據(jù)轉(zhuǎn)換為無量綱的數(shù)據(jù),避免樣本數(shù)據(jù)量綱不統(tǒng)一造成的偏差。
模型結(jié)果
本研究采用邏輯回歸模型,目標(biāo)變量為“是否上報(bào)”的二分類標(biāo)簽。相對于難以解釋的深度學(xué)習(xí)模型,邏輯回歸模型可以充分滿足監(jiān)管機(jī)構(gòu)對洗錢活動認(rèn)定的解釋性要求,通過對特征進(jìn)行分箱處理,根據(jù)特征系數(shù)可以看出不同特征對最后預(yù)測結(jié)果的影響,能夠直觀展現(xiàn)客戶為何被判別為進(jìn)行可疑交易,符合反洗錢系統(tǒng)需要對所有篩選出的可疑交易明確涉罪類型的要求,為人工復(fù)核提供排查方向和內(nèi)容。
經(jīng)過前期的數(shù)據(jù)清洗、篩選等處理后,樣本與特征均已達(dá)到了入模的標(biāo)準(zhǔn),即可構(gòu)建模型,邏輯回歸模型結(jié)果為:AUC為0.82,KS為0.57,模型擬合效果良好,能夠較好地區(qū)分正負(fù)樣本,最后將對目標(biāo)變量的預(yù)測結(jié)果映射為分?jǐn)?shù),能夠更加直觀地表現(xiàn)各賬戶上報(bào)概率的預(yù)測結(jié)果以及預(yù)測值與其影響因子的關(guān)聯(lián)關(guān)系,便于設(shè)定閾值劃分樣本。在邏輯回歸閾值的選擇上,與傳統(tǒng)的邏輯回歸以0.5為閾值不同,需要人工設(shè)定預(yù)警分?jǐn)?shù),超過預(yù)警分?jǐn)?shù)的樣本即認(rèn)定為上報(bào)樣本。在業(yè)務(wù)實(shí)踐中,業(yè)務(wù)分析人員可以動態(tài)調(diào)整預(yù)警分?jǐn)?shù),在篩查效率與涉罪樣本覆蓋率之間權(quán)衡,雖然降低預(yù)警分?jǐn)?shù)閾值可以提高涉罪樣本覆蓋率,但會降低篩查效率。在本例中,采用邏輯回歸模型相較于傳統(tǒng)規(guī)則模型, 可以在實(shí)現(xiàn)覆蓋規(guī)則模型篩查出的78%上報(bào)樣本的同時(shí),成倍降低業(yè)務(wù)人員人工復(fù)核工作量,大幅提升相關(guān)業(yè)務(wù)的工作效率。
結(jié)語
在商業(yè)銀行反洗錢管理的業(yè)務(wù)實(shí)踐中,實(shí)現(xiàn)反洗錢智能識別模型準(zhǔn)確率最大化、降低人工篩查成本和誤報(bào)率,已成為各商業(yè)銀行的迫切需求。為解決該類問題,本文創(chuàng)新性地提出了一套基于圖技術(shù)、強(qiáng)化學(xué)習(xí)、集成學(xué)習(xí)、仿真模擬和遷移學(xué)習(xí)等新興技術(shù)的“GREAT框架”,并針對該框架中仿真模擬技術(shù)在商業(yè)銀行反洗錢業(yè)務(wù)的應(yīng)用進(jìn)行實(shí)證分析。實(shí)證結(jié)果顯示,該方法可以在保證查全率的基礎(chǔ)上,提高篩選排查的查準(zhǔn)率,能夠幫助銀行相關(guān)業(yè)務(wù)部門開展高效、準(zhǔn)確的反洗錢工作。
龍盈智達(dá)(北京)科技有限公司何姍、甘睿、張?jiān)隆⑹方?、徐奇、楊璇對本文亦有貢獻(xiàn)。
(作者單位:華夏銀行法律合規(guī)部反洗錢管理室,龍盈智達(dá)〔北京〕科技有限公司,中科金審〔北京〕科技有限公司)