杜一謙
摘 ?要:消費信貸風(fēng)險管理是一個廣交的領(lǐng)域,其中銀行的內(nèi)部控制更是變化多端。為了提升風(fēng)控核心競爭力,基于先進的數(shù)據(jù)倉庫Hadoop技術(shù)建立銀行信用貸款的智能決策系統(tǒng),并運用多種數(shù)據(jù)挖掘及分析工具,充分利用銀行現(xiàn)有數(shù)據(jù),通過決策引擎及模型接口實現(xiàn)智能決策引擎風(fēng)險識別和防控,判定銀行是否應(yīng)該發(fā)放貸款。該系統(tǒng)的建立對銀行信用管理和風(fēng)險預(yù)測具有指導(dǎo)意義,為銀行消費信貸業(yè)務(wù)的拓展提供參考和依據(jù)。
關(guān)鍵詞:消費信貸;智能決策;大數(shù)據(jù)技術(shù)
中圖分類號: TP311 ? ? ? ? ? 文獻標(biāo)志碼:A
0 引言
近年來,隨著我國經(jīng)濟轉(zhuǎn)型升級逐步推進,消費金融行業(yè)進入了快速發(fā)展時期。面對愈加嚴(yán)峻的互聯(lián)網(wǎng)風(fēng)險環(huán)境,大數(shù)據(jù)、人工智能等技術(shù)逐漸進入消費信貸決策領(lǐng)域,科技與金融的結(jié)合日益嚴(yán)密。生物識別、OCR技術(shù)、用戶畫像、反欺詐模型、信用模型等技術(shù)成為必不可少的核心信貸決策環(huán)節(jié)。
隨著外部市場環(huán)境的不斷變化,僅僅依靠傳統(tǒng)的信貸決策方式已不能滿足銀行消費信貸業(yè)務(wù)發(fā)展的需要,正確及時地決策成了銀行業(yè)各機構(gòu)生存與發(fā)展的重要保障,智能決策模型系統(tǒng)的搭建(以下簡稱“系統(tǒng)”)至關(guān)重要。
1 系統(tǒng)設(shè)計思想
智能決策引擎模型系統(tǒng)的設(shè)計需要結(jié)合業(yè)務(wù)實際,做到功能完備的同時,又具有可發(fā)展性,能夠應(yīng)對未來的市場變化。系統(tǒng)的設(shè)計主要考慮以下3個方面。
1.1 多維識別,防范欺詐
消費信貸業(yè)務(wù)前端一直面臨著大量欺詐客戶的攻擊,隨著身份偽冒、團伙欺詐等風(fēng)險愈演愈烈,科技反欺詐成為系統(tǒng)中必不可少的一環(huán)[1]。首先通過內(nèi)嵌人臉活體識別、指紋識別、聲紋識別等前端生物識別技術(shù)進行客戶身份認(rèn)證。其次通過銀行卡四要素鑒權(quán)技術(shù),進一步進行客戶身份核實。最后通過OCR等文字識別技術(shù),進行申請資料的識別,將紙質(zhì)或圖像材料轉(zhuǎn)為電子化信息,使其能夠供決策模型系統(tǒng)后續(xù)使用。
1.2 海量數(shù)據(jù),流暢運行
隨著業(yè)務(wù)的不斷發(fā)展,沉淀的數(shù)據(jù)量及數(shù)據(jù)維度呈指數(shù)級增長,傳統(tǒng)的Oracle數(shù)據(jù)庫架構(gòu)在運行高維、大批量數(shù)據(jù)時顯得力不從心,模型迭代進度受數(shù)據(jù)處理速度制約。
在該背景下,系統(tǒng)設(shè)計搭建基于Hadoop框架的大數(shù)據(jù)平臺,采用非結(jié)構(gòu)化的數(shù)據(jù)存儲方式和分布式計算功能,使模型開發(fā)在大數(shù)據(jù)運算過程中更加靈活和高效。
1.3 實時決策,智能預(yù)警
智能決策引擎模型系統(tǒng)主要運用于自動化審批,對于系統(tǒng)的實時處理能力有著極高的要求。同時,高并發(fā)的審批過程也會伴隨一定概率的錯誤進程,需要建立智能化的預(yù)警機制。
系統(tǒng)設(shè)計采用“決策引擎+Python模型接口”的方式,擴展自動化審批功能的同時,大幅縮短單筆審批時間。同時,系統(tǒng)需要通過設(shè)置相關(guān)策略,實現(xiàn)對單位時間內(nèi)申請量、審批結(jié)果等統(tǒng)計信息的實時預(yù)警,幫助業(yè)務(wù)人員及時發(fā)現(xiàn)并快速解決問題。
2 系統(tǒng)結(jié)構(gòu)
智能決策模型系統(tǒng)以大數(shù)據(jù)平臺(Hadoop)和數(shù)據(jù)倉庫(MPP)混合架構(gòu)的大數(shù)據(jù)基礎(chǔ)體系,為后續(xù)數(shù)據(jù)應(yīng)用奠定了堅實基礎(chǔ)(如圖1所示)。
大數(shù)據(jù)平臺負責(zé)歷史數(shù)據(jù)、外部數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)挖掘、客戶畫像、風(fēng)控、智能決策等場景的支撐,數(shù)據(jù)倉庫負責(zé)傳統(tǒng)報表、指標(biāo)等統(tǒng)計分析場景,兩者相輔相成,共同支撐著整個數(shù)據(jù)條線的應(yīng)用。
2.1 數(shù)據(jù)采集
利用大數(shù)據(jù)平臺自帶的數(shù)據(jù)采集組件Flume、Kafka、Sqoop,兼容各種數(shù)據(jù)源,包括流式數(shù)據(jù)(業(yè)務(wù)消息流/日志消息流等)、磁盤文件、各種數(shù)據(jù)庫、其他存儲系統(tǒng)等。采集后的數(shù)據(jù)落地到大數(shù)據(jù)平臺分布式存儲中,其中流式數(shù)據(jù)也可不落地直接進入實時處理應(yīng)用中。
2.2 分布式存儲
利用大數(shù)據(jù)平臺HBase組件和HDFS組件的特性,對海量非結(jié)構(gòu)化數(shù)據(jù)進行存儲,支持無限拓展,線性擴展能力強,數(shù)據(jù)存儲靈活。
2.3 資源調(diào)度
多租戶是大數(shù)據(jù)平臺大數(shù)據(jù)集群中的多個資源集合,具有分配和調(diào)度資源的能力。資源包括計算資源和存儲資源。多租戶將大數(shù)據(jù)集群的資源隔離成一個個資源集合,彼此互不干擾,用戶通過“租用”需要的資源集合,來運行應(yīng)用和作業(yè),并存放數(shù)據(jù)。在大數(shù)據(jù)集群上可以存在多個資源集合來支持多個用戶的不同需求。
2.4 實時處理
大數(shù)據(jù)平臺內(nèi)存數(shù)據(jù)庫Redis、分布式消息隊列Kafka和實時處理引擎Flink,對數(shù)據(jù)進行分布式計算,實現(xiàn)實時數(shù)據(jù)傳輸、實時數(shù)據(jù)緩存和實時數(shù)據(jù)流處理的高速處理。為智能預(yù)警和智能決策系統(tǒng)提供實時準(zhǔn)確的數(shù)據(jù)服務(wù)。
2.5 離線處理
Spark和ELK為海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的離線分析處理提供技術(shù)支撐。
2.6 決策模型
基于Spark架構(gòu)預(yù)置機器學(xué)習(xí)算法庫和數(shù)據(jù)分析挖掘算法,提供可視化分析挖掘平臺,構(gòu)建實時反欺詐平臺和模型訓(xùn)練平臺。以用戶數(shù)據(jù)、畫像及行為的關(guān)系網(wǎng)絡(luò)為基準(zhǔn),通過反欺詐模型、信用模型等進行風(fēng)險分析決策,完成貸前準(zhǔn)入、貸中監(jiān)控、貸后管理的信貸全生命周期管控流程。
3 業(yè)務(wù)支撐及實現(xiàn)
業(yè)務(wù)流程如下:客戶在信息認(rèn)證界面,需要進行基礎(chǔ)認(rèn)證及提額認(rèn)證,其中基礎(chǔ)認(rèn)證包括填寫聯(lián)系人、身份證認(rèn)證(上傳身份證照片正反、進行活體認(rèn)證和人臉識別、OCR解析并由系統(tǒng)判斷身份證有效期)、銀行卡綁定(進行四要素驗證)。提額認(rèn)證主要包括人行及各類其他征信源查詢授權(quán)如圖2所示。
客戶提交貸款后,系統(tǒng)首先進入準(zhǔn)入策略,篩查掉不符合公司合規(guī)要求及產(chǎn)品對應(yīng)策略要求的客戶,然后,通過反欺詐策略攔截內(nèi)外部黑名單、嚴(yán)重多頭及命中強關(guān)系欺詐規(guī)則的客戶,再進入信用策略,通過人行征信和自建的子數(shù)據(jù)源等模型劃分客戶資質(zhì)和分類,評估客戶風(fēng)險等級,并匹配對應(yīng)額度和定價。對于評分灰色區(qū)域(評分在拒絕閾值左右)客戶和反欺詐策略給出的欺詐團伙、黑中介等屬性客戶,進入人工審核環(huán)節(jié),跟進并確認(rèn)客戶的欺詐風(fēng)險和信用風(fēng)險。審核通過后,短信通知客戶審核結(jié)果,提醒客戶后續(xù)做好還款準(zhǔn)備等工作,并放款至綁定的銀行卡。
4 風(fēng)控模塊及其安全性
決策模型主要運用于自動化審批,對于系統(tǒng)的實時處理能力有著極高的要求[2]。同時,高并發(fā)的審批過程也會伴隨一定概率的錯誤進程,需要建立智能化的預(yù)警機制。
4.1 反欺詐模塊
反欺詐模塊由身份驗證、黑名單、團伙識別、反欺詐模型等多個子模塊組成,從不同角度打擊不同形態(tài)的個人與團體欺詐,可以有效防范各種欺詐形態(tài),減少風(fēng)險損失,保護客戶的利益。
4.1.1 嚴(yán)格的身份驗證
系統(tǒng)采用活體檢測、人臉識別、OCR技術(shù)和銀行卡鑒權(quán)等多種技術(shù)相結(jié)合,對申請者的身份進行嚴(yán)格的驗證,增加身份偽冒的成本。這些環(huán)節(jié)均在信貸產(chǎn)品申請環(huán)節(jié)中嵌入并實時進行核驗,保證了風(fēng)險控制的準(zhǔn)確性和申請時效性的平衡。此外對同一設(shè)備登錄不同賬號等高風(fēng)險異常行為進行嚴(yán)格控制,有效防止賬號被盜、黑中介代客下單等欺詐行為。這些技術(shù)在征信查詢之前就可以對欺詐客戶進行有效攔截,降低欺詐風(fēng)險的同時,也可以保護客戶利益不被違法分子侵害。
4.1.2 黑名單
利用歷史積累的申請數(shù)據(jù)與表現(xiàn)數(shù)據(jù),形成內(nèi)部的黑名單并持續(xù)更新。黑名單可以對風(fēng)險較高的歷史客戶進行快速識別,可以有效節(jié)省征信成本與系統(tǒng)資源。
4.1.3 欺詐團伙識別
傳統(tǒng)的信貸審核只以單筆申請的角度對客戶進行審視,無法獲得不同申請之間的關(guān)聯(lián)關(guān)系。而消費信貸申請的欺詐行為中,團伙欺詐占較大一部分,相較于個人欺詐也會帶來更大的風(fēng)險損失。團伙欺詐具有組織性強、攻擊隱蔽、手段復(fù)雜等特點,傳統(tǒng)的風(fēng)險控制手段無法應(yīng)對一直更新的復(fù)雜攻擊手段,效率和準(zhǔn)確率都有一定限制。針對該問題,建立了關(guān)系網(wǎng)絡(luò)模型,通過積累沉淀信貸生命周期中的客戶數(shù)據(jù),尋找不同申請之間的關(guān)聯(lián)性,并通過社群發(fā)現(xiàn)等圖算法,定位高風(fēng)險的欺詐團體。當(dāng)新的客戶來申請時,系統(tǒng)可以通過算法快速定位其與高風(fēng)險欺詐團體是否有關(guān)聯(lián)。關(guān)系網(wǎng)絡(luò)模型隨著數(shù)據(jù)的積累定期進行更新迭代,能應(yīng)對一直更新的欺詐手段。
4.1.4 反欺詐模型
信用風(fēng)險模型注重對所有客戶進行分級,一般采用經(jīng)典的邏輯回歸算法,體現(xiàn)出主要特征與風(fēng)險之間的線性關(guān)系。而欺詐客戶一般可以通過一些手段進行包裝,導(dǎo)致信用風(fēng)險模型無法抓取極少部分人的異常行為。因此針對欺詐客戶,開發(fā)了專用的反欺詐模型,對異常行為進行大量的特征衍生,采用隨機森林、梯度提升決策樹、神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)的領(lǐng)先算法,抓取大量特征與欺詐風(fēng)險之間的非線性關(guān)系,對異??蛻暨M行甄別。
4.2 信用模塊
系統(tǒng)的信用模塊主要結(jié)合內(nèi)外部數(shù)據(jù),由信用規(guī)則和信用模型組成,對客戶進行風(fēng)險評級。
4.2.1 信用規(guī)則
根據(jù)人行報告和外部數(shù)據(jù)顯示的申請人不同階段的申請、發(fā)放、還款等行為數(shù)據(jù),衍生出不同時間序列維度下的數(shù)據(jù)標(biāo)簽,從收入負債、資金緊迫性等方面評估申請人的還款意愿和還款能力,形成強風(fēng)險規(guī)則組合。
4.2.2 信用模型
信用模型運用數(shù)據(jù)挖掘方法,通過對客戶的基本信息特征、行為記錄、交易記錄等大量原始數(shù)據(jù)進行分析,挖掘數(shù)據(jù)中客戶存在的行為模式、信用特征,預(yù)測客戶未來的信用表現(xiàn)。信用模型的主要功能是以科學(xué)的方法將風(fēng)險模式數(shù)據(jù)化。提供客觀風(fēng)險量尺,減少主觀判斷。提高風(fēng)險管理效率、節(jié)省人力成本。其主要包括2個方面的內(nèi)容。1)算法研究。目前系統(tǒng)主要運用邏輯回歸、決策樹、聚類等常規(guī)算法,實現(xiàn)對客戶的分層和評級,這些算法可解釋性高、穩(wěn)定性好。同時,XGB、CNN等前沿算法模型也在系統(tǒng)中同步運行,但由于該類算法近乎黑箱,無法有效解釋其中變量與風(fēng)險的關(guān)系,一旦模型出現(xiàn)異動,無法準(zhǔn)確定位原因并進行有針對性地處置,同時模型穩(wěn)定性較低,區(qū)分度隨時間下降較快,因此僅作為主模型的補充和交叉驗證。此外,在新模型迭代的過程中發(fā)現(xiàn),如果建模樣本中不包含拒件客戶,會導(dǎo)致在訓(xùn)練過程中表現(xiàn)較好的新模型,迭代后業(yè)務(wù)風(fēng)險反而有所上升。所以在模型開發(fā)過程中應(yīng)使用拒絕推斷算法,納入歷史拒件樣本,更準(zhǔn)確地評估整體樣本風(fēng)險,避免因模型迭代導(dǎo)致的風(fēng)險波動。2)模型應(yīng)用。為了持續(xù)篩選風(fēng)險防控效果最優(yōu)的模型,同時保證不同特征的客群能有一定風(fēng)險表現(xiàn)供后期模型優(yōu)化,系統(tǒng)中設(shè)置了一定比例的冠軍挑戰(zhàn)審批流,比較各個模型的風(fēng)控效果及各類特征客戶的實際表現(xiàn),用于逐步優(yōu)化迭代模型。在線上業(yè)務(wù)發(fā)展過程中發(fā)現(xiàn),不同客群的風(fēng)險表現(xiàn)有一定差異,根據(jù)整體客戶風(fēng)險表現(xiàn)對模型閾值采用一刀切的方式,會導(dǎo)致不少好客戶被拒之門外,過件率較難提升。結(jié)合客戶畫像的研究結(jié)果,在模型評分閾值的制定上納入了“分客群”的思想,根據(jù)客群資質(zhì)靈活調(diào)整模型閾值,提升過件率的同時降低風(fēng)險。
5 結(jié)語
項目上線以來,累計實現(xiàn)自動審批逾900萬筆,服務(wù)客戶逾500萬人,審批時效在1 min以內(nèi),模型表現(xiàn)也穩(wěn)步提升。該項目極大地節(jié)省了人工成本,降低風(fēng)險損失,優(yōu)化客戶體驗,借助科技創(chuàng)新推進普惠金融。
參考文獻
[1]吳雷,楊儀,吳傳威,等.基于多層架構(gòu)的信用卡反欺詐系統(tǒng)研究[J].金融科技時代,2018(1):41-45.
[2]單良,喬楊.數(shù)據(jù)化風(fēng)控:信用評分建模教程[M].北京:電子工業(yè)出版社,2018.