李 飛 馮強(qiáng)中 張雨晴 范文斌
(科大國(guó)創(chuàng)云網(wǎng)科技有限公司,安徽 合肥 230000)
近年來(lái),金融行業(yè)普惠政策的推廣迎來(lái)了很多新用戶(hù),同時(shí),行業(yè)的特殊性對(duì)風(fēng)險(xiǎn)控制提出了很高的要求,新用戶(hù)的風(fēng)控評(píng)估成了金融行業(yè)推廣普惠政策的關(guān)鍵,普惠政策作為新政策,樣本量不足的問(wèn)題會(huì)給用戶(hù)風(fēng)控水平預(yù)測(cè)造成困難。隨著人工智能領(lǐng)域的飛速發(fā)展,AI已經(jīng)廣泛應(yīng)用于醫(yī)療、金融以及通信等領(lǐng)域。但是考慮到金融領(lǐng)域新政策出臺(tái)時(shí)缺乏用戶(hù)數(shù)據(jù),僅使用人工智能中的機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測(cè)必將導(dǎo)致結(jié)果不準(zhǔn)確的問(wèn)題。為了豐富數(shù)據(jù)的來(lái)源,許多學(xué)者將遷移學(xué)習(xí)作為一個(gè)關(guān)鍵技術(shù)進(jìn)行研究。遷移學(xué)習(xí)的思想是當(dāng)目標(biāo)領(lǐng)域可用數(shù)據(jù)量較少時(shí),從不同但是相關(guān)的領(lǐng)域中尋找類(lèi)似數(shù)據(jù)進(jìn)行訓(xùn)練,將大樣本遷移到小樣本中,以解決小樣本中樣本量稀疏的問(wèn)題。根據(jù)遷移的過(guò)程不同,現(xiàn)在主流的遷移學(xué)習(xí)方法大致分為4種:基于實(shí)例的遷移、基于特征的遷移、基于參數(shù)的遷移以及基于關(guān)系的遷移。
該文利用遷移學(xué)習(xí)的思想,將與原任務(wù)樣本類(lèi)似的數(shù)據(jù)遷移至訓(xùn)練集中,以樣本量,結(jié)合訓(xùn)練速度快、準(zhǔn)確率高的LightGBM模型進(jìn)行5折交叉驗(yàn)證,從而有效地提高預(yù)測(cè)的準(zhǔn)確率。
在遷移學(xué)習(xí)的數(shù)學(xué)定義中,源域是已知的、成熟的領(lǐng)域,目標(biāo)域是數(shù)據(jù)量小的、新的且需要借助其他領(lǐng)域?qū)W習(xí)的領(lǐng)域,給出源域的數(shù)據(jù)和任務(wù),目標(biāo)域的數(shù)據(jù)和任務(wù),使用源領(lǐng)域和任務(wù)中的知識(shí)去改進(jìn)對(duì)于目標(biāo)領(lǐng)域的預(yù)測(cè)函數(shù)。其中,源域數(shù)據(jù)不等于目標(biāo)域數(shù)據(jù)或者源域任務(wù)不等于目標(biāo)域任務(wù)。這一技術(shù)可以借助其他領(lǐng)域的知識(shí)補(bǔ)充樣本少的任務(wù),提升任務(wù)準(zhǔn)確率。
采用TrAdaBoost算法解決實(shí)例遷移學(xué)習(xí)問(wèn)題,假設(shè)源域和目標(biāo)域使用相同特征,但是在不同的域中,該特征的值的分布情況不同,部分源域數(shù)據(jù)對(duì)目標(biāo)域的學(xué)習(xí)有幫助,另一部分源域數(shù)據(jù)對(duì)目標(biāo)域的學(xué)習(xí)沒(méi)有幫助甚至是負(fù)遷移,因此通過(guò)調(diào)整指定源域中數(shù)據(jù)權(quán)重的方式來(lái)降低負(fù)效果數(shù)據(jù)對(duì)訓(xùn)練的影響,增強(qiáng)正效果數(shù)據(jù)對(duì)訓(xùn)練的影響。宋鵬等人提出基于特征遷移學(xué)習(xí)方法的跨庫(kù)語(yǔ)音情感識(shí)別方法,為了解決語(yǔ)音情感識(shí)別中訓(xùn)練語(yǔ)音和預(yù)測(cè)語(yǔ)音語(yǔ)料差異導(dǎo)致預(yù)測(cè)效果差的問(wèn)題,通過(guò)特征變換降維選擇源域和目標(biāo)域相似性高的空間維度對(duì)數(shù)據(jù)進(jìn)行分類(lèi),從而實(shí)現(xiàn)基于特征的遷移,優(yōu)化后的情感識(shí)別率比基線(xiàn)方法和傳統(tǒng)識(shí)別方法的識(shí)別率更高。
谷歌公司AI團(tuán)隊(duì)發(fā)布的Bert模型用于自然語(yǔ)言處理(NLP),Bert模型已經(jīng)在大數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,程序員將Bert預(yù)訓(xùn)練模型作為語(yǔ)言表征模型對(duì)參數(shù)進(jìn)行遷移學(xué)習(xí),通過(guò)微調(diào)參數(shù)后應(yīng)用于NLP模型中,不僅節(jié)省了大量人力和時(shí)間,而且還可以提高預(yù)測(cè)的準(zhǔn)確率。
遷移學(xué)習(xí)思想被廣泛應(yīng)用于語(yǔ)音、文本以及圖像等非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域,但是在結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用較少,該文將遷移學(xué)習(xí)思想應(yīng)用于風(fēng)險(xiǎn)用戶(hù)預(yù)測(cè)中,源域?yàn)榫W(wǎng)絡(luò)貸款用戶(hù)數(shù)據(jù),目標(biāo)域?yàn)殂y行貸款用戶(hù)數(shù)據(jù),把源域的數(shù)據(jù)遷移到目標(biāo)域,從而提高預(yù)測(cè)的準(zhǔn)確率。
風(fēng)險(xiǎn)用戶(hù)評(píng)估的整體架構(gòu)如圖1所示。首先,對(duì)銀行用戶(hù)貸款數(shù)據(jù)進(jìn)行分析、探索和清洗,將已有特征通過(guò)類(lèi)別映射、特征分解以及特征組合交叉等方法構(gòu)建為新特征。其次,基于遷移學(xué)習(xí)思想使用LightGBM模型,并采用5折交叉驗(yàn)證方法構(gòu)建風(fēng)險(xiǎn)用戶(hù)識(shí)別模型。最后,使用ROC曲線(xiàn)下的面積(Area under Curve,AUC)來(lái)評(píng)估模型。
圖1 風(fēng)險(xiǎn)用戶(hù)評(píng)估整體架構(gòu)
為了更直觀(guān)地了解數(shù)據(jù)集的分布、特征間關(guān)系以及特征類(lèi)型等信息,需要對(duì)數(shù)據(jù)集的分布、特征間關(guān)系以及特征類(lèi)型進(jìn)行分析,為后續(xù)數(shù)據(jù)預(yù)處理和特征工程做準(zhǔn)備。對(duì)銀行數(shù)據(jù)集統(tǒng)計(jì)存在缺失值的特征列、缺失量以及缺失率降序表(見(jiàn)表1)。該數(shù)據(jù)集一共有39列,7列存在缺失值,其中,f的缺失率最高,f、f、f以及f的缺失在同一條貸款記錄中(f、f、f、f以及f為脫敏后的特征,是一些貸款人行為計(jì)數(shù)特征)。
表1 缺失值分析
探索發(fā)現(xiàn)時(shí)間特征在借款人最初開(kāi)立信用額度的時(shí)間中存在異常時(shí)間,例如2069年10月01日、2065年09月01日為未來(lái)時(shí)間,借款人不可能在該時(shí)間開(kāi)立信用額度,把這部分?jǐn)?shù)據(jù)作為臟數(shù)據(jù),根據(jù)其他正常貸款開(kāi)立時(shí)間,將異常時(shí)間減100 a變?yōu)檎r(shí)間。探究銀行貸款違約記錄數(shù)據(jù)和互聯(lián)網(wǎng)貸款違約記錄數(shù)據(jù)的數(shù)據(jù)集中用戶(hù)是否有違約信息,銀行貸款違約記錄數(shù)據(jù)中共有1萬(wàn)條數(shù)據(jù),其中違約用戶(hù)為1 683,占總數(shù)據(jù)的16.8%;互聯(lián)網(wǎng)貸款違約記錄數(shù)據(jù)中共有75萬(wàn)條數(shù)據(jù),其中違約用戶(hù)為149 673,占總數(shù)據(jù)的19.9%。
對(duì)特征的離散或是連續(xù)的判定中設(shè)置閾值25,一個(gè)特征種類(lèi)數(shù)大于25判定為連續(xù)特征,反之為離散特征。離散特征中每種類(lèi)型的數(shù)量和對(duì)違約的影響表現(xiàn)為網(wǎng)絡(luò)貸款等級(jí)特征中網(wǎng)絡(luò)貸款等級(jí)為2級(jí)的數(shù)量最多,網(wǎng)絡(luò)貸款等級(jí)為7級(jí)的數(shù)量最少,網(wǎng)絡(luò)貸款等級(jí)為7級(jí)、6級(jí)以及5級(jí)的用戶(hù)更容易違約。最后探究連續(xù)特征網(wǎng)絡(luò)貸款利率取值對(duì)違約的影響,網(wǎng)絡(luò)貸款利率低于12的用戶(hù)中違約用戶(hù)少于正常用戶(hù),網(wǎng)絡(luò)貸款利率高于12的用戶(hù)中違約用戶(hù)多于正常用戶(hù)。
經(jīng)過(guò)對(duì)數(shù)據(jù)的分析可知,數(shù)據(jù)中含有類(lèi)別特征,用字典映射和LabelEncoder編碼器將類(lèi)型特征網(wǎng)絡(luò)貸款等級(jí)、任職公司類(lèi)型、工作領(lǐng)域以及工作年限轉(zhuǎn)換為數(shù)值類(lèi),以便后期構(gòu)建模型。為了進(jìn)一步提高模型效果,對(duì)2個(gè)時(shí)間特征(貸款開(kāi)戶(hù)時(shí)間和貸款發(fā)放時(shí)間)來(lái)說(shuō),首先,需要進(jìn)行正則化處理使數(shù)據(jù)結(jié)構(gòu)統(tǒng)一。其次,將時(shí)間數(shù)據(jù)分解為相應(yīng)的年、月、星期以及2個(gè)日期時(shí)間差。同時(shí),對(duì)貸款和還款相關(guān)特征進(jìn)行特征交叉,例如用貸款金額除貸款年份得出年均貸款金額等。
為了提高預(yù)測(cè)的準(zhǔn)確率,將部分特征進(jìn)行交叉組合后生成新特征,新特征及其說(shuō)明見(jiàn)表2。
表2 銀行貸款用戶(hù)數(shù)據(jù)構(gòu)建新特征
對(duì)構(gòu)建風(fēng)險(xiǎn)用戶(hù)識(shí)別模型來(lái)說(shuō),LightGBM算法模型的預(yù)測(cè)效果雖然優(yōu)于傳統(tǒng)的決策樹(shù)、隨機(jī)森林算法,但是當(dāng)數(shù)據(jù)量較少時(shí)仍然不能達(dá)到理想的預(yù)測(cè)效果,因此該文采用遷移學(xué)習(xí)的思想提高風(fēng)險(xiǎn)用戶(hù)預(yù)測(cè)效果。
LightGBM是一個(gè)基于決策樹(shù)的梯度Boosting算法框架,與其他算法相比,有更快的訓(xùn)練效率和更低的內(nèi)存,并且可以自動(dòng)處理類(lèi)別特征和自動(dòng)填充缺失值。對(duì)LightGBM參數(shù)設(shè)置見(jiàn)表3,表3中前兩行參數(shù)影響準(zhǔn)確率,決定模型結(jié)構(gòu),第六至第八行參數(shù)影響過(guò)擬合。
表3 LightGBM參數(shù)設(shè)置
折交叉驗(yàn)證為了減小模型過(guò)擬合,從已有數(shù)據(jù)中盡量提取更多的有效信息,將原始數(shù)據(jù)等比例劃分為份,次訓(xùn)練隨機(jī)選取-1份為訓(xùn)練集,1份為測(cè)試集交叉訓(xùn)練,該文選取5折交叉驗(yàn)證,基本流程如下:1) 將數(shù)據(jù)集均勻劃分為5份。2) 將前四份作為訓(xùn)練集,第五份作為測(cè)試集。3) 訓(xùn)練集訓(xùn)練模型,并使用訓(xùn)練集和測(cè)試集一起進(jìn)行擬合。4) 預(yù)測(cè)測(cè)試集結(jié)果為1的概率,并計(jì)算評(píng)價(jià)指標(biāo)。5) 重復(fù)第二步~第四步,依次選取1份數(shù)據(jù)作為測(cè)試集,其他4份為訓(xùn)練集。6) 將5折交叉的結(jié)果和評(píng)估指標(biāo)取均值作為最終結(jié)果。
由于用戶(hù)在銀行貸款的數(shù)據(jù)較少,考慮將網(wǎng)絡(luò)貸款數(shù)據(jù)遷移至訓(xùn)練集,且網(wǎng)貸數(shù)據(jù)與銀行數(shù)據(jù)存在差異,因此該文用銀行貸款數(shù)據(jù)作為訓(xùn)練集預(yù)測(cè)網(wǎng)貸數(shù)據(jù),用畫(huà)圖工具畫(huà)出預(yù)測(cè)值的分布,選取預(yù)測(cè)值小于0.05且真實(shí)值為0的用戶(hù)數(shù)據(jù)以及預(yù)測(cè)值大于0.7且真實(shí)值為1的用戶(hù)數(shù)據(jù),以達(dá)到豐富銀行數(shù)據(jù)的效果。
將銀行數(shù)據(jù)與選取的部分網(wǎng)貸數(shù)據(jù)與預(yù)測(cè)測(cè)試集數(shù)據(jù)相結(jié)合,通過(guò)分析數(shù)據(jù)可知,貸款違約用戶(hù)的數(shù)量遠(yuǎn)少于正常還款用戶(hù)的數(shù)量,選取預(yù)測(cè)值小于0.05的數(shù)據(jù),將該部分?jǐn)?shù)據(jù)與上一步銀行數(shù)據(jù)以及部分網(wǎng)貸數(shù)據(jù)結(jié)合,并對(duì)測(cè)試集進(jìn)行預(yù)測(cè)。具體樣本遷移的流程如圖2所示。
圖2 樣本遷移流程圖
風(fēng)險(xiǎn)用戶(hù)識(shí)別的數(shù)據(jù)集選取某銀行用戶(hù)貸款記錄,包括貸款號(hào)、貸款年份、貸款利率、貸款級(jí)別、貸款額、所在公司類(lèi)型、工作年限、借款人在貸款評(píng)分中所屬的下限和上限、債務(wù)收入比、18個(gè)月內(nèi)借款人逾期30 d以上違約數(shù)、未結(jié)信用額度數(shù)、信貸周轉(zhuǎn)余額、借款人信用額度開(kāi)立時(shí)間、提前還款次數(shù)、近3個(gè)月內(nèi)提前還款金額以及貸款人行為計(jì)數(shù)匿名特征等字段,原始訓(xùn)練集有1萬(wàn)條樣本,其中,測(cè)試集有5 000條樣本,另有75萬(wàn)條來(lái)自互聯(lián)網(wǎng)貸款的數(shù)據(jù)。
該文采用LightGBM、XGBoost以及多層感知機(jī)NN對(duì)處理后的數(shù)據(jù)進(jìn)行模型訓(xùn)練,使用評(píng)估指標(biāo)AUC(Area Under ROC Curve,即ROC曲線(xiàn)下方的面積)計(jì)算對(duì)比3種算法預(yù)測(cè)結(jié)果的值,值越接近1說(shuō)明預(yù)測(cè)效果越好。
圖3為在僅使用銀行貸款數(shù)據(jù)的情況下,不同模型在不同迭代次數(shù)時(shí)值的對(duì)比,LightGBM在不同迭代次數(shù)的情況下值均優(yōu)于XGBoost模型;在迭代次數(shù)為4 000次時(shí),2種模型的值均最高,LightGBM模型的值為0.86。
圖3 銀行貸款數(shù)據(jù)不同模型在不同迭代次數(shù)下AUC值對(duì)比
表4為不同模型下選取不同數(shù)據(jù)的值評(píng)估,首先,對(duì)比LightGBM模型和神經(jīng)網(wǎng)絡(luò)模型下的效果,LightGBM效果比NN算法的略高。其次,在使用5折交叉驗(yàn)證LightGBM模型情況下,僅使用銀行貸款數(shù)據(jù)的值為0.867;將所有網(wǎng)貸數(shù)據(jù)與銀行貸款數(shù)據(jù)一起作為訓(xùn)練集訓(xùn)練后預(yù)測(cè)結(jié)果的值為0.871;網(wǎng)貸數(shù)據(jù)的特征雖與銀行數(shù)據(jù)的特征大致相同,但是2種數(shù)據(jù)的數(shù)據(jù)分布有差異,該文使用銀行數(shù)據(jù)預(yù)測(cè)網(wǎng)貸數(shù)據(jù),將預(yù)測(cè)較為準(zhǔn)確的數(shù)據(jù)提取出來(lái),將其遷移至銀行貸款數(shù)據(jù)中進(jìn)行模型訓(xùn)練,預(yù)測(cè)結(jié)果的值為0.892,效果明顯好于其他算法。
表4 不同模型下選取不同數(shù)據(jù)的AUC值評(píng)估
隨著科學(xué)技術(shù)的快速發(fā)展,很多領(lǐng)域都有海量的數(shù)據(jù),為了能夠應(yīng)對(duì)部分領(lǐng)域數(shù)據(jù)不足的情況,將其他領(lǐng)域的海量數(shù)據(jù)知識(shí)遷移學(xué)習(xí)到數(shù)據(jù)不足的領(lǐng)域。該文在進(jìn)行小樣本風(fēng)險(xiǎn)用戶(hù)識(shí)別中為了更好地捕捉風(fēng)險(xiǎn)用戶(hù)特征,引入遷移學(xué)習(xí)思想,將擁有海量樣本領(lǐng)域的用戶(hù)數(shù)據(jù)遷移到樣本稀疏的風(fēng)險(xiǎn)用戶(hù)識(shí)別領(lǐng)域,通過(guò)選擇與該領(lǐng)域類(lèi)似的數(shù)據(jù)擴(kuò)充樣本,構(gòu)建用戶(hù)特征工程,解決了金融領(lǐng)域風(fēng)險(xiǎn)用戶(hù)識(shí)別的冷啟動(dòng)問(wèn)題,并對(duì)比了LightGBM、XGBoost以及NN等算法模型的值評(píng)估模型。結(jié)果顯示該文利用數(shù)據(jù)遷移學(xué)習(xí)使用LightGBM模型5折交叉驗(yàn)證的方法效果最優(yōu),值最高。