陸健健 江開忠
摘 要:為了提高個人信用評分模型算法預(yù)測精準(zhǔn)率,受視覺領(lǐng)域數(shù)據(jù)增廣思路啟發(fā),提出融合數(shù)據(jù)增廣技術(shù)與機(jī)器學(xué)習(xí)算法的個人信用評分模型。該模型首先對原始個人信用數(shù)據(jù)進(jìn)行數(shù)據(jù)增廣處理,然后基于機(jī)器學(xué)習(xí)分類算法訓(xùn)練一個二分類個人信用評分模型,最后基于公開個人信用數(shù)據(jù)集,分別建立未經(jīng)過數(shù)據(jù)增廣和經(jīng)過數(shù)據(jù)增廣處理后的個人信用評分模型。對比準(zhǔn)確率、精確率、召回率、F1得分、AUC值和ROC曲線等6個性能評價指標(biāo),結(jié)果顯示,相較于僅基于機(jī)器學(xué)習(xí)算法的個人信用評分模型,融合了數(shù)據(jù)增廣技術(shù)與機(jī)器學(xué)習(xí)算法的個人信用評分模型使得分類性能得到了一定提升,分類準(zhǔn)確率平均高出5%。
關(guān)鍵詞:數(shù)據(jù)增廣技術(shù);機(jī)器學(xué)習(xí)算法;個人信用評分;分類性能評價指標(biāo)
DOI:10. 11907/rjdk. 192197 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP306文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2020)008-0040-04
Abstract: Inspired by data augmentation in computer vision, it is feasible to increase the number of training data and make the data set as diverse as possible so as to improve the accuracy of the model of personal credit scoring. After the data is augmented, the performance of the classification task can often be greatly improved. This paper firstly proposes a personal credit scoring model based on data augmentation algorithm. Based on the data augmentation of original personal credit data, a personal credit model is established based on supervised machine learning algorithm. In the empirical part, this paper builds a personal credit scoring model that has not undergone data augmentation and data augmentation processing based on public personal credit data sets. Six performance evaluation indicators, such as accuracy, accuracy, recall, F1 score, AUC value and ROC curve showed that the classification performance was improved more than 5% by the personal credit scoring model based on data augmentation technology.
Key Words: data augmentation; machine learning; credit scoring; classification performance evaluation metrics
0 引言
近年來,隨著人工智能和機(jī)器學(xué)習(xí)算法的不斷進(jìn)步與發(fā)展,作為人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的一個典型應(yīng)用,個人信用評分模型取得了長足進(jìn)步。個人信用評分問題實質(zhì)上是模式識別領(lǐng)域的一個分類問題,識別個人信用特征并將個人判斷劃分為不違約和違約兩類。具體做法是根據(jù)歷史數(shù)據(jù)樣本信息,從已知數(shù)據(jù)中識別違約及不違約者特征,從而總結(jié)出分類規(guī)則,構(gòu)建分類算法模型,用于測量借款個人違約概率,為相關(guān)決策者或者決策機(jī)構(gòu)提供決策依據(jù)[1]。本文將過去個人信用評分研究算法模型主要劃分為三大類:傳統(tǒng)數(shù)學(xué)建模方法[2-6];決策樹、K近鄰判別(KNN)、聚類、神經(jīng)網(wǎng)絡(luò)等單一機(jī)器學(xué)習(xí)算法[7-10];集成算法或者多算法融合[11-15]。面對眾多評分模型,模型側(cè)的更新?lián)Q代已成為個人信用評分研究領(lǐng)域發(fā)展的瓶頸。
近些年,在計算機(jī)視覺、自然語言處理等領(lǐng)域出現(xiàn)的數(shù)據(jù)增廣技術(shù)可以為個人信用評分研究提供新思路,成為提升個人信用評分模型預(yù)測精度的突破口。2018年,盧海濤等[16]通過圖像變換和合成技術(shù)建立滿文古籍文檔圖像數(shù)據(jù)增廣算法,解決訓(xùn)練數(shù)據(jù)不足問題,在構(gòu)建的增廣數(shù)據(jù)集上建立Faster R-CNN深度學(xué)習(xí)模型挖掘深層圖像特征,實現(xiàn)滿文文檔圖像印章檢測方法,并對采集的真實滿文文檔復(fù)印件圖像進(jìn)行測試,印章檢測精度可以達(dá)到99.6%。同年,蔣夢瑩等[17]提出優(yōu)化分類的數(shù)據(jù)增廣方法,通過對測試集所有類別進(jìn)行分析,找到分類效果不好的單類進(jìn)行數(shù)據(jù)擴(kuò)增,改善模型因訓(xùn)練樣本少、結(jié)構(gòu)復(fù)雜引起分類效果差的現(xiàn)象,為數(shù)據(jù)增廣方法提供了多種思路。2019年,王鈺清等[18]基于數(shù)據(jù)增廣和卷積神經(jīng)網(wǎng)絡(luò)算法的地震隨機(jī)減噪,對無噪地震數(shù)據(jù)添加不同方差的高斯噪聲,數(shù)據(jù)增廣后構(gòu)成新的訓(xùn)練集,實現(xiàn)了對小樣本CNN模型訓(xùn)練。
參考以上視覺領(lǐng)域圖片處理的數(shù)據(jù)增廣技術(shù),本文對傳統(tǒng)個人信用數(shù)據(jù)使用SMOTE算法進(jìn)行增廣。與傳統(tǒng)信用評分模型相比,本文將數(shù)據(jù)增廣思想運用于個人信用數(shù)據(jù)這類二維結(jié)構(gòu)化數(shù)據(jù)集中,提出了一種融合數(shù)據(jù)增廣技術(shù)與機(jī)器學(xué)習(xí)算法的個人信用評分模型。相比之前未經(jīng)過數(shù)據(jù)增廣的模型,該模型算法具有預(yù)測精準(zhǔn)度高、魯棒性好等特點。
1 相關(guān)技術(shù)原理
1.1 數(shù)據(jù)增廣技術(shù)
數(shù)據(jù)增廣技術(shù)是深度學(xué)習(xí)中的常用技巧,主要用于增加訓(xùn)練數(shù)據(jù)集數(shù)據(jù)量,讓數(shù)據(jù)集盡可能多樣化,使得訓(xùn)練的模型具有更強(qiáng)的泛化能力。在實際各項應(yīng)用中,并非所有數(shù)據(jù)增廣方式都適用于當(dāng)前訓(xùn)練數(shù)據(jù)集,需要根據(jù)自己的數(shù)據(jù)集特征確定應(yīng)該使用哪幾種數(shù)據(jù)增廣方式。目前,在視覺領(lǐng)域,數(shù)據(jù)增廣主要包括:水平/垂直翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪、剪切、平移、對比度、色彩抖動等方式;在自然語言處理領(lǐng)域,數(shù)據(jù)增廣主要包括:同義詞替換、隨機(jī)插入、隨機(jī)交換、隨機(jī)刪除等技術(shù);而在二維結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域,目前尚未有學(xué)者提出統(tǒng)一數(shù)據(jù)增廣技術(shù),而僅僅在出現(xiàn)不平衡數(shù)據(jù)集時,有研究者提出了基于SMOTE算法、SMOTE算法的以變種為代表的過采樣技術(shù),這種過采樣技術(shù)實際上就是針對不平衡數(shù)據(jù)集中少數(shù)類數(shù)據(jù)的數(shù)據(jù)增廣技術(shù),如果將對象換作全體各類數(shù)據(jù)集,將全體數(shù)據(jù)集做過采樣處理,則那些過采樣技術(shù)就是本文所指的數(shù)據(jù)增廣技術(shù)。
1.2 機(jī)器學(xué)習(xí)算法
常用的機(jī)器學(xué)習(xí)算法主要分為無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。本文主要用到了有監(jiān)督學(xué)習(xí),有監(jiān)督學(xué)習(xí)主要是指輸入的樣本數(shù)據(jù)有相應(yīng)的標(biāo)記類別。有監(jiān)督學(xué)習(xí)算法可以從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個模型參數(shù),當(dāng)給定一個新的數(shù)據(jù)樣本時,可以根據(jù)該模型參數(shù)預(yù)測一個相應(yīng)類別的結(jié)果。有監(jiān)督學(xué)習(xí)的訓(xùn)練集要求包含輸入和輸出,也可以說是特征屬性和目標(biāo)屬性。監(jiān)督學(xué)習(xí)包括回歸預(yù)測問題和分類預(yù)測問題,通過已有的訓(xùn)練樣本去訓(xùn)練得到一個誤差最小的最優(yōu)模型,再利用該最優(yōu)模型對輸入樣本輸出相應(yīng)結(jié)果,最后對輸出進(jìn)行簡單判斷從而實現(xiàn)預(yù)測目的,也即對未知數(shù)據(jù)樣本具有預(yù)測的能力。常見的有監(jiān)督學(xué)習(xí)分類算法有K近鄰、支持向量機(jī)、決策樹、隨機(jī)森林、梯度提升樹、XGBoost等。本文在實驗部分將使用以上幾種有監(jiān)督學(xué)習(xí)的分類算法。
1.3 數(shù)據(jù)增廣算法流程
本文數(shù)據(jù)增廣技術(shù)原理與SOMTE算法思想一致,區(qū)別在于傳統(tǒng)SOMTE算法只擴(kuò)增少數(shù)類樣本,使少數(shù)類樣本數(shù)據(jù)與多數(shù)類樣本達(dá)到平衡,而本文數(shù)據(jù)增廣原理是指擴(kuò)充所有樣本數(shù)據(jù),使得依據(jù)樣本訓(xùn)練出來的模型達(dá)到精確度高、避免過擬合的效果。
(1)首先,對于數(shù)據(jù)集中每一行樣本記錄X,以歐氏距離為標(biāo)準(zhǔn)計算它到它所屬類別樣本集S中所有樣本的距離,取其中距離最近的K個樣本記錄,得到其k近鄰。
(2)其次,根據(jù)樣本數(shù)據(jù)集設(shè)置一個增廣比例以確定增廣倍率N,對于每一個類樣本記錄X,從其k近鄰的樣本中隨機(jī)選擇若干樣本,記選擇的近鄰樣本為XN。
(3)最后,對于每一個隨機(jī)選出的樣本XN,分別與原樣本按照式(1)構(gòu)建新的樣本。
2 實驗與結(jié)果分析
2.1 數(shù)據(jù)集描述及預(yù)處理
為更好地驗證經(jīng)過數(shù)據(jù)增廣的模型具有更高的準(zhǔn)確率,本文選取兩個公開Benchmark的數(shù)據(jù)集,它們均來源于加州大學(xué)UCI公開數(shù)據(jù)庫,其中包括著名German、Australian兩個信用數(shù)據(jù)集,它們都是關(guān)于銀行信用卡個人用戶業(yè)務(wù)信息的數(shù)據(jù),如表1所示。
德國數(shù)據(jù)集共有樣本記錄1 000條,其中正類300,負(fù)類700,屬性數(shù)目共20個,其中數(shù)值型屬性7個,類別屬性13個。澳大利亞數(shù)據(jù)集共有樣本記錄690條,其中正類383,負(fù)類307,屬性數(shù)目共14個,其中數(shù)值型屬性8個,類別屬性6個。這兩個數(shù)據(jù)集的具體屬性信息如表2和表3所示,其中澳大利亞數(shù)據(jù)集公開貢獻(xiàn)者為了保護(hù)數(shù)據(jù)隱私,所有屬性名和值都被替換成一些沒有意義的變量。
在實際問題的數(shù)據(jù)集中經(jīng)常會出現(xiàn)缺失值的情況,而缺失值往往也會導(dǎo)致模型的準(zhǔn)確率不高,因此在訓(xùn)練原始數(shù)據(jù)集之前,需要對原始數(shù)據(jù)樣本進(jìn)行數(shù)據(jù)預(yù)處理。首先,對原始數(shù)據(jù)集中嚴(yán)重缺失數(shù)據(jù)的樣本記錄予以剔除,對部分缺失數(shù)值型樣本采用均值填充方法,對分類型變量部分缺失數(shù)值的樣本記錄采用眾數(shù)填充的方法;其次,對所有分類型變量的數(shù)據(jù)進(jìn)行編碼,本文采用的是OneHot編碼;最后,對所有數(shù)值型數(shù)據(jù)進(jìn)行規(guī)范化處理,本文對數(shù)據(jù)采取極差標(biāo)準(zhǔn)化,如式(2)所示,其中[X]代表某屬性原始數(shù)據(jù),[Xmin]代表某屬性數(shù)據(jù)的最小值,[Xmax]代表某屬性數(shù)據(jù)的最大值,[X*]代表標(biāo)準(zhǔn)化后某屬性的數(shù)據(jù)。
2.3 實驗結(jié)果
為了驗證經(jīng)過數(shù)據(jù)增廣后的算法模型具有更好的性能,本文對德國個人信用數(shù)據(jù)集建立邏輯回歸、支持向量機(jī)、樸素貝葉斯、K近鄰、決策樹、隨機(jī)森林、極限梯度提升、梯度提升樹等8對算法模型,結(jié)果如表3所示。
由表3可以看出,在德國信用數(shù)據(jù)集上,除回歸(lr)、樸素貝葉斯(mnb)與數(shù)據(jù)增廣技術(shù)融合后的模型較原模型性能低外,其它6個融合模型都比原模型性能好,特別是k近鄰(knn)、決策樹(dtc)、隨機(jī)森林(rfc)、極限梯度提升(XGBoost)、梯度提升樹(GBDT)等融合后的模型在所有性能指標(biāo)上都比原模型要高出不少,準(zhǔn)確率平均高出6%左右。
由圖2可以看出,兩個ROC曲線凸出,也即在德國數(shù)據(jù)集上,經(jīng)過與數(shù)據(jù)增廣技術(shù)融合的算法性能都得到了顯著提升。
3 結(jié)語
隨著機(jī)器學(xué)習(xí)深度學(xué)習(xí)算法的不斷發(fā)展,個人信用評分也得到了巨大發(fā)展,但是面對眾多算法模型,算法模型側(cè)的升級換代已成為個人信用評分研究領(lǐng)域發(fā)展的瓶頸。本文參考視覺和自然語言處理領(lǐng)域的數(shù)據(jù)增廣思想,提出了一種數(shù)據(jù)增廣技術(shù)與算法相融合的思路?;趦蓚€公開信用數(shù)據(jù)集,對比8組機(jī)器學(xué)習(xí)算法模型實驗,結(jié)果顯示,采用融合數(shù)據(jù)增廣技術(shù)的算法顯著提高了個人信用評分模型的預(yù)測準(zhǔn)確率及其它相應(yīng)性能指標(biāo)。在下一步工作中,將對信用數(shù)據(jù)增廣技術(shù)進(jìn)行改進(jìn),研究改進(jìn)后的數(shù)據(jù)增廣技術(shù)與機(jī)器學(xué)習(xí)算法相融合,以進(jìn)一步提高個人信用評分模型性能。
參考文獻(xiàn):
[1] 石慶焱,靳云匯. 多種個人信用評分模型在中國應(yīng)用的比較研究[J]. 統(tǒng)計研究,2004(6):43-47.
[2] 劉峙廷. 我國P2P網(wǎng)絡(luò)信貸風(fēng)險評估研究[D]. 南寧:廣西大學(xué),2013.
[3] 秦宛順. ?一個基于Logistic回歸的個人信用評分模型[C]. 中國數(shù)量經(jīng)濟(jì)學(xué)會,2003.
[4] 李建平,徐偉宣,石勇. 基于主成分線性加權(quán)綜合評價的信用評分方法及應(yīng)用[J]. 系統(tǒng)工程,2004(8):64-68.
[5] 金妍彥. ?遺傳規(guī)劃模型在我國個人信用評估中的應(yīng)用研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2006.
[6] 徐少鋒. FISHER判別分析在個人信用評估中的應(yīng)用[J]. 統(tǒng)計與決策,2006(2):133-135.
[7] 王靜,王延清,何德權(quán). 基于多層前饋神經(jīng)網(wǎng)絡(luò)的個人信用評分模型[J]. 經(jīng)濟(jì)師,2004(12):20-21.
[8] 肖文兵,費奇,萬虎. 基于支持向量機(jī)的信用評估模型及風(fēng)險評價[J]. 華中科技大學(xué)學(xué)報(自然科學(xué)版),2007(5):23-26.
[9] 蕭超武,蔡文學(xué),黃曉宇,等. 基于隨機(jī)森林的個人信用評估模型研究及實證分析[J]. 管理現(xiàn)代化,2014,34(6):111-113.
[10] 朱兵,賀昌政,李慧媛. 基于遷移學(xué)習(xí)的客戶信用評估模型研究[J]. 運籌與管理,2015,24(2):201-207.
[11] 殷爽,姜明輝. 基于PSO的個人信用評估組合預(yù)測模型[J]. 經(jīng)濟(jì)研究導(dǎo)刊,2008(14):83-86.
[12] 朱毅峰,孫亞南. 精煉決策樹模型在個人信用評估中的應(yīng)用[J]. 統(tǒng)計教育,2008(1):5-7.
[13] 向暉,楊勝剛. 個人信用評分關(guān)鍵技術(shù)研究的新進(jìn)展[J]. 財經(jīng)理論與實踐,2011,32(4):20-24.
[14] 肖進(jìn),劉敦虎,顧新,等. 銀行客戶信用評估動態(tài)分類器集成選擇模型[J]. 管理科學(xué)學(xué)報,2015,18(3):114-126.
[15] 陳力,黃艷瑩,游德創(chuàng). 一種基于Boosting的集成學(xué)習(xí)算法在銀行個人信用評級中的應(yīng)用[J]. 價值工程,2017,36(18):170-172.
[16] 盧海濤,吳磊,周建云,等. 基于Faster R-CNN及數(shù)據(jù)增廣的滿文文檔印章檢測[J]. 大連民族大學(xué)學(xué)報,2018,20(5):455-459.
[17] 蔣夢瑩,林小竹,柯巖. 基于優(yōu)化分類的數(shù)據(jù)增廣方法[J]. 計算機(jī)工程與設(shè)計,2018,39(11):3559-3563.
[18] 王鈺清,陸文凱,劉金林,等. 基于數(shù)據(jù)增廣和CNN的地震隨機(jī)噪聲壓制[J]. 地球物理學(xué)報,2019,62(1):421-433.
(責(zé)任編輯:孫 娟)