摘 要:消費金融所面向的主要客戶是低收入群體,如果采用傳統(tǒng)的信用風(fēng)險評估模型不是很適用。隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,以及社交網(wǎng)絡(luò)的興起,在消費金融機構(gòu)中,數(shù)據(jù)成為核心金融資源,大量的數(shù)據(jù)信息都被集中處理,并將信用評級模型建立起來,對風(fēng)險做出預(yù)測。本文著重研究基于數(shù)據(jù)倉庫的消費金融信用等級模型及應(yīng)用,首先分析了消費金融客戶數(shù)據(jù)倉庫及其私有云體系結(jié)構(gòu),然后探討了消費金融客戶信用等級模型的構(gòu)建,最后對基于信用等級模型的客戶群體進行了分類與預(yù)測。
關(guān)鍵詞:數(shù)據(jù)倉庫;消費金融;信用等級模型;應(yīng)用;體系構(gòu)建
本文索引:韓佩軒.<標題>[J].商展經(jīng)濟,2021(15):-057.
中圖分類號:F832 文獻標識碼:A
DOI:10.12245/j.issn.2096-6776.2021.15.18
1 消費金融客戶數(shù)據(jù)倉庫及其私有云體系結(jié)構(gòu)
1.1 消費金融大數(shù)據(jù)整體框架
信息技術(shù)發(fā)展速度不斷加快,消費金融能夠獲得更加精準的金融數(shù)據(jù),同時數(shù)據(jù)量逐漸增多,在進行金融數(shù)據(jù)處理的過程中以及對有關(guān)數(shù)據(jù)分析的時候過程比較繁瑣,需要耗費大量的時間。所以,在數(shù)據(jù)處理過程中如果依然運用傳統(tǒng)的技術(shù),是很難滿足需求的[1] 。建立消費金融大數(shù)據(jù)整體框架,對數(shù)據(jù)信息進行存儲、處理,并做好統(tǒng)計工作。
1.2 消費金融大數(shù)據(jù)平臺架構(gòu)設(shè)計
1.2.1 系統(tǒng)功能模塊
數(shù)據(jù)倉庫架構(gòu),主要為六個模塊,具體介紹如下:
其一,數(shù)據(jù)采集模塊主要的功能是對原始數(shù)據(jù)進行采集,并在數(shù)倉中存儲。
其二,消息隊列模塊是緩沖隊列,其接收上游生產(chǎn)者傳輸?shù)臄?shù)據(jù)信息,向下游消費者傳輸[2] 。
其三,數(shù)據(jù)預(yù)處理模塊,用于預(yù)處理消費消息隊列中的緩沖數(shù)據(jù),經(jīng)過流處理模塊計算之后存儲在實時數(shù)倉中。
其四,實時數(shù)倉,可以提供實時數(shù)據(jù)查詢。
其五,非實時數(shù)倉,對于T+1時間的數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析以及數(shù)據(jù)查詢服務(wù)予以提供。
其六,數(shù)據(jù)接口平臺,將數(shù)據(jù)查詢接口提供給各業(yè)務(wù)系統(tǒng)。
1.3 消費金融大數(shù)據(jù)平臺數(shù)據(jù)管理
1.3.1 數(shù)據(jù)抽取
其一,抽取結(jié)構(gòu)化數(shù)據(jù)。通過sqoop,可以將生產(chǎn)數(shù)據(jù)庫中的所有庫存數(shù)據(jù)導(dǎo)入HIVE,通過canal將每天增加的數(shù)據(jù)偽裝成MySQL的從端,利用主數(shù)據(jù)庫中的binlog進行查詢,實時讀取的時候,向Kafka隊列中寫入數(shù)據(jù),而且還要實時更新數(shù)據(jù)傳輸?shù)介_源數(shù)據(jù)庫中,開源數(shù)據(jù)庫所發(fā)揮的作用是每天將數(shù)據(jù)定期抽取到HIVE中。
其二,抽取非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是與結(jié)構(gòu)化數(shù)據(jù)相對應(yīng)的,即為視頻信息、圖片信息等,都不是由數(shù)字表達數(shù)據(jù)信息。這些數(shù)據(jù)都在RDB中統(tǒng)一存儲,將結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫,媒體文件數(shù)據(jù)存儲在文件系統(tǒng)中。利用字符識別技術(shù)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成文本,提取出來,并在數(shù)據(jù)庫中存儲。
其三,抽取埋點日志。對客戶行為日志用Kafka緩沖,Web前端和后端使生產(chǎn)者將數(shù)據(jù)寫入到指定的Topic[3] 。
1.3.2 數(shù)據(jù)轉(zhuǎn)換及處理
將數(shù)據(jù)維度模型建立起來,對于分析需求快速完成,且響應(yīng)性能得以發(fā)揮。在維度建模的時候,對決策的需求進行分析,構(gòu)建數(shù)據(jù)模型,為分析需求提供服務(wù)。通過分析模型,將維度表建立起來,通過整合數(shù)據(jù),搜集個人基礎(chǔ)信息,建立客戶信息表。
2 消費金融客戶信用等級模型的構(gòu)建
2.1 消費金融客戶信用等級細分模型
2.1.1 k-means聚類算法
k-Means算法,是聚類數(shù)量經(jīng)過定義固定之后,將記錄迭代向聚類分配,并對聚類中心進行調(diào)整,在模型沒有建立之前,其是作為一種無監(jiān)督的學(xué)習(xí)機制存在的。該算法的特點是輸入字段需要一個或多個字段,可以輸出的信息為多個,能夠快速集聚大型數(shù)據(jù)。
2.1.2 模型建立
本文應(yīng)用K均值聚類算法建立了消費金融客戶信用評級細分模型。具體采用如下的設(shè)計方法:
其一,在樣本數(shù)據(jù)的選取上,合理選擇客戶數(shù)據(jù)主要用于細分消費信貸的信用等級。
其二,對數(shù)據(jù)信息分類處理中,可以根據(jù)消費信貸行為劃分為兩個群體,即有消費行為的客戶群體和無消費行為的客戶群體[4] 。
其三,在處理數(shù)據(jù)的過程中,基于有消費信貸行為的客戶對數(shù)據(jù)進行處理。
2.2 消費金融客戶信用等級概率預(yù)測模型
2.2.1 算法介紹
其一,決策樹算法。決策樹是一種預(yù)測模型,是一種層次二叉樹結(jié)構(gòu)。樹中的每個內(nèi)部節(jié)點為單個變量指定一個替代測試。對于實值和整數(shù)值變量,使用閾值,對于屬性數(shù)據(jù),使用成員子集[5]。每個數(shù)據(jù)從樹的根沿著唯一的路徑向下到一個葉節(jié)點,變量在每個內(nèi)部節(jié)點的選擇測試結(jié)果中確定具體的路徑。每個葉節(jié)點為最可能的葉分類指定類標簽。
其二,邏輯回歸算法。在線性回歸中,樣本點設(shè)置在空間中的直線上或直線附近,自變量和因變量可以用線性函數(shù)表示,從而闡明它們之間所存在的對應(yīng)關(guān)系。然而,在某些應(yīng)用中,既可以用曲線來表示變量之間所存在的關(guān)系,也可以用非線性函數(shù)來表達這些關(guān)系。這個時候的計算依然是用最小二乘法,但參與回歸的時候則是以變量函數(shù)的形式。典型的是非線性回歸中,因變量是一個隨機變量,只有0和1兩個值。自變量通過線性組合影響因變量的期望,獲得回歸模型[6] 。
其三,隨機森林算法。由于消費者信用評級的概率模型為分類模型,所以模型比較多,可以根據(jù)需要選擇。比較常用的模型是決策樹、logistic回歸以及隨機森林等算法。
2.2.2 模型評價指標
回歸算法的評價參數(shù)主要包括精確率、召回率和 F1分數(shù)。
其一,精確率。模型預(yù)測是正,而且實際是正的樣本數(shù)量/模型預(yù)測是正的樣本數(shù)量,計算的時候使用
TP/(TP+FP)。精確率就是通過預(yù)測所獲得的結(jié)果,主要的作用是預(yù)測為正的樣本中對的一共是多少。
其二,召回率。模型預(yù)測為正和實際為正的樣本數(shù)/模型預(yù)測為正的樣本數(shù),TP/(TP+FP)是用于計算的公式。將召回率與原始樣本進行比較,表示樣本中有多少正面的樣本,以及有多少被預(yù)測的樣本是正確的[7] 。
其三,F(xiàn)1分數(shù)。該分數(shù)就是精確率與召回率的調(diào)和平均數(shù),計算所采用的公式:
F1分數(shù)=2×精確率×召回率/(精確率+召回率)
2.3 基于遷移學(xué)習(xí)的小樣本解決方案
2.3.1 生成式對抗網(wǎng)絡(luò)算法
采用遷移學(xué)習(xí)法可以通過現(xiàn)象對問題的共性把握,并能熟練地處理新問題。生成式對抗網(wǎng)絡(luò)算法即為GAN算法,這是一種新的機器學(xué)習(xí)思想。在這個模型中,參與者有兩個,一個是生成模型,另一個是判別模型,其中的生成模型重在捕獲樣本數(shù)據(jù)的分布,生成的樣本與實際訓(xùn)練數(shù)據(jù)相似,其中為了生成與真實訓(xùn)練數(shù)據(jù)相似的樣本,越接近真實樣本越好。所謂的“判別模型”是一個雙分類器,根據(jù)訓(xùn)練數(shù)據(jù)的概率對樣本進行估計。如果樣本的數(shù)據(jù)是通過真實的訓(xùn)練獲得的,就可以斷定其為輸出大概率;如果樣本的數(shù)據(jù)不是通過真實的訓(xùn)練獲得的,就可以斷定其為輸出小概率。生成式對抗網(wǎng)絡(luò)算法的主要目的是對發(fā)生器的輸出情況做出判斷[8] 。
2.3.2 模型建立
其一,選擇數(shù)據(jù)。如果在真實樣本中發(fā)現(xiàn)有數(shù)據(jù)選取樣本不足的問題,需要過濾掉客戶數(shù)據(jù)字段,對消費者信用等級進一步細分。
其二,處理數(shù)據(jù)。在處理缺失值的時候,需要按照當(dāng)前類型比例對分類變量的缺失值信息進行隨機化填充,如果在寬表處理之前連續(xù)性變量的缺失值已經(jīng)處理了,則缺失的時候都默認賦值為0。
對異常值和極值進行替換,使其成為最接近極值的值。例如,如果離群值定義為高于或低于三個標準差的任何值,則所有離群值都將替換為該范圍內(nèi)的最高或最
低值[8] 。
其三,迭代次數(shù)的設(shè)置。將總的迭代次數(shù)和一次訓(xùn)練迭代的操作是固定發(fā)生器,對鑒別器進行K次訓(xùn)練,使鑒別器逼近最優(yōu)鑒別器,然后固定鑒別器,對發(fā)生器進行一次優(yōu)化訓(xùn)練。執(zhí)行訓(xùn)練循環(huán),直到達到總迭代次數(shù)n。
3 基于信用等級模型的客戶群體分類與預(yù)測
3.1 變量分析
對2019年5月至2020年5月的客戶數(shù)據(jù)實施模型訓(xùn)練,以產(chǎn)品的所有業(yè)務(wù)數(shù)據(jù)作為樣本,客戶的逾期率可以達到1.1%,不良率可以達到0.6%。從客戶的屬性來看,主要包括個人基本信息、信用行為信息、第三方外部信息。與客戶相關(guān)的變量為233個,對變量進行分析,對客戶的區(qū)分度進行分析。
3.2 消費金融客戶信用等級細分模型實驗結(jié)果
基于sparkML框架,使用scalar程序?qū)-means模型進行設(shè)計。聚類數(shù)目由2個增加到10個,調(diào)整聚類數(shù)目后,選擇最優(yōu)聚類數(shù)目。如果簇的數(shù)目是第一次迭代為3,此時的模型就是最優(yōu)的[9] 。
比如,群體一,是2046人,在人群總數(shù)中所占有的比例是9%,平均授信是180000元,平均年齡是40歲,要比整體客戶的平均年齡要高一些。
群體二,是17050人,在人群總數(shù)中所占有的比例是75%,這個群體的年齡分布比較廣泛,授信額度的分布也是比較大的。
群體三,是3602人,在人群總數(shù)中所占有的比例是16%,這個群體的年齡是37歲。
對第二組進一步細分。風(fēng)險客戶群主要包括拒絕客戶。日利率為0.000666,群體一的授信額度較高,被稱為“高授信客戶群”。第三組群體風(fēng)險較大,稱為“風(fēng)險客戶群”,第二組稱為“大眾客戶群”。之前有過授信額而且有過借款,但此后就調(diào)整了授信。
如果按照客戶的生命周期對大客戶群進行分類,可以進一步細分為一個獨立的群體,具有很大的戰(zhàn)略價值。大眾年輕客戶年齡在19歲到30歲之間;大眾不斷增長的客戶年齡在31至38歲之間;顧客的年齡介于39歲到46歲之間。
3.3 消費金融客戶信用等級概率預(yù)測模型實驗結(jié)果
進行訓(xùn)練的時候按照決策樹模型、邏輯回歸模型和隨機森林模型,模型評價指標按照精確率、召回率、F1分數(shù)等,結(jié)果表明,隨機森林模型的結(jié)果比較高,模型準確率高于90%,預(yù)測效果非常好。
4 結(jié)語
通過上面的研究可以明確,研究互聯(lián)網(wǎng)消費金融等級模型,根據(jù)時間選擇合適的模型分析風(fēng)險控制是非常必要的。在本文的研究中,基于消費金融客戶數(shù)據(jù)倉庫及其私有云體系結(jié)構(gòu),構(gòu)建消費金融客戶信用等級模型,對客戶群體進行分類并預(yù)測,提出做好風(fēng)險評估的重要性,為信用風(fēng)險管理研究提供依據(jù)。
參考文獻
劉新海.數(shù)字金融下的消費者信用評分現(xiàn)狀與展望[J].征信,2020,256(5):70-77,86.
鄭浦陽.基于期望確認模型的消費金融用戶感知對持續(xù)使用意愿的影響研究[J].品牌研究,2020,42(3):130-133.
常尚新,劉秀.基于PVAR模型的消費金融對經(jīng)濟增長影響分析[J].商業(yè)經(jīng)濟研究,2019,787(24):161-163.
鄭浦陽.用UTAUT模型進行消費金融領(lǐng)域的消費者行為分析[J].福建茶葉,2020,219(3):99-100.
劉錚.基于SOR與理性行為模型的大學(xué)生使用消費金融工具行為影響因素及機理研究——以“螞蟻花唄”為例[J].金融理論與實踐,2020(7):59-66.
申卓.大數(shù)據(jù)背景下互聯(lián)網(wǎng)金融機構(gòu)的信用評級模型研究[J].中國新通信,2019,21(1):203-205.
陳琳,季凌.基于數(shù)據(jù)挖掘的中小企業(yè)客戶信用評級模型的設(shè)計與實現(xiàn)[J].海峽科技與產(chǎn)業(yè),2019(1):67-68.
楊洋洋,謝雪梅.基于大數(shù)據(jù)的電商網(wǎng)貸動態(tài)信用評級模型研究——來自“拍拍貸”的經(jīng)驗數(shù)據(jù)[J].征信,2019, 37(9):30-38,53.
楊洋洋,謝雪梅.基于大數(shù)據(jù)的電商網(wǎng)貸動態(tài)信用評級模型研究——來自“拍拍貸”的經(jīng)驗數(shù)據(jù)[J].征信,2019(9):30-38.
Abstract: The main customers of consumer finance are low-income groups, and the traditional credit risk assessment model is not very suitable. With the development of mobile Internet technology and the rise of social networks, data has become the core financial resources in consumer financial institutions. A large amount of data information is processed in a centralized manner, and a credit rating model is established to predict risks. This paper focuses on the research and application of consumer finance credit rating model based on data warehouse. Firstly, it analyzes the consumer finance customer data warehouse and its private cloud architecture, then discusses the construction of consumer finance customer credit rating model, and finally classifies and forecasts the customer groups based on the credit rating model.
Keywords: data warehouse; consumer finance; credit rating model; application; system construction