文/范宇辰 陳偉
近年,“校園貸”問題的出現(xiàn)凸顯出高校大學(xué)生對消費(fèi)金融產(chǎn)品的強(qiáng)大需求以及信用教育缺失的問題。各大網(wǎng)貸平臺五花八門,缺乏統(tǒng)一的監(jiān)管體系。各個貸款機(jī)構(gòu)為了搶奪市場,隨意調(diào)整大學(xué)生借貸政策,降低門檻等以吸引更多學(xué)生來借款,且一些不良機(jī)構(gòu)利用學(xué)生的知識盲點(diǎn),編寫高額利息和高額違約金的合同,使學(xué)生陷入校園貸的陷阱中。銀監(jiān)會、教育部等部門多次下發(fā)了一系列通知,規(guī)范、整治校園貸業(yè)務(wù),“一律暫停網(wǎng)貸機(jī)構(gòu)開展校園貸業(yè)務(wù)”。
以阿里、騰訊為首的互聯(lián)網(wǎng)金融機(jī)構(gòu)依托其自有數(shù)據(jù)基礎(chǔ)紛紛切入學(xué)生信貸領(lǐng)域,推出“芝麻信用”、“花唄”等產(chǎn)品,一定程度緩解此問題,但存在覆蓋面不夠、利息較高等缺點(diǎn)。其他持牌正規(guī)金融機(jī)構(gòu),因?yàn)閿?shù)據(jù)缺失問題無法有效評估學(xué)生征信,其優(yōu)質(zhì)的消費(fèi)金融產(chǎn)品無法服務(wù)于廣大學(xué)生群體。
此次研究在學(xué)校多維度、高精準(zhǔn)的特殊數(shù)據(jù)環(huán)境下,探索了結(jié)合大數(shù)據(jù)、機(jī)器學(xué)習(xí)技術(shù)建立起適合大學(xué)生的信用評價體系——“油菜花信用”,從而輔助金融機(jī)構(gòu)向大學(xué)生提供定制化、規(guī)范化的金融服務(wù),控制風(fēng)險(xiǎn)、獲取利潤。同時,在校內(nèi)利用信用模型的展現(xiàn)、運(yùn)營幫助大學(xué)生培養(yǎng)正確的信用意識、風(fēng)險(xiǎn)意識和防范意識,疏堵結(jié)合,有效推進(jìn)“校園貸”問題解決,同時為構(gòu)建信用社會奠定基礎(chǔ)。
高校和互聯(lián)網(wǎng)金融機(jī)構(gòu)建立模型都基于大數(shù)據(jù)基礎(chǔ),機(jī)構(gòu)的模型經(jīng)過市場檢驗(yàn)更加成熟。相較于互聯(lián)網(wǎng)金融機(jī)構(gòu),依托于高校大數(shù)據(jù)環(huán)境建立學(xué)生征信模型擁有諸多優(yōu)勢。
在校大學(xué)生移動支付占比近92%,信用卡持卡人數(shù)少,缺少歷史信用記錄。一般金融機(jī)構(gòu)只能從移動支付和互聯(lián)網(wǎng)社交方面收集大學(xué)生的信息。
而高校作為學(xué)生最主要的生活場所,擁有完整且多方面的學(xué)生信息,例如學(xué)生基本信息、成績記錄、校園卡消費(fèi)記錄、圖書借閱記錄、上網(wǎng)記錄等等。涉及維度廣泛且健全,對建立信用評估模型十分有利,而這方面的數(shù)據(jù)往往是金融機(jī)構(gòu)易忽視且難以獲取的。
高校比金融機(jī)構(gòu)更了解大學(xué)生,數(shù)據(jù)基礎(chǔ)更好。大學(xué)生的日常行為信息是客觀地被記錄,個人無法修改也無法作偽。而金融機(jī)構(gòu)所采用的大學(xué)生數(shù)據(jù)真實(shí)性需要經(jīng)過鑒別。在數(shù)據(jù)準(zhǔn)確性上,高校的征信模型比金融機(jī)構(gòu)自建征信模型具有更大優(yōu)勢。
金融機(jī)構(gòu)自建征信模型主要用于自身業(yè)務(wù)場景需要,為其業(yè)務(wù)提供風(fēng)險(xiǎn)評估和信用分析。
高校建立征信模型是第三方獨(dú)立征信體系,為學(xué)生個人建立信用檔案,依法采集、客觀記錄其信用信息,并依法對外提供信用信息服務(wù)。作為專業(yè)化的信用信息服務(wù)平臺,不僅僅服務(wù)于金融機(jī)構(gòu),還可服務(wù)于其他任何有需要的社會機(jī)構(gòu),如招聘單位、共享經(jīng)濟(jì)類互聯(lián)網(wǎng)企業(yè)等等,前景廣闊。
“油菜花信用”是一個基于東北財(cái)經(jīng)大學(xué)學(xué)生大數(shù)據(jù)環(huán)境下的信用評分模型。數(shù)據(jù)來自于學(xué)校數(shù)據(jù)中心整合的學(xué)生基本信息數(shù)據(jù)、教務(wù)成績數(shù)據(jù)、一卡通消費(fèi)數(shù)據(jù)、圖書借還數(shù)據(jù)和獎懲助貸數(shù)據(jù)等多維度數(shù)據(jù)資源,以身份、成績、消費(fèi)、履約和獎懲五個維度作為衡量標(biāo)準(zhǔn),通過使用專家打分法、邏輯回歸兩種方式建立模型,對學(xué)生在校行為進(jìn)行打分評價,分?jǐn)?shù)范圍從350分至950分。
信用評分模型的訓(xùn)練數(shù)據(jù)和預(yù)測數(shù)據(jù)分別來自學(xué)校學(xué)工、教務(wù)、一卡通及圖書館等平臺。具體包括學(xué)生的基本信息、成績信息、消費(fèi)信息、借還書信息及獎懲信息。數(shù)據(jù)在學(xué)校數(shù)據(jù)中心進(jìn)行集成,經(jīng)過數(shù)據(jù)清洗整合,選取部分信息完整度較高的大四學(xué)生(供158名)數(shù)據(jù)進(jìn)行建模。
1. 多維評分體系
FICO評分是Fair Isaac公司開發(fā)的信用評分系統(tǒng),也是目前美國應(yīng)用得最廣泛的一種,F(xiàn)ICO分?jǐn)?shù)已是被公認(rèn)的衡量消費(fèi)者信用等級的指標(biāo)。FICO 評分系統(tǒng)得出的信用分?jǐn)?shù)范圍在 300~850 分之間,分?jǐn)?shù)越高,說明客戶的信用風(fēng)險(xiǎn)越小,它采集客戶多維度信息,通過邏輯回歸模型計(jì)算客戶的還款能力,預(yù)測客戶在未來一年違約的概率。
參考FICO評級模型,參考信用風(fēng)險(xiǎn)領(lǐng)域的要素分析法等理論體系,設(shè)計(jì)多維度的指標(biāo)體系,經(jīng)過多次迭代測算,確定各指標(biāo)權(quán)重,計(jì)算用戶信用得分。
目前指標(biāo)體系包括學(xué)校財(cái)富a、履約情況b、經(jīng)濟(jì)情況c、消費(fèi)情況d、其他e,設(shè)定不同指標(biāo)權(quán)重后,計(jì)算公式如下:
以橫軸為信用分?jǐn)?shù),縱軸為人數(shù)百分比繪制評分圖,由多維評分分布圖得知,615~700得分的分布人數(shù)最多,這部分人群信用一般;550~615得分區(qū)間分布著大約12%的人群,信用較差;5%以下的人群得分小于550,信用極差;700~750得分的人群信用較好,占大約10%;750分以上信用極好,人群比例大約5%比。從目前的分析結(jié)果看,信用結(jié)果分布良好,基本符合正態(tài)分布。
2.機(jī)器學(xué)習(xí)——邏輯回歸算法
機(jī)器學(xué)習(xí)采用經(jīng)典的邏輯回歸,選取158名學(xué)生的績點(diǎn)、圖書逾期時間、一卡通余額平均值、總消費(fèi)、獲獎等級及平均逾期率作為特征向量,將學(xué)生是否有過逾期行為作為是否違約的分類依據(jù),有過違約行為為1,從未有過違約行為為0。按照3:1的比例對數(shù)據(jù)集進(jìn)行隨機(jī)劃分,訓(xùn)練數(shù)據(jù)占比75%(共118條數(shù)據(jù)),測試數(shù)據(jù)占比25%(共40條數(shù)據(jù))。得到測試數(shù)據(jù)的40名學(xué)生的違約概率p,然后對概率值 p 進(jìn)行線性計(jì)算(350 + 600* (1-p)),得到最終的信用分?jǐn)?shù)。在參數(shù)選擇上,選用L2正則化方法,訓(xùn)練采用網(wǎng)格法進(jìn)行超參數(shù)搜索,最終得到最優(yōu)的超參數(shù)C=10。由于特征向量量綱維度不同,在做分析之前統(tǒng)一對數(shù)據(jù)集進(jìn)行樣本歸一化處理。處理后數(shù)據(jù)使用python語言進(jìn)行編程測試。得到結(jié)果如下:
邏輯回歸評分分布仍符合正態(tài)分布,結(jié)果完全達(dá)到可用目標(biāo)。
為了評估模型,用該預(yù)測結(jié)果計(jì)算了TPR與FPR值,繪制了ROC曲線并計(jì)算了AUC值。計(jì)算結(jié)果如下:
TPR值為:
圖1 TPR值表
FPR值:
圖2 FPR值表
AUC值為0.942。測試集的精準(zhǔn)率為87.5%,召回率為78.6%,f1值為81.5%。
采用ROC曲線是因?yàn)椋喝巳旱倪`約情況中經(jīng)常會出現(xiàn)類不平衡現(xiàn)象,而ROC有個很好的特性,測試集中的正負(fù)樣本的分布變化的時候,ROC 曲線能夠保持不變,能夠準(zhǔn)確反應(yīng)模型優(yōu)劣,如圖3所示。AUC的值就是ROC曲線下面的面積,越大模型越準(zhǔn)確。
本項(xiàng)目面向大學(xué)生群體和企業(yè)機(jī)構(gòu)分別采用兩種不同服務(wù)模式。
學(xué)生端:平臺主要對學(xué)生提供信用評分查詢、征信報(bào)告分析、信用管理服務(wù)、信用成長建議。學(xué)生可通過移動客戶端充分了解自己的信用信息,根據(jù)信用建議調(diào)整自己的行為,增強(qiáng)信用意識。
圖3 由邏輯回歸算法結(jié)果得到的ROC曲線
企業(yè)端:向企業(yè)機(jī)構(gòu)提供數(shù)據(jù)服務(wù)。信用報(bào)告形式,金融機(jī)構(gòu)可直接根據(jù)本平臺的分析結(jié)果對學(xué)生進(jìn)行評級劃分;數(shù)據(jù)接口形式,企業(yè)機(jī)構(gòu)可利用數(shù)據(jù)接口獲得相關(guān)信用數(shù)據(jù)輔助業(yè)務(wù)開展。
以合作共贏的前提下,依托高校學(xué)生征信模型,融合企業(yè)方具體場景業(yè)務(wù)需要,協(xié)助企業(yè)構(gòu)建生產(chǎn)環(huán)境的信用服務(wù)模型。
根據(jù)已有數(shù)據(jù)結(jié)合提取的特征屬性,使用專家評分法卡、機(jī)器學(xué)習(xí)、邏輯回歸、深度學(xué)習(xí)方法進(jìn)行初步的模型設(shè)計(jì),通過調(diào)整模型參數(shù)和模型融合得到效果相對較好的模型。
引入更多的學(xué)生數(shù)據(jù)進(jìn)行測試,檢驗(yàn)?zāi)P偷挠行?,從而進(jìn)一步地調(diào)整優(yōu)化模型。
利用更多合作機(jī)構(gòu)的數(shù)據(jù),如信用卡數(shù)據(jù)、房屋租賃、工作等多方面的數(shù)據(jù),進(jìn)一步完善和迭代模型,使準(zhǔn)確性更高。
進(jìn)入大數(shù)據(jù)、人工智能時代后,高校沉淀的海量數(shù)據(jù)究竟應(yīng)該如何發(fā)揮作用,能發(fā)揮哪些作用,這些疑問需要網(wǎng)絡(luò)信息部門不斷探索求證。不同角度看待高校信息部門做征信研究(金融類服務(wù))是否恰當(dāng),一定會得到不同結(jié)論。參考阿里螞蟻金服提出Techfin,對比金融機(jī)構(gòu)Fintech的例子,網(wǎng)絡(luò)信息中心作為高校IT技術(shù)的領(lǐng)先者和數(shù)據(jù)的集成管理者,未來的在角色定位應(yīng)該是TechX,利用新興技術(shù)(Tech)賦能其他部門(X),進(jìn)一步發(fā)揮信息技術(shù)在教育教學(xué)、教育管理中的支撐引領(lǐng)作用,促進(jìn)信息技術(shù)與業(yè)務(wù)的深度融合,為學(xué)校的學(xué)科建設(shè)、教學(xué)科研服務(wù)。