文/段光強(qiáng) 楊春明 張暉
隨著人民生活水平不斷提高,社會(huì)生活方式呈現(xiàn)多樣化,人們的價(jià)值觀受到了嚴(yán)重的沖擊,社會(huì)上制假販假現(xiàn)象日益突出,出現(xiàn)了一定程度上的信用危機(jī)。這種現(xiàn)象逐漸蔓延到社會(huì)的各個(gè)角落,其中信用危機(jī)在高校也有不同程度的反映,使得我國高校大學(xué)生誠信教育遭到嚴(yán)峻挑戰(zhàn)。因此,深入研究高校學(xué)生的信用評(píng)價(jià)體系,建立科學(xué)的高校學(xué)生信用評(píng)分系統(tǒng)也愈顯其重要性,對(duì)于學(xué)校的發(fā)展、學(xué)生個(gè)人的成長乃至對(duì)整個(gè)社會(huì)的推動(dòng)和促進(jìn)都有著重要的意義。
目前,個(gè)人信用評(píng)分模型主要是運(yùn)用在放貸機(jī)構(gòu)評(píng)估貸款人是否違約,為是否貸款提供預(yù)測(cè),減少放貸機(jī)構(gòu)的不良貸款帶來的損失,增加正確放貸帶來的利益。經(jīng)過幾十年的發(fā)展,從最早的Fisher(1936)提出將總體按照不同的特征成分劃分成不同的組的方法,到20世紀(jì)60年代信用卡的出現(xiàn)和快速發(fā)展,也影響個(gè)人信用評(píng)分模型的快速發(fā)展[1]?,F(xiàn)在大多數(shù)學(xué)者使用基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法構(gòu)建信用評(píng)分模型,20世紀(jì)90年代以來,常見的模型有線性判別分析、邏輯斯蒂回歸、決策樹、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、隨機(jī)森林、提升樹等[2]。近幾年信用評(píng)分模型發(fā)展趨勢(shì)和熱點(diǎn)是組合型信用評(píng)分模型,將多種信用評(píng)價(jià)模型串行組合、并行組合或者通過bagging或者boosting等算法產(chǎn)生多個(gè)訓(xùn)練集,使用不穩(wěn)定分類算法在數(shù)據(jù)集上建立模型,最終將結(jié)果適當(dāng)?shù)慕M合在一起。實(shí)驗(yàn)結(jié)果表明,組合模型能夠有效的提高信用評(píng)分模型的精確性和穩(wěn)定性[3]。
在個(gè)人信用評(píng)分中少有把高校學(xué)生當(dāng)作受評(píng)價(jià)人群,王勤[4]提出了一套基于遺傳算法和神經(jīng)網(wǎng)絡(luò)的高校大學(xué)生個(gè)人信用評(píng)價(jià)模型,通過調(diào)查表方式收集到的數(shù)據(jù),數(shù)據(jù)的準(zhǔn)確性和完整性有待提高和完善。為收集到高校學(xué)生真實(shí)、多方位、全面的信用數(shù)據(jù),通過和西南科技大學(xué)信推辦合作,收集到了近四年學(xué)生的基本信息、在校信息、繳納學(xué)費(fèi)、成績、獎(jiǎng)學(xué)金、勤工助學(xué)、繳納貸款、違紀(jì)情況、一卡通消費(fèi)記錄、圖書館借閱和進(jìn)出等多方面信息,同時(shí)采集集學(xué)生在貼吧微博等發(fā)表的言論信息作為補(bǔ)充。力爭(zhēng)收集到學(xué)生的全面信用數(shù)據(jù),使信用評(píng)分模型更加準(zhǔn)確。
高校信用評(píng)分系統(tǒng)的主要由三部分組成,數(shù)據(jù)采集與融合系統(tǒng)、信用評(píng)分系統(tǒng)、信用業(yè)務(wù)系統(tǒng)。
數(shù)據(jù)采集與融合系統(tǒng)主要完成信用數(shù)據(jù)的采集、存儲(chǔ)、實(shí)體鏈接、沖突解決、深度知識(shí)發(fā)現(xiàn)。整體流程為:(1)從不同數(shù)據(jù)源(教務(wù)處、學(xué)工部、財(cái)務(wù)處、圖書館、一卡通、公寓中心、貼吧和微博等)采集到不同格式的數(shù)據(jù);(2)將采集到的數(shù)據(jù)以Key-value鍵值對(duì)形式存儲(chǔ)在分布式MongoDB數(shù)據(jù)庫;(3)以學(xué)號(hào)作為學(xué)生實(shí)體唯一標(biāo)識(shí)符,將同一學(xué)號(hào)的所有數(shù)據(jù)鏈接在一起,并刪除重復(fù)的屬性值;(4)解決第三步中存在同一屬性具有多種不同的值或者多種名稱的沖突問題;(5)結(jié)合先驗(yàn)知識(shí),通過推演、關(guān)聯(lián)分析等方法發(fā)現(xiàn)隱藏的深度知識(shí)。
信用評(píng)分系統(tǒng)主要將數(shù)據(jù)采集與融合系統(tǒng)得到的數(shù)據(jù)通過信用評(píng)分模型計(jì)算出每個(gè)學(xué)生的信用評(píng)分,并將評(píng)分結(jié)果存儲(chǔ)在MySQL數(shù)據(jù)庫中。
信用業(yè)務(wù)系統(tǒng)主要提供信用評(píng)分的展示和可視化功能。對(duì)學(xué)生用戶主要提供登錄、信用自查、守信記錄和失信記錄的展示、信用報(bào)告生成、提交信用佐證、信用問卷調(diào)查、信用小測(cè)試等功能。對(duì)輔導(dǎo)員等學(xué)生管理者提供信用查詢、信用預(yù)警(通過設(shè)置閾值,信用評(píng)分低于閾值的學(xué)生將高亮顯示)、信用佐證審核、信用調(diào)查問卷添加等。
高校信用評(píng)分系統(tǒng)的系統(tǒng)架構(gòu)如圖1所示,系統(tǒng)會(huì)隨新數(shù)據(jù)的到來或者設(shè)置的固定時(shí)間節(jié)點(diǎn),實(shí)時(shí)更新信用評(píng)分,保證信用頻分的準(zhǔn)確性和實(shí)時(shí)性。
圖1 系統(tǒng)架構(gòu)圖
數(shù)據(jù)沖突是在多源數(shù)據(jù)融合過程中,不同數(shù)據(jù)源對(duì)同一屬性具有多種不同值的情況。“數(shù)據(jù)融合”最早出現(xiàn)在軍事上,將戰(zhàn)場(chǎng)上的多種傳感器采集到的數(shù)據(jù)處理、融合,得到有用的戰(zhàn)場(chǎng)信息。隨著工業(yè)的飛速發(fā)展,工業(yè)系統(tǒng)的復(fù)雜化和智能化,數(shù)據(jù)融合得到飛速發(fā)展[5]。數(shù)據(jù)融合根據(jù)融合層次分?jǐn)?shù)據(jù)層、特征層和決策層[6]。為實(shí)現(xiàn)大數(shù)據(jù)融合,各領(lǐng)域出現(xiàn)了多種融合方法,但普遍采用3V(海量、高速、類型多樣)特征下的集成方式,其需要的關(guān)鍵技術(shù)包括本體對(duì)齊技術(shù)、實(shí)體鏈接技術(shù)、沖突解決和關(guān)系推演等[7][8]。在高校信用數(shù)據(jù)融合過程中主要問題就是沖突解決。
在現(xiàn)有的沖突解決研究中,傳統(tǒng)方法有基于貝葉斯模型、D-S證據(jù)理論和模糊集理論,近幾年提出了基于圖模型的方法[9]。雖然這些方法都在一定程度上增加了知識(shí)的確定性,減少了錯(cuò)誤知識(shí),提升了知識(shí)的置信度和可靠性,但很多數(shù)據(jù)或知識(shí)是隨時(shí)間變化而變化,由于更新時(shí)間不一致、人為因素或者非人為因素,從不同的部門獲取到的數(shù)據(jù)可能存在沖突和不一致的情況,上一個(gè)時(shí)間段正確的數(shù)據(jù),下一個(gè)時(shí)刻就可能變成錯(cuò)誤的[10]。例如在高校學(xué)生信用數(shù)據(jù)中,學(xué)生S從專業(yè)a轉(zhuǎn)到專業(yè)b,教務(wù)處系統(tǒng)的信息已更新學(xué)生S的專業(yè)為b,但學(xué)工等其他系統(tǒng)學(xué)生S的專業(yè)信息仍然為a?,F(xiàn)有的知識(shí)沖突解決方法缺乏對(duì)時(shí)間維度的考慮,無法適應(yīng)隨時(shí)間動(dòng)態(tài)變化的知識(shí)沖突問題。因此提出一種添加了時(shí)間信任函數(shù)mt()的D-S證據(jù)模型。
D-S證據(jù)理論的基本原理:
設(shè)Θ是一個(gè)識(shí)別框架,基本概率分配:Basic Probability Assignment,簡稱BPA。在識(shí)別框架Θ上的BPA是一個(gè)2Θ→[0,1]的函數(shù)m,稱為mass函數(shù)。并且滿足:
其中,使得m(A)>0的A稱為焦元(Focal elements)。信任函數(shù)Bel(A)定義為:
故Bel(A)為A的信任程度,Pl(A)表示對(duì)A的非假的信任度[9],對(duì)于? A ?Θ,識(shí)別框架Θ上的有限個(gè)mass函數(shù)m1, m2, ..., mn的Dempster合成規(guī)則為:
其中K為歸一化常數(shù):
令tA為焦元A在一個(gè)數(shù)據(jù)源當(dāng)前最近一次的更新時(shí)間節(jié)點(diǎn),由于不同的數(shù)據(jù)源可能產(chǎn)生多個(gè)tA,選取其中離當(dāng)前時(shí)間最近的tA1作為TA2,令時(shí)間信任函數(shù)mt()滿足,當(dāng)TA1≥TA2:
故改進(jìn)后的合成規(guī)則為:
其中Kt仍然為歸一化常數(shù):
其實(shí)合成規(guī)則的本質(zhì)并沒有變化,修改后的合成規(guī)則相當(dāng)于添加了一個(gè)時(shí)間數(shù)據(jù)源,把時(shí)間這一因素加入到合成規(guī)則中,以適應(yīng)隨時(shí)間變化而變化的數(shù)據(jù)。以學(xué)生S轉(zhuǎn)專業(yè)為例,如表1所示,其中Belt()為添加了時(shí)間信任函數(shù)的信任度。
表1 證據(jù)結(jié)果
由表1 可知兩次得到的結(jié)果完全相反,傳統(tǒng)DS推斷出來學(xué)生S專業(yè)為a,添加時(shí)間因素的DS推斷出學(xué)生S的專業(yè)為b,故增加時(shí)間信任函數(shù)mt()后,提升了對(duì)隨時(shí)間變化的數(shù)據(jù)融合的準(zhǔn)確率。
近兩年信用評(píng)分的研究熱點(diǎn)是針對(duì)信用評(píng)分原始數(shù)據(jù)的類別不平衡問題,即由于前期的篩選導(dǎo)致“好”客戶的數(shù)量多于“壞”客戶的數(shù)量,收集到的信用數(shù)據(jù)中“好”客戶和“壞”客戶分布就與原始數(shù)據(jù)空間分布不一致。陳啟偉[2]等人提出從“好”客戶(大類)中隨機(jī)采樣多份與全部“壞”客戶(小類)等量的樣本,分別與全部小類構(gòu)成訓(xùn)練子集,然后用提升樹模型訓(xùn)練,再把不同的數(shù)據(jù)集產(chǎn)生結(jié)果的均值作為最終結(jié)果。邵良杉[12]等人提出一種改進(jìn)過采樣算法解決類別不平衡問題。然而高校信用數(shù)據(jù)其不存在收集到的數(shù)據(jù)類別不平衡問題,因?yàn)槟苁占剿袑W(xué)生的信用原始數(shù)據(jù),所以這些模型具有的參考價(jià)值并不大。
1.模型選擇
雖然在個(gè)人貸款方面的信用評(píng)估算法模型已經(jīng)很多,然而針對(duì)大學(xué)生這一特殊群體的評(píng)價(jià)模型寥寥無幾。經(jīng)調(diào)研發(fā)現(xiàn),信用評(píng)分模型頂層都是按比例分配不同權(quán)重到受評(píng)人的各個(gè)方面,以收集到芝麻信用、卡友、FICO(美國個(gè)人消費(fèi)信用評(píng)估公司)的信用評(píng)分占比為例,如表2所示。
參考上面三種評(píng)分比例,以及信用也是動(dòng)態(tài)變化和高校學(xué)生學(xué)期學(xué)年等特性,提出層次分析模型+“最近最有效”[4]原則的綜合評(píng)價(jià)方法。
2.層次分析模型
表2 信用評(píng)分結(jié)構(gòu)
圖2 評(píng)分維度及影響因素
層次分析法(The analytic hierarchy process)簡稱AHP,是上世紀(jì)70年代由美國運(yùn)籌學(xué)家托馬斯·塞蒂(T.L.satty)正式提出。它是一種定性和定量相結(jié)合的、系統(tǒng)化、層次化的分析方法[13]。根據(jù)遞階層次結(jié)構(gòu)定義,本文建立了一種高校學(xué)生信用評(píng)分模型為3層:最高層目標(biāo)層O,中間層是維度層D(含五個(gè)維度,分別為信用歷史、行為偏好、學(xué)習(xí)狀況、身份特征、社交信息),最下層是影響因素F(含26種影響因素)。圖2 是信用評(píng)分的五個(gè)維度,以及其下層影響因素。
令學(xué)生當(dāng)前學(xué)年信用評(píng)分為T,行為偏好T1、社交信息T2、學(xué)習(xí)狀況T3、身份特征T4、信用歷史T5。綜合芝麻信用、卡友、FICO的信用評(píng)分占比,以及高校學(xué)生特點(diǎn),五個(gè)維度的占比如下:
評(píng)分過程主要分3個(gè)步驟:(1)對(duì)每一個(gè)維度的所有影響因素的重要性兩兩比較,構(gòu)造兩兩比較判別矩陣;(2)計(jì)算被比較的因素在對(duì)于該維度的相對(duì)權(quán)重;(3)對(duì)矩陣進(jìn)行一致性證明,如果不符合,則重新構(gòu)造判別矩陣[13]。最終根據(jù)每個(gè)影響因素的相對(duì)權(quán)重和每個(gè)維度的權(quán)重,計(jì)算出學(xué)生當(dāng)前學(xué)年的信用評(píng)分。
3.最近最有效原則
“最近最有效”是指在信用評(píng)價(jià)中,不能完全忽略一個(gè)人的過去,也不能將其過去表現(xiàn)與現(xiàn)在表現(xiàn)等同視之[14],故當(dāng)前學(xué)年信用評(píng)分所占權(quán)重應(yīng)該更大。令i為學(xué)生的年級(jí),為學(xué)生第i學(xué)年的信用評(píng)分(若不滿一學(xué)年,仍然看做一學(xué)年),學(xué)生信用最終評(píng)為為S。當(dāng)i=1時(shí),即大學(xué)學(xué)生S=N1,當(dāng)i>1時(shí):
當(dāng)前學(xué)年的評(píng)分占總評(píng)分的60%,前一年的總評(píng)分占40%。這樣既重視學(xué)生當(dāng)前信用狀況,也考慮了學(xué)生以前的信用情況,實(shí)現(xiàn)更全面的評(píng)估學(xué)生的信用狀況。
由于收集到的數(shù)據(jù)都是未標(biāo)注數(shù)據(jù),且評(píng)分系統(tǒng)才開始運(yùn)行,也無法通過時(shí)間檢驗(yàn),得到評(píng)分模型準(zhǔn)確率[15]。為了檢驗(yàn)信用評(píng)分模型的準(zhǔn)確率,將有違紀(jì)作弊、未按時(shí)繳納學(xué)費(fèi)、貸款等嚴(yán)重失信記錄的同學(xué)標(biāo)記為類別a;將未違紀(jì)且獲得學(xué)業(yè)獎(jiǎng)學(xué)金、國家勵(lì)志獎(jiǎng)學(xué)金等較權(quán)威的正面評(píng)價(jià)記錄標(biāo)記為類別c,按時(shí)繳納學(xué)費(fèi)、助學(xué)貸款、按時(shí)歸還圖書等守信記錄超過30條的也標(biāo)記為類別c。其余同學(xué)則標(biāo)記為類別b。由統(tǒng)計(jì)結(jié)果發(fā)現(xiàn),在收集到的3萬多學(xué)生中,屬于類別a的只有276例,屬于類別c的共有1438例,其余均為類別b。本系統(tǒng)的信用評(píng)分所屬區(qū)間如表3所示。
表3 信用評(píng)分區(qū)間
信用評(píng)分小于550的為類別a,評(píng)分屬于550到699區(qū)間的為類別b,評(píng)分大于或等于700的為類別c。通過標(biāo)記類別與評(píng)分模型得到的類別比較結(jié)果如表4所示。
表4 評(píng)估結(jié)果
結(jié)果表明評(píng)分模型對(duì)類別a效果最差,其次是類別b。經(jīng)過查看原始數(shù)據(jù)發(fā)現(xiàn),在類別a錯(cuò)誤判斷的63個(gè)人中,多數(shù)為是大三大四學(xué)生,其中多數(shù)人是在大一的時(shí)候未及時(shí)繳納學(xué)費(fèi)等原因,導(dǎo)致被標(biāo)記為類別a,由于模型最近最有效原則,導(dǎo)致其評(píng)分并不屬于a類。在b類判斷錯(cuò)誤的人群中,大部分是誤判斷為類別c,雖然判斷錯(cuò)誤,主要原因是未獲得學(xué)業(yè)獎(jiǎng)、國家勵(lì)志獎(jiǎng)等并不能判定其信用不是極好的,也可能是30條守信記錄設(shè)置太高,學(xué)費(fèi)和助學(xué)貸款正常情況下一年才一至兩條記錄,基本要到圖書館按時(shí)歸還圖書20多次,有一部分同學(xué)喜歡在自習(xí)室和寢室學(xué)習(xí),并不喜歡在圖書館學(xué)習(xí)和借書。綜上,由于標(biāo)記的準(zhǔn)則上存在一定的問題,按實(shí)際情況準(zhǔn)確率應(yīng)該高于87.51%。
本文研究并實(shí)現(xiàn)了高校學(xué)生信用評(píng)分系統(tǒng),解決了高校學(xué)生信用評(píng)分系統(tǒng)基本空白的現(xiàn)狀。針對(duì)高校信用數(shù)據(jù)融合中,數(shù)據(jù)沖突問題提出了增加時(shí)間信任函數(shù)的DS證據(jù)理論,根據(jù)高校學(xué)生這特定群體提出了“最近最有效原則”+層次分析的評(píng)分模型。為大學(xué)生的誠信教育、助學(xué)貸款和獎(jiǎng)學(xué)金評(píng)定等提供了重要的參考價(jià)值。