張璽 咼森林 孫宗良
摘要:目前,各大高校都建立了較為全面的貧困大學(xué)生資助體系。但是在確定受助人員時存在很大的不確定性,沒有具體的貧困指標(biāo)量化,真正貧困的同學(xué)礙于面子,缺乏主動性,非貧困生渾水摸魚等情況導(dǎo)致貧困生認(rèn)定工作依舊是高校資助決策的難題。為了尋求一種客觀,公平,公正的方法,本文采用支持向量機(Support Vector Machine,SVM)對學(xué)生校園一卡通的消費數(shù)據(jù)進行分析,將學(xué)生按貧困與非貧困分類,在高校資助決策工作中給予一定輔助。
關(guān)鍵詞:校園一卡通 支持向量機 貧困生分析 數(shù)據(jù)挖掘
中圖分類號:TP181 文獻標(biāo)識碼:A 文章編號:1007-9416(2016)08-0100-01
我國在高校貧困生資助體系上已經(jīng)相對完善,但是其評定工作由人工進行認(rèn)定,所以在貧困材料的申請上很難甄別真假,外加每年申請貧困助學(xué)金的人數(shù)較多,沒有具體的貧困指標(biāo)進行量化,導(dǎo)致貧困生確定依舊是各大高校資助決策的一個難題。
隨著校園一卡通的使用,其記錄的學(xué)生個人消費信息值得我們深度挖掘。本文以成都理工大學(xué)校園一卡通的消費數(shù)據(jù)為基礎(chǔ),采用SVM對數(shù)據(jù)進行分類,在貧困生的資助決策工作中給予工作人員一定輔助。
1 支持向量機
支持向量機(Support Vector Machine,SVM)是一種二類分類模型,是Corinna Cortes和Vapnik等于1995年首先提出的。其主要思想是建立一個分類超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化。支持向量機的理論基礎(chǔ)是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,考慮的是經(jīng)驗風(fēng)險和置信界之和的最小化。根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折中,以求獲得最好的推廣能力。
2 數(shù)據(jù)提取
校園一卡通數(shù)據(jù)記錄了學(xué)生每天的消費行為,能夠客觀真實反映學(xué)生的貧困情況。根據(jù)對高校學(xué)生資助工作的調(diào)查和了解,本文提出:貧困生使用校園一卡通在校內(nèi)消費的次數(shù)相對較高的假設(shè)。在數(shù)據(jù)提取中,必須滿足所有學(xué)生每月在校內(nèi)消費次數(shù)大于等于45次。
我們在學(xué)校資助中心由人工提取了700名具有代表性的貧困學(xué)生名單,并且提取了貧困學(xué)生近期半年內(nèi)的校園一卡通消費記錄和戶口情況。其遲,我們隨機從全校學(xué)生中選取了300名非貧困學(xué)生,獲取了非貧困生近期半年內(nèi)的校園一卡通消費記錄和戶口情況。
校園一卡通數(shù)據(jù)龐大,因此我們整理并提取了學(xué)生近期半年內(nèi)的消費總次數(shù),消費總金額,人均消費金額,每月消費次數(shù),戶口情況,性別與是否貧困。在SVM實現(xiàn)時,其輸入和輸出必須是數(shù)值型的,所以我們需要對相關(guān)數(shù)據(jù)進行預(yù)處理。戶口分為農(nóng)村戶口和城鎮(zhèn)戶口,在數(shù)據(jù)輸入時,我們用-1表示農(nóng)村戶口,1表示城鎮(zhèn)戶口。性別分為男、女,我們用-0.5代表女生,0.5代表男生。貧困分類為2類,以0代表非貧困,1代表貧困。
經(jīng)過預(yù)處理,數(shù)據(jù)里一共包含1000個樣本,每個樣本含有4個特征值,分別為:消費總次數(shù),消費總金額,戶口情況,性別。每個樣本的類別標(biāo)簽已給出。數(shù)據(jù)分類預(yù)測時,從1000個樣本中隨機選取800個樣本作為訓(xùn)練集,200個樣本作為測試集。
3 模型建立
模型建立首先需要從原始數(shù)據(jù)里把訓(xùn)練集和測試集提取出來,然后對數(shù)據(jù)進行一定的預(yù)處理,接著用訓(xùn)練集對SVM進行訓(xùn)練,再用得到的模型來預(yù)測測試集的分類標(biāo)簽。本案例中的模型是一個4輸入,1輸出的SVM模型。模型整體流程如圖1。
4 實驗及結(jié)果分析
該實驗在matlab下編程進行。在數(shù)據(jù)預(yù)處理時將數(shù)據(jù)歸一化到[0,1]區(qū)間,核函數(shù)采用RBF進行訓(xùn)練,并交叉驗證選擇最佳參數(shù)c,g。最終在測試SVM分類時,準(zhǔn)確率達到77.5%(155/200)。其中SVM的實現(xiàn)采用的是libsvm工具箱(libsvm-mat)。從整個系統(tǒng)的分析來看,本實驗提出的方法高效、快捷、可擴展以及直觀性強。對高校的貧困生認(rèn)定工作將有十分積極的貢獻。
前期選取了學(xué)生近期半年內(nèi)的校園一卡通每月消費次數(shù)和人均消費金額。每月消費次數(shù)用于篩選每月消費次數(shù)大于等于45次的學(xué)生。人均消費金額用于直觀的反映學(xué)生的實際消費水平。其在后續(xù)的決策中也可以給予決策者一定的輔助。
5 結(jié)語
本文結(jié)合成都理工大學(xué)的實際情況,采用SVM進行數(shù)據(jù)分類。在得出SVM模型后,依據(jù)學(xué)生近期半年內(nèi)的消費總次數(shù),消費總金額,戶口情況,性別四項指標(biāo)對學(xué)生進行分類是否貧困,從而在貧困生認(rèn)定工作中給予一定的幫助。
參考文獻
[1]費小丹,董新科,張暉.基于校園一卡通消費數(shù)據(jù)的高校貧困生分析[J].電腦知識與技術(shù),2014(20).
[2]劉文學(xué),劉汝元.基于校園一卡通平臺的數(shù)據(jù)挖掘應(yīng)用分析[J].信息系統(tǒng)工程,2015(5).
[3]沈吉文.高校貧困生資助體系實施現(xiàn)狀的思考[J].揚州大學(xué)學(xué)報,2008(1).