(江蘇科技大學(xué)蘇州理工學(xué)院 江蘇 215600)
高校在智慧校園與高校大數(shù)據(jù)平臺建設(shè)中,沉淀了大量的學(xué)生校園行為數(shù)據(jù),尤其是在校園一卡通普及后,每天高校都產(chǎn)生數(shù)萬條學(xué)生刷卡行為數(shù)據(jù)。而貧困生資助工作一直以來是高校學(xué)生工作的重點之一,實現(xiàn)資助工作科學(xué)化的前提是識別對象精準(zhǔn)化。但是高校在傳統(tǒng)的貧困生認(rèn)定工作中,仍然會出現(xiàn)因?qū)W生材料可信度考證難度大、偽貧困和學(xué)生因心理壓力拒絕申請等情況出現(xiàn),對此給高校貧困生認(rèn)定工作帶來了一定困難。
為了提高貧困生認(rèn)定的準(zhǔn)確率,各高校都在研究使用數(shù)據(jù)挖掘與大數(shù)據(jù)技術(shù)突破貧困生認(rèn)定工作的瓶頸,如使用Apriori 關(guān)聯(lián)規(guī)則算法、貝葉斯分類算法、K-Means 聚類算法、SVM(支持向量機)等算法模型提高貧困生認(rèn)定的精準(zhǔn)率。本文采用神經(jīng)網(wǎng)絡(luò)算法模型實現(xiàn)對貧困生身份的精準(zhǔn)預(yù)測。神經(jīng)網(wǎng)絡(luò)算法有較強的非線性映射能力,適合于求解內(nèi)部機制復(fù)雜的問題,具備自組織自適應(yīng)、非線性映射、高度并行、高泛化等特點,對基于校園一卡通消費數(shù)據(jù)的數(shù)據(jù)挖掘工作有較高的識別預(yù)測的能力,可以輔助高校挖掘潛在的貧困生,提高資助工作精準(zhǔn)性。
BP 網(wǎng)絡(luò),是一種按誤差逆向傳播算法訓(xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,用于函數(shù)逼近、模型識別分類、數(shù)據(jù)壓縮和時間序列預(yù)測等。它是一種有監(jiān)督的學(xué)習(xí)算法,具有很強的自適應(yīng)、自學(xué)習(xí)、非線性映射能力,能較好地解決數(shù)據(jù)少、信息貧、不確定性問題,且不受非線性模型的限制。一個典型的BP 網(wǎng)絡(luò)應(yīng)該包括三層:輸入層、隱含層和輸出層。各層之間全連接,同層之間無連接。隱含層可以有很多層,對于一般的神經(jīng)網(wǎng)絡(luò)而言,單層的隱含層已經(jīng)足夠了。上圖是一個典型的BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。
本次模型數(shù)據(jù)依托于學(xué)生基本信息和學(xué)校一卡通系統(tǒng)中的數(shù)據(jù)進行分析,挖掘?qū)W生消費習(xí)慣與貧困生之間的關(guān)系。高校數(shù)據(jù)中,雖然有很多看似有用的數(shù)據(jù),例如學(xué)生填寫的家庭經(jīng)濟情況信息,包括家庭人口、工作、收入和其他證明材料(生病證明、受災(zāi)證明、貧困證明等),但都存在一定主觀性,學(xué)校無法準(zhǔn)確判斷其真實有效性,所以本次采用數(shù)據(jù)中,基本信息只是用學(xué)生最基本信息,如生源地、民族、考生類別等信息。
在一卡通消費數(shù)據(jù)中,本文選取2018 年9 月到12 月份18 級某學(xué)院的學(xué)生消費數(shù)據(jù),共計22W 條。數(shù)據(jù)樣本中,因?qū)W校水費電費采取宿舍內(nèi)部公攤形式收費,容易使貧困生個人消費數(shù)據(jù)失準(zhǔn),所以從樣本集中刪除該類數(shù)據(jù),同樣刪除的有季節(jié)性消費的熱水、淋浴類型數(shù)據(jù)。此時一卡通數(shù)據(jù)共計186822 條。
由于挖掘模型是針對學(xué)生個體,所以在數(shù)據(jù)與處理階段,將18.6W 條數(shù)據(jù),根據(jù)學(xué)生個人進行統(tǒng)計,統(tǒng)計維度包括學(xué)生每月消費次數(shù),每月消費金額,月早午晚餐次數(shù)和金額、食堂消費,超市消費,其他類型消費等。
圖1 為學(xué)生個人數(shù)據(jù),由于分析軟件對中文不友好,所以將學(xué)生的政治面貌、性別、生源等信息,替換為數(shù)字標(biāo)識。
圖1 學(xué)生數(shù)據(jù)
本文使用的是BP神經(jīng)網(wǎng)絡(luò)模型,是從有貧困生身份字段(is_poor)的訓(xùn)練集中,挖掘?qū)W習(xí)數(shù)據(jù)內(nèi)部規(guī)則的算法,然后對測試數(shù)據(jù)進行測試預(yù)測出貧困生身份。本文實驗基于具有圖形用戶界面的互動原型特點的RapidMiner 平臺,此平臺為開源平臺,除了提供圖形交互外,還提供支持代碼鑲嵌,開放接口等功能。
本次模型神經(jīng)網(wǎng)絡(luò)建立了三層結(jié)構(gòu),直觀展示了輸入輸出過程,輸入層為學(xué)生個人數(shù)據(jù)的58 個特征,每個特征對應(yīng)一個神經(jīng)元,所以輸入層節(jié)點為58 個。此次挖掘是針對學(xué)生是否為貧困生身份進行的,所以輸出層神經(jīng)元個數(shù)為2 個。中間層為隱藏層,因為本次挖掘?qū)W習(xí)使用數(shù)據(jù)量較大,考慮到效率問題,僅使用了一個隱藏層。根據(jù)公式H=(M+N)1/2+α,M 為58,N 為2,α∈[1,10],結(jié)合實際訓(xùn)練結(jié)果,隱藏層為16 個神經(jīng)元時結(jié)果最好。AdaBoost 的iterations設(shè)置為10,training cycles 設(shè)置為200,error epsilon 為10E-4。
模型完成訓(xùn)練后,將測試數(shù)據(jù)導(dǎo)入模型中,記錄模型數(shù)據(jù)層節(jié)點輸出的值,將預(yù)測值predict(is_poor)與測試集對應(yīng)的實際貧困生身份對比分析。測試結(jié)果如表1 所示。本次測試共355 條數(shù)據(jù),其中正確預(yù)測記錄為293 條,正確率為82.54%。本模型采用學(xué)校真實數(shù)據(jù),對學(xué)校學(xué)生貧困身份進行識別,并與相關(guān)部門提供的學(xué)生貧困生數(shù)據(jù)進行對比。
表1 預(yù)測結(jié)果
本次數(shù)據(jù)挖掘,采取校園一卡通22W 條數(shù)據(jù),和355 條學(xué)生個人信息數(shù)據(jù),通過數(shù)據(jù)清晰和預(yù)處理,從22W 條數(shù)據(jù)中提取近百個特征點,通過傳統(tǒng)和主成分分析等方法,保留了58 個特征點,將數(shù)據(jù)引入到神經(jīng)網(wǎng)絡(luò)模型中,得到準(zhǔn)確率為82.54%的模型,符合對該模型的預(yù)期。
將大數(shù)據(jù)技術(shù)和神經(jīng)網(wǎng)絡(luò)挖掘方法應(yīng)用到高校的貧困生認(rèn)定工作中,旨在甄別貧困生身份,通過分析學(xué)生的基本信息和校園一卡通的業(yè)務(wù)數(shù)據(jù),保證模型的客觀性。在經(jīng)過大量數(shù)據(jù)訓(xùn)練和驗證后,本模型可以作為貧困生身份認(rèn)定的參考依據(jù),輔助學(xué)校相關(guān)部門,在貧困生認(rèn)定工作時提供數(shù)據(jù)和決策支持。
在數(shù)據(jù)預(yù)處理和特征選擇時,還可以通過其他嘗試,提高模型的準(zhǔn)確率。例如根據(jù)一卡通數(shù)據(jù)消費特點,增加或刪除特征點;根據(jù)不同時間節(jié)點,將學(xué)生數(shù)據(jù)分為周末消費和非周末消費;引入學(xué)業(yè)成績數(shù)據(jù)和其他非一卡通數(shù)據(jù),提取特征點,加入模型。