宋威
(1. 渭南師范學院 穩(wěn)定與安全辦公室; 2. 長安大學 公共管理與法學院, 渭南 714099)
隨著高等教育快速有序地發(fā)展,高校貧困生問題逐漸凸顯成為影響我國高等教育發(fā)展的重要影響因素。如何做好高校貧困生鑒定工作和貧困生評定等級工作,合理科學客觀地界定貧困生一直是高校貧困生管理工作面臨的重點問題和難點問題[1-3]。目前各大高校貧困生判定標準不一,并且缺乏科學可行和統(tǒng)一的判定體系,主要憑經驗認定或者生源地提供貧困證明以及綜合考慮貧困生在校情況的方式進行貧困生認定[4-5],判定成本較高。目前大部分研究人員均采用定性分析的方法進行高校貧困生判定。針對高校貧困生判定存在的上述問題,將貧困生判定轉化為數據挖掘中的分類問題,提出一種基于粒子群算法(particle swarm optimization, PSO)優(yōu)化貝葉斯網絡(Bayesian network,BN)的高校貧困生分類模型。
PSO算法是受鳥群覓食行為啟發(fā)的研究,其算法更新式如[6-8]式(1)、式(2)。
(1)
(2)
對于一組變量X={X1,X2,,Xn},對每個變量賦予一個特定值{x1,x2,,xn},parents(xi)為xi的父節(jié)點集合,則其聯(lián)合概率密度為[9]式(3)。
(3)
一個典型的貝葉斯網絡,其中每個節(jié)點為相應的變量[10],如圖1所示。
圖1 貝葉斯網絡模型
假設h的先驗概率P(h)和訓練數據D的先驗概率P(D),假設h成立時D的條件概率P(D|h),那么給定D時,假設h的后驗概率為[11-12]式(4)。
(4)
由公式(4)可知,若要實現(xiàn)貝葉斯網絡推理,前提條件是要給出許多先驗概率。
結合國內外相關文獻資料和國內高校貧困生分類管理的實際情況[13],綜合考慮學生家庭收入和支出情況,高校貧困生分類評價指標如表1所示。
表1 高校貧困生分類評價指標
由于貝葉斯網絡需要優(yōu)化的參數為權值w和閥值b,運用PSO算法對貝葉斯網絡參數進行優(yōu)化選擇,選擇分類準確率T為目標函數為式(5)。
(5)
其中,Total為樣本總數量;right為正確分類的樣本數量。
基于PSO-BN的貧困生分類算法流程如下:
Step1:歸一化貧困生分類評價指標數據;
Step2:PSO算法參數初始化:最大迭代次數Tmax,種群大小N和學習因子c1、c2;
Step3:將構建出的訓練樣本輸入貝葉斯網絡,運用公式(5)計算每個粒子的適應度函數值,尋找每個粒子個體和全局最優(yōu)粒子的位置和最優(yōu)值;
Step4:粒子速度和位置的更新;
Step5:計算評估適應度大小并更新粒子個體的位置和速度;
Step6:若當前迭代次數t>Tmax,保存最優(yōu)解;反之t=t+1,轉到Step4;
Step7:根據粒子個體的最優(yōu)位置所對應的最優(yōu)權值w和閥值b,實現(xiàn)高校貧困生分類判定。
為避免貝葉斯網絡處理不同數量級原始數據出現(xiàn)計算不平衡,同時降低算法計算復雜度,提高貝葉斯網絡的性能,歸一化公式為[14-15]式(6)。
(6)
其中,x′為歸一化之后的數據;x,xmax,xmin分別原始數據、原始數據中的最大值和最小值;a、b為歸一化之后的最小值和最大值。本文取a=-1,b=1。
將收集到的477組數據分為訓練樣本和測試樣本,其中382組數據作為訓練樣本,訓練樣本主要用于建立PSO-BN貧困生分類模型,剩下95組作為測試樣本主要驗證PSO-BN貧困生分類模型的正確性;貧困生主要分為三類,分別為特困生、一般貧困生和非貧困生,并將分別賦予類別標簽1、2和3。為說明PSO-BN的效果,將其與BN、支持向量機(support vector machine,SVM)和前饋神經網絡(Back Propagation,BP)進行對比,對比結果如圖2、圖3、圖4、圖5和表2~表4所示。
表2 貧困生分類結果對比
表3 不同貧困生分類準確率
(a) 訓練樣本
(b) 測試樣本
圖2 PSO-BN分類結果
(a) 訓練樣本
(b) 測試樣本
(a) 訓練樣本
(b) 測試樣本
圖2-圖5中,“*”為貧困生的預測類別,“○”為貧困生的實際類別,通過對比展示可以直觀地顯示貧困生判定結果和貧困生實際類別。當“*”和“○”重合時,貧困生的預測類別和實際類別一致,說明貧困生類別判定正確;當“*”和“○”不重合時,貧困生的預測類別和實際類別不一致,此時貧困生類別判定錯誤。由圖2-圖5和表2、表3和表4不同方法的貧困生分類結果可知,與 BN、SVM和BP相比,PSO-BN可以有效提高高校貧困生分類的準確性。
為了定量判定高校貧困生類別,將貧困生判定轉化為數據挖掘中的分類問題,針對BN分類結果受其模型參數的影響,提出一種基于PSO-BN的貧困生分類模型。研究結果表明,與 BN、SVM和BP 相比,PSO-BN可以有效提高高校貧困生分類的準確性,實現(xiàn)貧困生判定由定性分析轉向定量分析,提高了模型的應用價值。
(a) 訓練樣本
(b) 測試樣本
圖5 BP分類結果
表4 不同貧困生分類誤判率