鄭建華,朱 蓉,劉雙印,賀超波
(1.仲愷農(nóng)業(yè)工程學(xué)院 信息科學(xué)與技術(shù)學(xué)院,廣州 510225;2.廣東省高校智慧農(nóng)業(yè)工程技術(shù)研究中心,廣州 510225)
高等教育肩負(fù)國家人才培養(yǎng)重任。我國各類高等教育2018年在學(xué)總規(guī)模達(dá)到3 833萬人[1],其中貧困生約占20%,保證每個(gè)大學(xué)生不因貧困而輟學(xué)是實(shí)現(xiàn)人才興國的重要前提。習(xí)近平總書記在“五個(gè)一批”的脫貧攻堅(jiān)計(jì)劃中特別強(qiáng)調(diào)“做好高校貧困大學(xué)生生活困難補(bǔ)助”[2],但作為開展資助工作前提的貧困認(rèn)定卻始終不盡如人意。大學(xué)生貧困認(rèn)定需要經(jīng)過個(gè)人申請(qǐng)、班級(jí)審批、院校認(rèn)定等步驟,整個(gè)過程需要學(xué)生提交相關(guān)證明材料。目前的貧困認(rèn)定過程存在以下問題:①部分真正貧困的學(xué)生因?yàn)樽员安辉敢獍炎约译[私暴露,導(dǎo)致真貧困學(xué)生無法享受資助;②地方基層配合學(xué)生提供造假材料,導(dǎo)致偽貧困學(xué)生享受資助。由于以上現(xiàn)象的存在,廣大學(xué)生對(duì)于貧困認(rèn)定結(jié)果認(rèn)可度不高[3]。2013年,習(xí)總書記進(jìn)一步提出“精準(zhǔn)扶貧”要求[4]:確保扶貧資源真正用在扶貧對(duì)象身上、真正用在貧困地區(qū)。因此,在精準(zhǔn)扶貧視閾下,精準(zhǔn)識(shí)別貧困大學(xué)生是幫扶大學(xué)生的首要關(guān)鍵。
判斷貧困生涉及很多因素,目前大部分貧困認(rèn)定研究主要圍繞政策、理論、制度、實(shí)施方案等展開,在精準(zhǔn)量化貧困認(rèn)定方面的研究成果不多。大部分研究者綜合學(xué)生的消費(fèi)數(shù)據(jù)、學(xué)生家庭經(jīng)濟(jì)收入、學(xué)生家庭情況、學(xué)生助學(xué)貸款等多方面信息,運(yùn)用決策樹、模糊層次分析法、HMM進(jìn)行分析[5-7]。以上方法雖取得了一定效果,但往往很難收集學(xué)生家庭收入、家庭人均居住面積、學(xué)生高檔消費(fèi)品等精確數(shù)據(jù),而學(xué)生家庭是否屬于低保、家庭成員病殘健康情況又涉及隱私。同樣,在分析方法上,貧困認(rèn)定涉及因素眾多,目前仍未有一種方法能較好地對(duì)貧困學(xué)生實(shí)現(xiàn)精準(zhǔn)識(shí)別。
極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)是Huang等[8]提出的一種高效單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)學(xué)習(xí)算法,具有訓(xùn)練速度快、泛化能力強(qiáng)的特點(diǎn),目前已廣泛應(yīng)用于社交網(wǎng)絡(luò)用戶行為預(yù)測[9]、醫(yī) 療 診 斷[10]、電 力 預(yù) 測[11-12]、故 障 診斷[13]、室內(nèi)定位[14]等領(lǐng)域。為此,在不攝取學(xué)生隱私信息和保障數(shù)據(jù)客觀性的前提下,以學(xué)生一卡通消費(fèi)數(shù)據(jù)、學(xué)生家庭住址、家庭學(xué)生數(shù)量這些客觀數(shù)據(jù)為基礎(chǔ),采用特征分桶、交叉算法構(gòu)建貧困認(rèn)定模型特征,并針對(duì)貧困生數(shù)據(jù)集不平衡的特點(diǎn),構(gòu)建融合輸入屬性、數(shù)據(jù)樣本雙重?cái)_動(dòng)和核ELM的DP_KELM高校大學(xué)貧困認(rèn)定模型,以期為校園精準(zhǔn)扶貧提供輔助決策依據(jù)。
數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,選擇合適的特征是構(gòu)建高校大學(xué)生貧困認(rèn)定模型的關(guān)鍵。美國貧困大學(xué)生資助系統(tǒng)計(jì)算公式為:資助需求=入學(xué)成本-預(yù)期家庭貢獻(xiàn)(需要考慮家庭年收入)。胡苗苗等[15]評(píng)價(jià)方法中考慮了家庭經(jīng)濟(jì)收入、家庭人員組成以及學(xué)生在校學(xué)習(xí)生活平均消費(fèi)情況。雖然年家庭收入可以真實(shí)反映家庭貧困情況,但在我國尚未建立完善的收入管理系統(tǒng)時(shí),這是一個(gè)動(dòng)態(tài)且主觀的數(shù)據(jù),學(xué)生可以任意虛構(gòu)。針對(duì)這種情況,田志磊等[16]考慮了非收入變量,如居住地與公共服務(wù)的可得性、住房條件等屬性特征。宋美喆[7]則基于學(xué)生是否單親、家庭致災(zāi)情況、家庭成員健康狀況、家庭成員工作狀況等信息,采用模糊綜合評(píng)價(jià)方法對(duì)貧困大學(xué)生進(jìn)行認(rèn)定。顯然,以上信息是影響家庭貧困與否判斷的重要因素,但非收入數(shù)據(jù)很難量化。對(duì)此,廣東省教育廳印發(fā)的《廣東省家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定工作指標(biāo)解釋》明確了各種情況的量化分?jǐn)?shù),但實(shí)際上這樣的信息涉及隱私,且自卑的學(xué)生通常不愿意提供真實(shí)數(shù)據(jù)。綜上,篩選出能夠反映學(xué)生家庭情況的客觀、可量化特征是實(shí)現(xiàn)高校大學(xué)生貧困識(shí)別的關(guān)鍵。
近些年,隨著高校一卡通系統(tǒng)的建立,通過一卡通可以采集到學(xué)生在學(xué)校就餐的次數(shù)、消費(fèi)均值、消費(fèi)總次數(shù)等數(shù)據(jù)。這些反映學(xué)生消費(fèi)能力的信息可以成為反映學(xué)生家庭收入情況的指標(biāo)。鄭州大學(xué)、中國科學(xué)技術(shù)大學(xué)、電子科技大學(xué)、南京理工大學(xué)等高?;趯W(xué)生消費(fèi)數(shù)據(jù)自動(dòng)生成貧困家庭學(xué)生建議名單,并進(jìn)行資助[17]。本文中以一卡通數(shù)據(jù)為基礎(chǔ),采用統(tǒng)計(jì)方法,篩選了6個(gè)消費(fèi)特征:總消費(fèi)次數(shù)(TotalTimes)、消費(fèi)總量(TotalAmount)、次消費(fèi)均值(TranMean)、次消費(fèi)均值中位數(shù)(TranMeanMedian)、月消費(fèi)均值(TranMonth-Mean)、次最大消費(fèi)金額(MaxAmoun)。
然而,僅僅依靠一卡通數(shù)據(jù)并不能精準(zhǔn)識(shí)別貧困生。王澤原等[5]利用隨機(jī)森林算法對(duì)一卡通消費(fèi)數(shù)據(jù)進(jìn)行處理,識(shí)別平均準(zhǔn)確率為79%。實(shí)際上,一個(gè)學(xué)生的消費(fèi)情況不僅與貧困情況有關(guān),還與性別有關(guān),比如女生次消費(fèi)均值可能低于男生。另外,學(xué)生貧困情況還可能與學(xué)生生源地有關(guān)。為此,篩選了學(xué)生性別(Sex)、學(xué)生居住地(Address)2個(gè)特征,并采用家庭學(xué)生數(shù)量(Stu-Num)反映一個(gè)家庭支出壓力,同時(shí)構(gòu)建一個(gè)表示學(xué)生的消費(fèi)能力的特征PerStu=TranMean/Stu-Num。顯然,這4個(gè)特征可以反映學(xué)生的個(gè)體特征和家庭背景,且這4個(gè)特征是客觀、穩(wěn)定特征,數(shù)據(jù)容易獲取,且不會(huì)涉及學(xué)生隱私。至此,共篩選出10個(gè)貧困認(rèn)定模型的特征。
1.2.1 特征預(yù)處理
在篩選出的貧困認(rèn)定模型的10個(gè)特征中,Address是一個(gè)離散變量,本文中采用One-Hot編碼對(duì)Address進(jìn)行特征預(yù)處理,使得每個(gè)城市成為1個(gè)特征。例如,目前廣東省有21個(gè)地級(jí)市、20個(gè)縣級(jí)市,將Address數(shù)據(jù)預(yù)處理后形成了City_1,City_2,…,City_41共41個(gè)特征,不過現(xiàn)實(shí)中將根據(jù)實(shí)際數(shù)據(jù)集的情況決定有多少個(gè)City特征。
1.2.2 特征分箱與特征交叉
在選定的10個(gè)特征中,涉及消費(fèi)信息的特征都是連續(xù)變量特征,有時(shí)特征數(shù)值稍有變動(dòng)就會(huì)對(duì)模型的結(jié)果造成很大波動(dòng)。為提高模型的穩(wěn)定性、避免異常值的干擾,對(duì)TotalTimes、TranMean進(jìn)行分箱處理,將每個(gè)特征分成6個(gè)均衡的區(qū)間。
機(jī)器學(xué)習(xí)算法對(duì)非線性規(guī)律的擬合能力往往決定了算法能達(dá)到的精度。為提高算法對(duì)特征非線性規(guī)律的擬合能力,采用特征交叉算法,將2個(gè)或多個(gè)輸入特征相組合來表達(dá)特征的非線性特征規(guī)律。比如,同樣每次平均消費(fèi)8.5元,對(duì)于判斷男生和女生是否為貧困生的結(jié)果可能是不一樣的,因此可以構(gòu)建“男生-8.5”,“女生-8.5”兩個(gè)不同特征。本文中主要將Sex與分箱后的Tran-Mean,Sex與分箱后的TotalTimes分別進(jìn)行特征交叉,最終形成24個(gè)新特征,具體特征交叉算法描述如表1所示。
表1 特征交叉算法
最后,刪除總消費(fèi)次數(shù)(TotalTimes)、消費(fèi)均值(TranMean)、家庭住址(Address)3個(gè)已經(jīng)處理后的特征。
極限學(xué)習(xí)機(jī)(extreme learning machine ELM)是一種高效的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,其學(xué)習(xí)過程無需對(duì)網(wǎng)絡(luò)權(quán)重和偏置進(jìn)行迭代調(diào)整。該算法具有訓(xùn)練速度快、泛化能力強(qiáng)的特點(diǎn),同時(shí)具有SLFN的插值能力、通用逼近能力和分類能力。
給定有N個(gè)樣本的訓(xùn)練數(shù)據(jù)集{xi,yi|xi∈RD,yi∈Rm,i=1,2,3,…,N},其中xi表示第i個(gè)含有D個(gè)特征的數(shù)據(jù),具體表示為xi=[xi1,xi1,…,xiD]T。yi表示第i個(gè)數(shù)據(jù)對(duì)應(yīng)的標(biāo)記,具體表示為yi=[yi1,yi1,…,yim]T,式中m表示對(duì)應(yīng)m個(gè)輸出變量。則對(duì)于具有L個(gè)隱層節(jié)點(diǎn)、激活函數(shù)為g的極限學(xué)習(xí)機(jī)ELM模型可以描述為:
式中:wj=[wj1,wj2,…,wjD]表示第j個(gè)隱層節(jié)點(diǎn)與輸入節(jié)點(diǎn)間的權(quán)值;bj表示第j個(gè)隱層神經(jīng)元的偏置補(bǔ)償;βj=[βj1,βj2,…,βjm]是第j個(gè)隱層單元的輸出權(quán)值。
若設(shè)隱層輸出用矩陣H表示:
則極限學(xué)習(xí)機(jī)可以表示為:
其中
根據(jù)文獻(xiàn)證明[8],當(dāng)激活函數(shù)g無限可微時(shí),對(duì)于任意賦值wi∈Rn和bi∈R的情況,一定存在1個(gè)含有K(K≤D)個(gè)隱層神經(jīng)元的SLFN使得。因此,隱層與輸出層的權(quán)值β可以通過求解以下最優(yōu)化問題得到:
當(dāng)wi∈Rn和bi∈R已知,則H可以確定,H+T,故ELM分類器的輸出函數(shù)可以表示為:
但在實(shí)際應(yīng)用中,常會(huì)出現(xiàn)數(shù)據(jù)在原始空間是非線性可分的情況,因此將核方法引入ELM模型,通過核函數(shù)將輸入空間低維的數(shù)據(jù)映射到高維,使得原空間非線性可分問題轉(zhuǎn)為高維線性可分問題。故在ELM中引入核函數(shù)K(xi,xj),并構(gòu)建核矩陣[18]ΩELM:
顯然,ΩELM僅與輸入數(shù)據(jù)有關(guān),而通過核函數(shù)K(xi,xj)實(shí)現(xiàn)了高維空間的內(nèi)積h(xi)·h(xj)操作。
這樣,KELM(kernel ELM)模型的輸出可以表示為:
大學(xué)生中貧困生的占比約為20%,這是典型的不平衡數(shù)據(jù)。由于傳統(tǒng)的分類算法傾向多數(shù)類,導(dǎo)致這類算法并不適用不平衡數(shù)據(jù)場景。常見的2種處理不平衡數(shù)據(jù)的策略基于數(shù)據(jù)預(yù)處理和基于算法改進(jìn)[19]。數(shù)據(jù)預(yù)處理又包括重采樣和特征處理技術(shù),基于算法改進(jìn)主要包括代價(jià)敏感方法和集成學(xué)習(xí)方法。重采樣技術(shù)包括上采樣算法如SMOTE、ADASYN等,下采樣算法則有隨機(jī)下采樣算法(RUS)。重采樣技術(shù)雖然簡單實(shí)用,但下采樣會(huì)丟失多數(shù)類樣本特征信息,而上采樣又容易引入誤差,使用受到限制。集成學(xué)習(xí)通過構(gòu)建并結(jié)合多個(gè)基學(xué)習(xí)器完成學(xué)習(xí)任務(wù),通??梢垣@得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能[20]。Easy Ensemble Classifier算法[21]是一種有效的不平衡數(shù)據(jù)分類方法,該算法融合了重采樣技術(shù)與集成學(xué)習(xí)的優(yōu)點(diǎn),將多數(shù)類樣本隨機(jī)分成多個(gè)子集,每個(gè)子集分別與少數(shù)類合并,得到多個(gè)新的訓(xùn)練子集,并利用每個(gè)訓(xùn)練子集訓(xùn)練1個(gè)AdaBoost基分類器,最后集成所有基分類器,得到最終的集成分類器。
在集成學(xué)習(xí)中,提升各基分類器的獨(dú)立性或多樣性有利于提升最終學(xué)習(xí)效果。提升基分類器多樣性的方式主要有對(duì)數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進(jìn)行擾動(dòng)。數(shù)據(jù)樣本擾動(dòng)指為每個(gè)基分類器選擇不同的訓(xùn)練樣本,顯然Easy Ensemble Classifier是利用數(shù)據(jù)樣本擾動(dòng)方式提升基分類器的多樣性,使得最終的分類效果較好。訓(xùn)練樣本中X一般由一組屬性特征描述。輸入屬性擾動(dòng)指為不同基分類器選擇若干屬性子集,然后基于每個(gè)屬性子集訓(xùn)練基分類器。輸入屬性擾動(dòng)不僅能生成多樣性大的個(gè)體,還會(huì)因?yàn)閷傩詳?shù)的減少而節(jié)省訓(xùn)練時(shí)間開銷。
針對(duì)大學(xué)生貧困認(rèn)定不平衡數(shù)據(jù)集,綜合使用重采樣技術(shù)和集成學(xué)習(xí)來處理平衡數(shù)據(jù)集,在過程中同時(shí)使用數(shù)據(jù)樣本擾動(dòng)和輸入屬性擾動(dòng)兩種擾動(dòng)方式,旨在提升基分類器的多樣性,從而提升分類效果。具體措施為:對(duì)每個(gè)基分類器,從多數(shù)類(非貧困生)樣本中隨機(jī)選擇與少數(shù)類樣本(貧困生)數(shù)量一致的樣本,將這些多數(shù)類樣本與全部少數(shù)類樣本構(gòu)成1個(gè)平衡訓(xùn)練子集;然后,在該訓(xùn)練子集中隨機(jī)刪除n個(gè)特征屬性,從而構(gòu)建每個(gè)基分類器的最終訓(xùn)練數(shù)據(jù)集。
基于以上分析,將KELM作為集成學(xué)習(xí)的基分類器,采用數(shù)據(jù)樣本和輸入屬性雙重?cái)_動(dòng)方式構(gòu)建每個(gè)基分類器的訓(xùn)練數(shù)據(jù)集,然后訓(xùn)練不同KELM基分類器。在測試階段則采用投票方式獲得最終的分類結(jié)果。由此構(gòu)建DP_KELM算法模型,如圖1所示。
圖1 DP_KELM算法模型示意圖
DP_KELM訓(xùn)練過程算法偽代碼如表2所示。
表2 DP_KELM 算法訓(xùn)練過程偽代碼
對(duì)測試樣本x,輸出結(jié)果為
以筆者所在院校的信息科學(xué)與技術(shù)學(xué)院全體學(xué)生2018年一卡通消費(fèi)數(shù)據(jù)以及學(xué)生的基礎(chǔ)信息數(shù)據(jù)為基礎(chǔ),以廣東省教育廳的貧困生認(rèn)定結(jié)果數(shù)據(jù)為標(biāo)簽數(shù)據(jù)。通過數(shù)據(jù)清洗和特征工程,共得到2 104名學(xué)生樣本,其中非貧困1 708人,認(rèn)定貧困396人,貧困與非貧困比例為1∶4.3。在特征方面,共取得City特征35個(gè)(部分城市無該學(xué)院學(xué)生),Sex與TransMean交叉特征12個(gè),Sex與TotalTimes交叉特征12個(gè),以及包括消費(fèi)總量(TotalAmount)、次消費(fèi)均值中位數(shù)(TranMeanMedian)、月消費(fèi)均值(TranMonthMean)、次最大消費(fèi)金額(MaxAmoun)、學(xué)生家庭學(xué)生數(shù)量(StuNum、PerStu)、性別Sex這7個(gè)特征,合計(jì)66個(gè)特征。
貧困認(rèn)定是典型的二分類問題,用混淆矩陣表示識(shí)別結(jié)果,如表3所示。分類問題一般常用查準(zhǔn)率(Accuracy、Precision),召回率(Recall)、F1等指標(biāo)衡量分類性能。其中用于衡量分類準(zhǔn)確性的指標(biāo)Accuracy定義為:
但在不平衡問題中Accuracy并不能真正反映用戶需求。若有1 000個(gè)學(xué)生,10個(gè)貧困生,假如分類器A將10個(gè)貧困生都誤分為非貧困生,此時(shí)A的Accuracy為0.99,但實(shí)際上1個(gè)貧困生也沒有被發(fā)掘出來,即對(duì)貧困生的召回率為0。假如分類器B將30個(gè)人都判定為貧困生,但將10個(gè)真正的貧困生識(shí)別出來,此時(shí)B的Accuracy為0.97,其對(duì)貧困生的召回率為1,顯然學(xué)校更愿意接受分類器B。因此,針對(duì)貧困認(rèn)定問題,在保證Accuracy的基礎(chǔ)上,提高貧困生的識(shí)別率非常關(guān)鍵。
表3 混淆矩陣中的行與列
G-mean是Kubat[22]提出的一種魯棒性較好的不平衡數(shù)據(jù)分類方法的評(píng)價(jià)指標(biāo)。該指標(biāo)主要關(guān)注少數(shù)類和多數(shù)類的召回率情況。用該指標(biāo)可以較好地綜合評(píng)價(jià)貧困生和非貧困生的召回率。其定義如下:
但G-mean僅關(guān)注了召回率情況,而關(guān)注貧困和非貧困分類錯(cuò)誤同樣重要[23]。為了衡量召回率和準(zhǔn)確率的綜合情況,本文中采用對(duì)不平衡數(shù)據(jù)不敏感的AUC值,該值是受試者工作特征曲線ROC與坐標(biāo)軸圍成的區(qū)域面積,AUC越接近1,則表示分類器性能越好。
為了驗(yàn)證DP_KELM性能,將DP_KELM和對(duì)比算法應(yīng)用于上述數(shù)據(jù)集,然后比較Accuracy、G-mean和AUC值。實(shí)驗(yàn)的操作系統(tǒng)為Windows7,CPU主頻為3.6 GHz,內(nèi)存為32G,編程語言為Python3.6,涉及包有Pandas、Numpy、Sklearn、Imblearn。
實(shí)驗(yàn)過程中,為取得公平的結(jié)果,對(duì)于所有數(shù)據(jù)集采用4折交叉驗(yàn)證方法;然后,執(zhí)行5遍以上過程,取5遍執(zhí)行結(jié)果的平均值作為該算法的結(jié)果值。
3.4.1 刪除的特征數(shù)量對(duì)KP_KELM性能的影響
影響KP_KELM算法性能的參數(shù)主要有輸入屬性擾動(dòng)過程中刪除的特征數(shù)量n、KELM的隱層節(jié)點(diǎn)數(shù)量nh、KELM的核函數(shù)和激活函數(shù)。
實(shí)驗(yàn)中,統(tǒng)一采用高斯核函數(shù)作為KP_KELM的核函數(shù),使用Mish函數(shù)[24]作為激活函數(shù)。相對(duì)于Sigmoid、ReLU這類激活函數(shù),Mish是一個(gè)自正則非單調(diào)激活函數(shù),函數(shù)公式為Mish=x*tanh(ln(1+ex))。該函數(shù)曲線上所有點(diǎn)幾乎都是平滑的,無上界避免了由于封頂導(dǎo)致的飽和,也不似ReLU有硬零邊界。文獻(xiàn)[24]在75項(xiàng)測試中,與ReLU、SWish激活函數(shù)相比,Mish表現(xiàn)出更好的性能。
為了分析刪除特征數(shù)量n對(duì)KP_KELM性能的影響,首先設(shè)定nh=110,實(shí)驗(yàn)結(jié)果如圖2所示。圖2中橫坐標(biāo)表示輸入屬性擾動(dòng)刪除的特征數(shù)量n。由圖2可知:當(dāng)nh一定時(shí),隨著刪除特征的數(shù)量n在0~8變化時(shí),G-mean值隨n值增加而增加;當(dāng)n在[9,25]區(qū)間時(shí),G-mean值隨n值增加呈現(xiàn)下降趨勢,但下降速率非常??;當(dāng)n>25時(shí),G-mean隨n值增加而快速下降。本文中主要是通過數(shù)據(jù)樣本和輸入屬性雙重?cái)_動(dòng)提高基分類器的多樣性,從而提升整體分類性能。當(dāng)n較小時(shí),隨著n從0至8增加,基分類器的多樣性逐步增加,并因?yàn)閯h掉的特征較少,基分類器還能學(xué)習(xí)到足夠的特征信息使得模型整個(gè)分類性能增加。當(dāng)n從9增加到25過程中,雖然基分類器的多樣性增加了,但由于刪除的特征過程,使得每個(gè)基分類器學(xué)習(xí)到數(shù)據(jù)集的特征信息反而減少,導(dǎo)致基分類器出現(xiàn)誤判可能增加,故整體性能反而下降。由于本文中數(shù)據(jù)集特征共66個(gè),因此當(dāng)n在[9,25]區(qū)間時(shí),這種損失不是很大,故G-mean下降慢,甚至?xí)霈F(xiàn)一些G-mean上升隨機(jī)波動(dòng)現(xiàn)象(此時(shí)選擇的都是最有代表性的特征),比如在n=14時(shí),G-mean值也較高。但是當(dāng)n大于25且逐步增加時(shí),由于每個(gè)基分類器學(xué)習(xí)到的特征信息越來越少,使得分類器出現(xiàn)誤判可能性急劇增加,導(dǎo)致整體G-mean下降迅速。
圖2 刪除特征數(shù)量對(duì)性能影響
3.4.2 KP_KELM算法中隱層節(jié)點(diǎn)變化對(duì)性能影響
統(tǒng)一采用高斯核函數(shù),Mish激活函數(shù),設(shè)定輸入屬性擾動(dòng)刪除特征數(shù)量為8,實(shí)驗(yàn)結(jié)果如圖3所示。由圖3可知:當(dāng)隱層節(jié)點(diǎn)nh取值為100左右時(shí),G-mean取得最高值;nh從0到100增加時(shí),Gmean呈線性關(guān)系上升;nh=105時(shí),G-mean值為0.778 6,而AUC值為0.783 6,以上兩值均取得最高值。而當(dāng)nh大于115時(shí),G-mean隨nh的增加而呈線性下降趨勢。圖3中的AUC指標(biāo)也呈現(xiàn)出與G-mean類似的變化趨勢。出現(xiàn)這種現(xiàn)象的原因是:當(dāng)nh小于100時(shí),隱層神經(jīng)元節(jié)點(diǎn)過少,模型出現(xiàn)欠擬合情況,使得G-mean隨神經(jīng)元增加而增加;當(dāng)nh大于115時(shí),由于隱層神經(jīng)元節(jié)點(diǎn)數(shù)目過多,造成模型的過擬合,在測試集上的結(jié)果反而變差。
圖3 隱層節(jié)點(diǎn)數(shù)對(duì)性能影響
3.4.3 DP_KELM算法性能比較
設(shè)定nh=105,每次刪除特征數(shù)量為n=8。
首先驗(yàn)證所提出的大學(xué)生貧困認(rèn)定特征是否合理。為此,將DP_KELM與隨機(jī)森林、支持向量機(jī)、ELM、KELM算法進(jìn)行比較,結(jié)果如圖4所示。結(jié)果表明:隨機(jī)森林、支持向量機(jī)與KELM的Accuracy均高于0.82,KELM獲得的最高值為0.823 2,該結(jié)果優(yōu)于文獻(xiàn)[5]中僅使用一卡通消費(fèi)數(shù)據(jù)獲得的0.79。這說明選定的特征具有更好的貧困生識(shí)別能力。圖4同時(shí)表明KELM要優(yōu)于ELM。
圖4 不同算法性能值的直方圖
另外,圖4顯示DP_KELM算法的Accuracy雖然沒有超過0.8,但其G-mean值遠(yuǎn)高于其余算法,較次好算法ELM的G-mean提升了45.61%,而Accuracy則較最好算法KELM僅降低11.26%。G-mean反映了算法對(duì)貧困生和非貧困生的召回率,由于貧困認(rèn)定樣本集是一個(gè)非平衡數(shù)據(jù)集,傳統(tǒng)算法傾向于將貧困認(rèn)定為非貧困,雖然Accuracy較好,但實(shí)際上對(duì)貧困生的發(fā)掘不利,表現(xiàn)為Gmean非常低。而在綜合性能AUC比較上,DP_KELM要顯著優(yōu)于其他4種算法。
為對(duì)比DP_KELM對(duì)不平衡數(shù)據(jù)集的處理能力,選擇典型的上采樣算法RUS,下采樣算法SMOTE,以及近年提出的基于聚類上采樣的算法Kmeans SMOTE[25],將其與KELM結(jié)合,構(gòu)建完整的貧困認(rèn)定算法。Easy Ensemble Classifier[21]算法與本文中框架有一定類似之處,故將其納入比較,簡稱為Easy Ensemble。同時(shí),本文中將雙重?cái)_動(dòng)應(yīng)用于隨機(jī)森林算法,構(gòu)建了DP_RF算法,最終實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同算法性能值的實(shí)驗(yàn)結(jié)果
表4表明:采用雙重?cái)_動(dòng)構(gòu)建的DP_RF和DP_KELM在G-mean和AUC方面均優(yōu)于其他算法,說明雙重?cái)_動(dòng)有利于提高基分類器多樣性,從而提高模型分類性能。與上采樣、下采樣算法,以及DP_RF相比,所提出的DP_KELM算法在Gmean值和AUC值方面均取得了最好成績,說明所提出的算法在召回率和準(zhǔn)確率方面均為最優(yōu)結(jié)果,有利于精準(zhǔn)確定貧困和非貧困大學(xué)生。
當(dāng)前高校大學(xué)生貧困認(rèn)定存在需要材料多、材料涉及隱私等情況,容易出現(xiàn)“假貧困得到資助,真貧困不敢去申請(qǐng)資助”這種不公平的現(xiàn)狀。針對(duì)以上問題,提出一種將雙重?cái)_動(dòng)和核極限學(xué)習(xí)機(jī)KELM相融合的算法,稱為DP_KELM。該算法以學(xué)生一卡通和簡單客觀的個(gè)人信息數(shù)據(jù)為基礎(chǔ),實(shí)現(xiàn)了貧困大學(xué)生智能識(shí)別。
1)設(shè)計(jì)了大學(xué)生貧困認(rèn)定特征。以學(xué)生在校一卡通消費(fèi)數(shù)據(jù)、學(xué)生性別、住址這些易于獲得、客觀、不涉及隱私的數(shù)據(jù)為基礎(chǔ),采用特征預(yù)處理、特征分箱、特征交叉的算法,設(shè)計(jì)了一套用于大學(xué)生貧困認(rèn)定的特征參數(shù)。
2)設(shè)計(jì)了雙重?cái)_動(dòng)和核極限學(xué)習(xí)機(jī)KELM相融合的貧困認(rèn)定算法。該算法以核極限學(xué)習(xí)機(jī)為基分類器,同時(shí)針對(duì)大學(xué)生中貧困率為20%的特點(diǎn),采用數(shù)據(jù)樣本和輸入屬性雙重?cái)_動(dòng)提升基分類器多樣性,從而提高DP_KELM分類性能。
3)采用具體院校學(xué)生樣本集,完成了DP_KELM實(shí)驗(yàn)驗(yàn)證。結(jié)果表明:與對(duì)比的9種算法相比,DP_KELM在G-mean和AUC方面均取得最好效果。
家庭收入是貧困大學(xué)生的重要評(píng)判標(biāo)準(zhǔn),但如何通過一種易于獲得、客觀、不涉及隱私的數(shù)據(jù)反映出家庭收入,從而進(jìn)一步提高算法性能是下一步研究內(nèi)容。此外,在算法中不同激活函數(shù)、隱層節(jié)點(diǎn)數(shù)、每次刪減的特征數(shù)量都會(huì)影響算法最終結(jié)果,因此未來考慮采用啟發(fā)式演化算法實(shí)現(xiàn)對(duì)以上參數(shù)的智能搜索,進(jìn)一步提高算法對(duì)貧困大學(xué)生的識(shí)別準(zhǔn)確性。