近年來(lái),國(guó)內(nèi)高等教育由精英式教育逐漸邁向大眾式教育,那么高校畢業(yè)生的就業(yè)情況就變成了高校教育領(lǐng)域研究的重點(diǎn),同時(shí)也成為了全社會(huì)重點(diǎn)關(guān)注的領(lǐng)域。隨著高校招就處的不斷擴(kuò)大招生,高校畢業(yè)生的畢業(yè)人數(shù)也隨之不斷增加,從1999年的84.76萬(wàn)增加到2019年的834萬(wàn),增長(zhǎng)了將近10倍左右,從而導(dǎo)致高校畢業(yè)生的初次就業(yè)率的普遍下滑[1]。同時(shí),高校就業(yè)率的高低,不僅是國(guó)家和社會(huì)評(píng)判大學(xué)生就業(yè)形勢(shì)最直接的工具,也是評(píng)判一所高校教育質(zhì)量好壞和辦學(xué)水平高低的尺標(biāo)[2]。因此,高校學(xué)生初次就業(yè)率的有效評(píng)估成為了教育領(lǐng)域亟需解決的重要問(wèn)題,而高校就業(yè)率的評(píng)估模型通過(guò)分析歷年高校畢業(yè)生的初次就業(yè)率,去預(yù)測(cè)將來(lái)的高校學(xué)生的就業(yè)情況[3]。以此為依據(jù),建立高校就業(yè)率評(píng)估優(yōu)化算法[4-5],對(duì)評(píng)估高校教學(xué)質(zhì)量及當(dāng)前大學(xué)生就業(yè)工作有著極為重要的意義,引起了眾多專家、學(xué)者的廣泛關(guān)注。
目前各高校都累計(jì)了多年的就業(yè)數(shù)據(jù),但缺少對(duì)就業(yè)情況的深入研究和分析,從而不能進(jìn)一步地為高校大學(xué)生的就業(yè)率提供高效的預(yù)測(cè)和有價(jià)值的決策數(shù)據(jù)[6]。因此,有研究者采用基于時(shí)間序列的預(yù)測(cè)方法[7-8]對(duì)高校大學(xué)生的就業(yè)情況進(jìn)行分析,便于找到就業(yè)率與時(shí)間序列算法的關(guān)系,從而建立就業(yè)預(yù)測(cè)模型,例如灰色系統(tǒng)模型、神經(jīng)網(wǎng)絡(luò)模型等[9]?;疑到y(tǒng)模型[10]是將高校就業(yè)情況比作一個(gè)灰色系統(tǒng),通過(guò)灰色系統(tǒng)算法對(duì)就業(yè)率進(jìn)行模型建模,從而實(shí)現(xiàn)預(yù)測(cè)大學(xué)生的就業(yè)率情況,然而該算法只適用于一直增長(zhǎng)的就業(yè)數(shù)據(jù)進(jìn)行分析,但是高校學(xué)生就業(yè)數(shù)據(jù)量有時(shí)會(huì)出現(xiàn)下降的趨勢(shì),導(dǎo)致獲得高精度的就業(yè)率有一定的難度[10]。神經(jīng)網(wǎng)絡(luò)算法[11]對(duì)于非線性數(shù)據(jù)預(yù)測(cè)具有較好的擬合能力,尤其適用于對(duì)非線性的有波動(dòng)的高校就業(yè)率數(shù)據(jù)進(jìn)行分析,可以得到比灰色系統(tǒng)模型分析更好的預(yù)測(cè)結(jié)果。但由于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,并且需要高校就業(yè)率數(shù)據(jù)較多,容易出現(xiàn)“過(guò)擬合”結(jié)果,增加就業(yè)率預(yù)測(cè)的成本。
支持向量機(jī)(Support vector machine)是在1995年由Vapink和Corinna Corte等人首次提出。SVM算法的提出是要在特征空間中最大化地實(shí)現(xiàn)線性分類的效果,其機(jī)器學(xué)習(xí)的根本目的是要通過(guò)找到一個(gè)超平面實(shí)現(xiàn)最大化間隔數(shù)據(jù),從而將回歸問(wèn)題轉(zhuǎn)化成二次規(guī)劃問(wèn)題,解決陷入局部最優(yōu)的問(wèn)題,很適合處理小樣本回歸的情況。
SVM算法[12]核心是計(jì)算支持向量機(jī)與輸入空間向量間的內(nèi)積核。SVM算法是將訓(xùn)練集中的N維數(shù)據(jù)作為輸入,同時(shí)利用非線性映射函數(shù)將其輸入映射到高維空間中,并且依據(jù)要最小化結(jié)構(gòu)類風(fēng)險(xiǎn)的原則在高維空間中建立起相對(duì)應(yīng)的高維空間線性回歸函數(shù)。其中回歸方程的公式如式(1)所示。
通過(guò)拉格朗日乘子得到拉格朗日函數(shù),然后將其參數(shù)求偏導(dǎo),可得原問(wèn)題的對(duì)偶問(wèn)題:
因此支持向量機(jī)的訓(xùn)練效果受懲罰因子、核函數(shù)的影響較大,本文將采用螢火蟲(chóng)算法改進(jìn)支持向量機(jī)的參數(shù)。
在經(jīng)典的螢火蟲(chóng)算法中,螢火蟲(chóng)的移動(dòng)方向和移動(dòng)距離分別由發(fā)光的強(qiáng)弱和吸引力的大小決定,因此利用發(fā)光的強(qiáng)弱和吸引力來(lái)持續(xù)改善螢火蟲(chóng)所處位置,最后達(dá)到最佳位置,獲得支持向量機(jī)中最優(yōu)的懲罰因子以及核函數(shù),得出最優(yōu)預(yù)測(cè)結(jié)果。
在利用 SVM 進(jìn)行高校就業(yè)率預(yù)測(cè)時(shí),需要得到懲罰因子、核函數(shù)參數(shù)的最優(yōu)解,它們的取值會(huì)直接影響最終預(yù)測(cè)結(jié)果的精確度。因此,為了提高就業(yè)率預(yù)測(cè)的準(zhǔn)確性,本文利用螢火蟲(chóng)算法優(yōu)化支持向量機(jī)中的核函數(shù)參數(shù)和懲罰因子,建立基于螢火蟲(chóng)算法改進(jìn)支持向量機(jī)IPPFA-SVM的就業(yè)率預(yù)測(cè)模型。具體步驟為:
(1)收集某高校連續(xù)20年的大四畢業(yè)生就業(yè)率作為機(jī)器學(xué)習(xí)數(shù)據(jù)。
圖1 就業(yè)率預(yù)測(cè)流程圖
本文以某普通高校的就業(yè)率為研究對(duì)象,選擇1998—2017年該校就業(yè)率數(shù)據(jù)進(jìn)行建模預(yù)測(cè),來(lái)驗(yàn)證本文提出的基于螢火蟲(chóng)算法優(yōu)化支持向量機(jī)的高校就業(yè)率模型的性能,就業(yè)率數(shù)據(jù)具體如圖2所示。
圖2 就業(yè)率數(shù)據(jù)
利用優(yōu)化后的螢火蟲(chóng)算法對(duì)高校就業(yè)率預(yù)測(cè)的SVM模型進(jìn)行調(diào)優(yōu),設(shè)置合適的迭代次數(shù)。
然后在同一實(shí)驗(yàn)數(shù)據(jù)下,與BP算法預(yù)測(cè)、灰色系統(tǒng)算法預(yù)測(cè)、SVM算法進(jìn)行預(yù)測(cè)并對(duì)比,就業(yè)率預(yù)測(cè)值對(duì)比結(jié)果值如3所示,其預(yù)測(cè)誤差對(duì)比結(jié)果如圖4所示。
圖3 就業(yè)率預(yù)測(cè)值
圖4 預(yù)測(cè)誤差
由對(duì)比結(jié)果可知,在所有預(yù)測(cè)模型中,本文提出的FA-SVM方法預(yù)測(cè)準(zhǔn)確率最高,達(dá)到99%以上,而B(niǎo)P神經(jīng)網(wǎng)絡(luò)模型最低,主要是因?yàn)橛捎谏窠?jīng)網(wǎng)絡(luò)的結(jié)構(gòu)較復(fù)雜,同時(shí)要求的歷就業(yè)數(shù)據(jù)較多,容易出現(xiàn)“過(guò)擬合”的預(yù)測(cè)結(jié)果?;疑A(yù)測(cè)算法的預(yù)測(cè)結(jié)果較神經(jīng)網(wǎng)絡(luò)算法有一定的提升,但缺乏自我學(xué)習(xí)和自適應(yīng)的能力,對(duì)于非線性數(shù)據(jù)的處理能力不足。SVM算法的預(yù)測(cè)精度要優(yōu)于BP神經(jīng)網(wǎng)絡(luò),是由于SVM算法可以解決神經(jīng)網(wǎng)絡(luò)在小樣本清況下過(guò)擬合、欠學(xué)習(xí)的缺陷,預(yù)測(cè)準(zhǔn)確度相應(yīng)提高。然而單一的SVM算法預(yù)測(cè)準(zhǔn)確度要低于本文的預(yù)測(cè)算法,主要是本文采用的是螢火蟲(chóng)算法對(duì)支持向量機(jī)算法中的核函數(shù)參數(shù)和懲罰因子進(jìn)行不斷改進(jìn),提高了算法的預(yù)測(cè)準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,本文中的預(yù)測(cè)算法相比于其它預(yù)測(cè)算法具有一定的優(yōu)越性。
為了對(duì)高校大學(xué)生的就業(yè)率提供更加高效的預(yù)測(cè)和有價(jià)值的決策,提出螢火蟲(chóng)算法來(lái)優(yōu)化SVM的高校就業(yè)率模型。因?yàn)楦咝W(xué)生就業(yè)率數(shù)據(jù)具有非線性化的特性,所以采用螢火蟲(chóng)算法對(duì)核函數(shù)參數(shù)和懲罰因子進(jìn)行迭代計(jì)算,得到較為精確的就業(yè)率結(jié)果。本文研究的高校就業(yè)率預(yù)測(cè)誤差比當(dāng)前其他預(yù)測(cè)算法要小,預(yù)測(cè)效果得到了顯著的改善,有利于未來(lái)中國(guó)高校就業(yè)情況的預(yù)測(cè),有利于國(guó)家對(duì)于高校就業(yè)相關(guān)制度的制定提供有效的參考意見(jiàn)。