螢火蟲(chóng)算法改進(jìn)支持向量機(jī)的高校就業(yè)率預(yù)測(cè)

2020-12-31 06:20:08

廣東通信技術(shù) 2020年11期

1 引言

近年來(lái)，國(guó)內(nèi)高等教育由精英式教育逐漸邁向大眾式教育，那么高校畢業(yè)生的就業(yè)情況就變成了高校教育領(lǐng)域研究的重點(diǎn)，同時(shí)也成為了全社會(huì)重點(diǎn)關(guān)注的領(lǐng)域。隨著高校招就處的不斷擴(kuò)大招生，高校畢業(yè)生的畢業(yè)人數(shù)也隨之不斷增加，從1999年的84.76萬(wàn)增加到2019年的834萬(wàn)，增長(zhǎng)了將近10倍左右，從而導(dǎo)致高校畢業(yè)生的初次就業(yè)率的普遍下滑[1]。同時(shí)，高校就業(yè)率的高低，不僅是國(guó)家和社會(huì)評(píng)判大學(xué)生就業(yè)形勢(shì)最直接的工具，也是評(píng)判一所高校教育質(zhì)量好壞和辦學(xué)水平高低的尺標(biāo)[2]。因此，高校學(xué)生初次就業(yè)率的有效評(píng)估成為了教育領(lǐng)域亟需解決的重要問(wèn)題，而高校就業(yè)率的評(píng)估模型通過(guò)分析歷年高校畢業(yè)生的初次就業(yè)率，去預(yù)測(cè)將來(lái)的高校學(xué)生的就業(yè)情況[3]。以此為依據(jù)，建立高校就業(yè)率評(píng)估優(yōu)化算法[4-5]，對(duì)評(píng)估高校教學(xué)質(zhì)量及當(dāng)前大學(xué)生就業(yè)工作有著極為重要的意義，引起了眾多專家、學(xué)者的廣泛關(guān)注。

目前各高校都累計(jì)了多年的就業(yè)數(shù)據(jù)，但缺少對(duì)就業(yè)情況的深入研究和分析，從而不能進(jìn)一步地為高校大學(xué)生的就業(yè)率提供高效的預(yù)測(cè)和有價(jià)值的決策數(shù)據(jù)[6]。因此，有研究者采用基于時(shí)間序列的預(yù)測(cè)方法[7-8]對(duì)高校大學(xué)生的就業(yè)情況進(jìn)行分析，便于找到就業(yè)率與時(shí)間序列算法的關(guān)系，從而建立就業(yè)預(yù)測(cè)模型，例如灰色系統(tǒng)模型、神經(jīng)網(wǎng)絡(luò)模型等[9]?；疑到y(tǒng)模型[10]是將高校就業(yè)情況比作一個(gè)灰色系統(tǒng)，通過(guò)灰色系統(tǒng)算法對(duì)就業(yè)率進(jìn)行模型建模，從而實(shí)現(xiàn)預(yù)測(cè)大學(xué)生的就業(yè)率情況，然而該算法只適用于一直增長(zhǎng)的就業(yè)數(shù)據(jù)進(jìn)行分析，但是高校學(xué)生就業(yè)數(shù)據(jù)量有時(shí)會(huì)出現(xiàn)下降的趨勢(shì)，導(dǎo)致獲得高精度的就業(yè)率有一定的難度[10]。神經(jīng)網(wǎng)絡(luò)算法[11]對(duì)于非線性數(shù)據(jù)預(yù)測(cè)具有較好的擬合能力，尤其適用于對(duì)非線性的有波動(dòng)的高校就業(yè)率數(shù)據(jù)進(jìn)行分析，可以得到比灰色系統(tǒng)模型分析更好的預(yù)測(cè)結(jié)果。但由于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜，并且需要高校就業(yè)率數(shù)據(jù)較多，容易出現(xiàn)“過(guò)擬合”結(jié)果，增加就業(yè)率預(yù)測(cè)的成本。

2 支持向量機(jī)

支持向量機(jī)（Support vector machine）是在1995年由Vapink和Corinna Corte等人首次提出。SVM算法的提出是要在特征空間中最大化地實(shí)現(xiàn)線性分類的效果，其機(jī)器學(xué)習(xí)的根本目的是要通過(guò)找到一個(gè)超平面實(shí)現(xiàn)最大化間隔數(shù)據(jù)，從而將回歸問(wèn)題轉(zhuǎn)化成二次規(guī)劃問(wèn)題，解決陷入局部最優(yōu)的問(wèn)題，很適合處理小樣本回歸的情況。

SVM算法[12]核心是計(jì)算支持向量機(jī)與輸入空間向量間的內(nèi)積核。SVM算法是將訓(xùn)練集中的N維數(shù)據(jù)作為輸入，同時(shí)利用非線性映射函數(shù)將其輸入映射到高維空間中，并且依據(jù)要最小化結(jié)構(gòu)類風(fēng)險(xiǎn)的原則在高維空間中建立起相對(duì)應(yīng)的高維空間線性回歸函數(shù)。其中回歸方程的公式如式(1)所示。

通過(guò)拉格朗日乘子得到拉格朗日函數(shù)，然后將其參數(shù)求偏導(dǎo)，可得原問(wèn)題的對(duì)偶問(wèn)題：

因此支持向量機(jī)的訓(xùn)練效果受懲罰因子、核函數(shù)的影響較大，本文將采用螢火蟲(chóng)算法改進(jìn)支持向量機(jī)的參數(shù)。

3 基于螢火蟲(chóng)算法改進(jìn)支持向量機(jī)的預(yù)測(cè)算法

在經(jīng)典的螢火蟲(chóng)算法中，螢火蟲(chóng)的移動(dòng)方向和移動(dòng)距離分別由發(fā)光的強(qiáng)弱和吸引力的大小決定，因此利用發(fā)光的強(qiáng)弱和吸引力來(lái)持續(xù)改善螢火蟲(chóng)所處位置，最后達(dá)到最佳位置，獲得支持向量機(jī)中最優(yōu)的懲罰因子以及核函數(shù)，得出最優(yōu)預(yù)測(cè)結(jié)果。

在利用 SVM 進(jìn)行高校就業(yè)率預(yù)測(cè)時(shí)，需要得到懲罰因子、核函數(shù)參數(shù)的最優(yōu)解，它們的取值會(huì)直接影響最終預(yù)測(cè)結(jié)果的精確度。因此，為了提高就業(yè)率預(yù)測(cè)的準(zhǔn)確性，本文利用螢火蟲(chóng)算法優(yōu)化支持向量機(jī)中的核函數(shù)參數(shù)和懲罰因子，建立基于螢火蟲(chóng)算法改進(jìn)支持向量機(jī)IPPFA-SVM的就業(yè)率預(yù)測(cè)模型。具體步驟為:

（1）收集某高校連續(xù)20年的大四畢業(yè)生就業(yè)率作為機(jī)器學(xué)習(xí)數(shù)據(jù)。

圖1 就業(yè)率預(yù)測(cè)流程圖

4 預(yù)測(cè)結(jié)果對(duì)比與分析

4.1 數(shù)據(jù)來(lái)源

本文以某普通高校的就業(yè)率為研究對(duì)象，選擇1998—2017年該校就業(yè)率數(shù)據(jù)進(jìn)行建模預(yù)測(cè)，來(lái)驗(yàn)證本文提出的基于螢火蟲(chóng)算法優(yōu)化支持向量機(jī)的高校就業(yè)率模型的性能，就業(yè)率數(shù)據(jù)具體如圖2所示。

圖2 就業(yè)率數(shù)據(jù)

4.2 參數(shù)優(yōu)化結(jié)果

利用優(yōu)化后的螢火蟲(chóng)算法對(duì)高校就業(yè)率預(yù)測(cè)的SVM模型進(jìn)行調(diào)優(yōu)，設(shè)置合適的迭代次數(shù)。

然后在同一實(shí)驗(yàn)數(shù)據(jù)下，與BP算法預(yù)測(cè)、灰色系統(tǒng)算法預(yù)測(cè)、SVM算法進(jìn)行預(yù)測(cè)并對(duì)比，就業(yè)率預(yù)測(cè)值對(duì)比結(jié)果值如3所示，其預(yù)測(cè)誤差對(duì)比結(jié)果如圖4所示。

圖3 就業(yè)率預(yù)測(cè)值

圖4 預(yù)測(cè)誤差

4.3 預(yù)測(cè)結(jié)果分析

由對(duì)比結(jié)果可知，在所有預(yù)測(cè)模型中，本文提出的FA-SVM方法預(yù)測(cè)準(zhǔn)確率最高，達(dá)到99%以上，而B(niǎo)P神經(jīng)網(wǎng)絡(luò)模型最低，主要是因?yàn)橛捎谏窠?jīng)網(wǎng)絡(luò)的結(jié)構(gòu)較復(fù)雜，同時(shí)要求的歷就業(yè)數(shù)據(jù)較多，容易出現(xiàn)“過(guò)擬合”的預(yù)測(cè)結(jié)果?；疑A(yù)測(cè)算法的預(yù)測(cè)結(jié)果較神經(jīng)網(wǎng)絡(luò)算法有一定的提升，但缺乏自我學(xué)習(xí)和自適應(yīng)的能力，對(duì)于非線性數(shù)據(jù)的處理能力不足。SVM算法的預(yù)測(cè)精度要優(yōu)于BP神經(jīng)網(wǎng)絡(luò)，是由于SVM算法可以解決神經(jīng)網(wǎng)絡(luò)在小樣本清況下過(guò)擬合、欠學(xué)習(xí)的缺陷，預(yù)測(cè)準(zhǔn)確度相應(yīng)提高。然而單一的SVM算法預(yù)測(cè)準(zhǔn)確度要低于本文的預(yù)測(cè)算法，主要是本文采用的是螢火蟲(chóng)算法對(duì)支持向量機(jī)算法中的核函數(shù)參數(shù)和懲罰因子進(jìn)行不斷改進(jìn)，提高了算法的預(yù)測(cè)準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明，本文中的預(yù)測(cè)算法相比于其它預(yù)測(cè)算法具有一定的優(yōu)越性。

5 結(jié)論

為了對(duì)高校大學(xué)生的就業(yè)率提供更加高效的預(yù)測(cè)和有價(jià)值的決策，提出螢火蟲(chóng)算法來(lái)優(yōu)化SVM的高校就業(yè)率模型。因?yàn)楦咝W(xué)生就業(yè)率數(shù)據(jù)具有非線性化的特性，所以采用螢火蟲(chóng)算法對(duì)核函數(shù)參數(shù)和懲罰因子進(jìn)行迭代計(jì)算，得到較為精確的就業(yè)率結(jié)果。本文研究的高校就業(yè)率預(yù)測(cè)誤差比當(dāng)前其他預(yù)測(cè)算法要小，預(yù)測(cè)效果得到了顯著的改善，有利于未來(lái)中國(guó)高校就業(yè)情況的預(yù)測(cè)，有利于國(guó)家對(duì)于高校就業(yè)相關(guān)制度的制定提供有效的參考意見(jiàn)。