翟曉鶴
(新疆醫(yī)科大學(xué) 護(hù)理學(xué)院, 新疆 烏魯木齊 830054)
隨著高校的擴(kuò)展,學(xué)生人數(shù)不斷增加,畢業(yè)生的數(shù)量隨之增多,大學(xué)生就業(yè)競(jìng)爭(zhēng)十分激烈,就業(yè)壓力越來(lái)越大[1-2]。人們對(duì)畢業(yè)生就業(yè)問(wèn)題十分關(guān)注,同時(shí)畢業(yè)生就業(yè)率是高校學(xué)生培養(yǎng)質(zhì)量的一個(gè)重要指標(biāo),因此高校對(duì)畢業(yè)生就業(yè)率高度重視,這樣需要對(duì)畢業(yè)生就業(yè)率進(jìn)行建模與分析,找到影響畢業(yè)生就業(yè)率的一些主要因素,從而使高校能夠相應(yīng)的調(diào)整學(xué)生培養(yǎng)模式,給高校畢業(yè)生管理者提供有效的建議,同時(shí)為畢業(yè)生提供有價(jià)值的信息[3]。
對(duì)于畢業(yè)生就業(yè)率預(yù)測(cè)問(wèn)題,國(guó)內(nèi)外許多學(xué)者都進(jìn)行了各種嘗試研究,最初為線性建模技術(shù),如:基于ARIMA的畢業(yè)生就業(yè)率預(yù)測(cè)模型、基于灰色系統(tǒng)的畢業(yè)生就業(yè)率預(yù)測(cè)模型,基于決策樹(shù)的畢業(yè)生就業(yè)率預(yù)測(cè)模型[4-6]。它們主要針對(duì)小規(guī)模、變化簡(jiǎn)單的畢業(yè)生就業(yè)率進(jìn)行預(yù)測(cè),當(dāng)畢業(yè)生就業(yè)率變化比較復(fù)雜時(shí),則就業(yè)率預(yù)測(cè)誤差急劇上升;隨后出現(xiàn)了一些非線性建模技術(shù),如基于機(jī)器學(xué)習(xí)算法的畢業(yè)生就業(yè)率預(yù)測(cè)模型,最具有代表性的為人工神經(jīng)網(wǎng)絡(luò),其具有比較好的非線性建模預(yù)測(cè)性能,能夠從畢業(yè)生就業(yè)率歷史數(shù)據(jù)中挖掘出畢業(yè)生就業(yè)率變化特點(diǎn),預(yù)測(cè)建模效率要優(yōu)于線性建模技術(shù)[7-8]。由于畢業(yè)生就業(yè)率具有一定的混沌性,而當(dāng)前機(jī)器學(xué)習(xí)算法進(jìn)行畢業(yè)生就業(yè)率預(yù)測(cè)建模時(shí),忽略了該特點(diǎn),使得預(yù)測(cè)結(jié)果并未達(dá)到最理想的狀態(tài),同時(shí)預(yù)測(cè)精度不太穩(wěn)定。
以獲得更優(yōu)的畢業(yè)生就業(yè)率預(yù)測(cè)結(jié)果為目標(biāo),提出了混沌分析和最小二乘支持向量機(jī)的畢業(yè)生就業(yè)率預(yù)測(cè)模型(Chao-LSSVM),該模型根據(jù)Takers定理對(duì)畢業(yè)生就業(yè)率歷史數(shù)據(jù)進(jìn)行混沌分析,采用最小二乘支持向量機(jī)擬合畢業(yè)生就業(yè)率變化特點(diǎn),為了驗(yàn)證該預(yù)測(cè)模型的有效性,與當(dāng)前經(jīng)典模型進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了Chao-LSSVM的畢業(yè)生就業(yè)率預(yù)測(cè)結(jié)果的優(yōu)越性。
設(shè)畢業(yè)生就業(yè)率樣本數(shù)據(jù)集合為{xi},i=1,2,…,N,N為樣本長(zhǎng)度,根據(jù)Takers定理[9],一個(gè)混沌畢業(yè)生就業(yè)率樣本數(shù)據(jù)可以重構(gòu)一個(gè)具有等價(jià)空間的數(shù)據(jù),能夠更好地把握畢業(yè)生就業(yè)率變化規(guī)律,等價(jià)空間的多維畢業(yè)生就業(yè)率數(shù)據(jù),如式(1)。
X(t)=[x(t),x(t+τ),…,x((m-1)t+τ)]
t=1,2,…,M
(1)
式中,m表示嵌入維;τ表示延遲時(shí)間;M表示相空間中的點(diǎn)數(shù),如式(2)。
M=N-(m-1)τ
(2)
從式(2)看出,畢業(yè)生就業(yè)率歷史數(shù)據(jù)的混沌分析主要是確定嵌入維、延遲時(shí)間,把畢業(yè)生就業(yè)率歷史數(shù)據(jù)中把蘊(yùn)藏的信息充分地挖掘出來(lái),通過(guò)相空間重構(gòu)技術(shù)恢復(fù)畢業(yè)生就業(yè)率的混沌特性,本文分別采用飽和關(guān)聯(lián)維數(shù)法確定最優(yōu)的嵌入維,自相關(guān)函數(shù)法確定最優(yōu)的延遲時(shí)間。
由于人工神經(jīng)網(wǎng)絡(luò)經(jīng)常出現(xiàn)一些預(yù)測(cè)結(jié)果偏差比較大的點(diǎn),即出現(xiàn)所謂的過(guò)擬合缺陷,為了改善畢業(yè)生就業(yè)率預(yù)測(cè)結(jié)果,本文引入最小二乘支持向量機(jī)對(duì)相空間重構(gòu)后的畢業(yè)生就業(yè)率數(shù)據(jù)進(jìn)行建模,這是因?yàn)樽钚《酥С窒蛄繖C(jī)不僅不存在人工神經(jīng)網(wǎng)絡(luò)的過(guò)擬合缺陷,建模預(yù)測(cè)性能十分優(yōu)異,而且其建模效率更高。對(duì)于訓(xùn)練樣本集合,在支持向量機(jī)的基礎(chǔ)上,最小二乘支持向量引入如下的約束條件,如式(3)。
yk[ωTφ(xk)+b]=1-ek
(3)
對(duì)如式(3)的問(wèn)題,最小二乘支持向量機(jī)通過(guò)下式進(jìn)行求解,如式(4)、式(5)。
(4)
(5)
式中,γ表示正則化參數(shù)[10]。
定義拉格朗日方程,如式(6)。
(6)
式中,αk表示拉格朗日乘子。
根據(jù)如下KKT條件,得到αk和b的值,如式(7)—式(10)。
(7)
(8)
(9)
(10)
引入核函數(shù)解決非線性回歸問(wèn)題,即:K(x,xi)=φ(x)Tφ(x),最小二乘支持向量機(jī)回歸的決策形式,如式(11)。
(11)
選擇RBF核函數(shù),如式(12)。
(12)
式中,σ2表示核函數(shù)參數(shù)。
(1) 收集若干年的畢業(yè)生就業(yè)率歷史樣本數(shù)據(jù),根據(jù)時(shí)間先后進(jìn)行排序,建立一維樣本集合,并對(duì)樣本數(shù)據(jù)做如下歸一化處理,如式(13)。
(13)
(2) 確定一維的畢業(yè)生就業(yè)率樣本集合的嵌入維和時(shí)間延遲,根據(jù)嵌入維和時(shí)間延遲進(jìn)行相空間重構(gòu),這樣會(huì)產(chǎn)生一個(gè)多維的畢業(yè)生就業(yè)率數(shù)據(jù),該數(shù)據(jù)空間變化軌跡與原始畢業(yè)生就業(yè)率數(shù)據(jù)變化軌跡相近。
(3) 初始化最小二乘支持向量機(jī)的相關(guān)參數(shù),如正則化參數(shù),核函數(shù)參數(shù)。
(4) 采用最小二乘支持向量機(jī)對(duì)相空間重構(gòu)后的多維畢業(yè)生就業(yè)率數(shù)據(jù)進(jìn)行學(xué)習(xí),并采用10折交叉驗(yàn)證法確定預(yù)測(cè)精度最高的最小二乘支持向量機(jī)建立畢業(yè)生就業(yè)率預(yù)測(cè)模型。
綜合上述可知,混沌分析和最小二乘支持向量機(jī)的畢業(yè)生就業(yè)率預(yù)測(cè)流程,如圖1所示。
圖1 混沌分析和最小二乘支持向量機(jī)的畢業(yè)生就業(yè)率預(yù)測(cè)流程
為了全面分析混沌分析和最小二乘支持向量機(jī)的畢業(yè)生就業(yè)率預(yù)測(cè)效果,在相同的仿真測(cè)試環(huán)境下,選擇當(dāng)前經(jīng)典的畢業(yè)生就業(yè)率預(yù)測(cè)模型進(jìn)行對(duì)比測(cè)試,經(jīng)典模型具體為:(1) 基于ARIMA的畢業(yè)生就業(yè)率預(yù)測(cè)模型(ARIMA);(2) 灰色系統(tǒng)的畢業(yè)生就業(yè)率預(yù)測(cè)模型(GM);(3) BP神經(jīng)網(wǎng)絡(luò)的畢業(yè)生就業(yè)率預(yù)測(cè)模型(BPNN);(4) 沒(méi)有混沌分析的最小二乘支持向量機(jī)的畢業(yè)生就業(yè)率預(yù)測(cè)模型(LSSVM)。所有模型的測(cè)試環(huán)境,如表1所示。
表1 所有模型的測(cè)試環(huán)境設(shè)置
選擇10所學(xué)校的畢業(yè)生就業(yè)率作為實(shí)驗(yàn)對(duì)象,每所學(xué)校畢業(yè)生就業(yè)率歷史數(shù)據(jù),如表2所示。
表2 仿真測(cè)試的數(shù)據(jù)
對(duì)表2的仿真測(cè)試的數(shù)據(jù)進(jìn)行混沌分析,確定每一所學(xué)校的畢業(yè)生就業(yè)率數(shù)據(jù)的嵌入維數(shù)和延遲時(shí)間,如表3所示。
表3 嵌入維和時(shí)間延遲的確定
從表3可以看出,不同學(xué)校的畢業(yè)生就業(yè)率數(shù)據(jù),它們的混沌特性是不一樣的,得到嵌入維數(shù)和延遲時(shí)間有一定的差別,根據(jù)嵌入維數(shù)和延遲時(shí)間對(duì)表2的畢業(yè)生就業(yè)率數(shù)據(jù)進(jìn)行相空間重構(gòu),得到畢業(yè)生就業(yè)率預(yù)測(cè)學(xué)習(xí)樣本集合。
ARIMA、GM、BPNN、LSSVM的畢業(yè)生就業(yè)率預(yù)測(cè)精度的平均值,如圖2所示。
圖2 畢業(yè)生就業(yè)率預(yù)測(cè)精度對(duì)比
對(duì)圖2的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比和分析。
(1) ARIMA、GM的畢業(yè)生就業(yè)率預(yù)測(cè)精度低于85%,這是由于ARIMA、GM屬于線性建模技術(shù),只能描述畢業(yè)生就業(yè)率的線性變化規(guī)律,而對(duì)隨機(jī)性變化規(guī)律無(wú)法進(jìn)行有效描述,使得ARIMA、GM的畢業(yè)生就業(yè)率預(yù)測(cè)誤差高于15%,超過(guò)了畢業(yè)生就業(yè)率預(yù)測(cè)的實(shí)際應(yīng)用區(qū)間,無(wú)法應(yīng)用于畢業(yè)生就業(yè)管理中,建模結(jié)果沒(méi)有什么實(shí)際意義。
(2) BPNN、LSSVM的畢業(yè)生就業(yè)率預(yù)測(cè)精度要高于ARIMA、GM的畢業(yè)生就業(yè)率預(yù)測(cè)精度,因?yàn)樗鼈儗儆诜蔷€性建模技術(shù),可以描述畢業(yè)生就業(yè)率的隨機(jī)性變化規(guī)律,但是由于沒(méi)有考慮到畢業(yè)生就業(yè)率的混沌特性,使得畢業(yè)生就業(yè)率預(yù)測(cè)精度沒(méi)有超過(guò)90%,說(shuō)明BPNN、LSSVM的畢業(yè)生就業(yè)率結(jié)果不理想。
(3) Chao-LSSVM的畢業(yè)生就業(yè)率預(yù)測(cè)精度高于ARIMA、GM、BPNN、LSSVM,預(yù)測(cè)精度平均值超過(guò)93%,大幅度減少了畢業(yè)生就業(yè)率預(yù)測(cè)誤差,這是因?yàn)槠浣Y(jié)合了混沌分析和最小二乘支持向量機(jī)的優(yōu)點(diǎn),可以對(duì)畢業(yè)生就業(yè)率變化規(guī)律進(jìn)行精確建模,獲得了理想的預(yù)測(cè)結(jié)果。
隨著高校畢業(yè)生人數(shù)不斷增加,執(zhí)行效率也成了評(píng)價(jià)畢業(yè)生就業(yè)率預(yù)測(cè)模型的一個(gè)重要指標(biāo),采用平均建模時(shí)間(秒,s)描述畢業(yè)生就業(yè)率預(yù)測(cè)模型的執(zhí)行效率,如圖3所示。
圖3 畢業(yè)生就業(yè)率預(yù)模型的建模時(shí)間對(duì)比
從圖3的平均建模時(shí)間可以知道,Chao-LSSVM的畢業(yè)生就業(yè)率預(yù)測(cè)模型的執(zhí)行時(shí)間要明顯少于ARIMA、GM、BPNN、LSSVM的執(zhí)行時(shí)間,這是因?yàn)镃hao-LSSVM的建模速度更快,提升了畢業(yè)生就業(yè)率預(yù)測(cè)建模效率,實(shí)際應(yīng)用價(jià)值更高。
畢業(yè)生就業(yè)率預(yù)測(cè)是當(dāng)前高校關(guān)注的一個(gè)重要問(wèn)題,結(jié)合畢業(yè)生就業(yè)率的變化特點(diǎn),設(shè)計(jì)了混沌分析和最小二乘支持向量機(jī)的畢業(yè)生就業(yè)率預(yù)測(cè)模型,并通過(guò)與當(dāng)前經(jīng)典畢業(yè)生就業(yè)率預(yù)測(cè)模型的對(duì)比實(shí)驗(yàn)可以得到如下結(jié)論。
(1) 通過(guò)引入相空間重構(gòu)將原始畢業(yè)生就業(yè)率歷史數(shù)據(jù)映射到多維空間,更好的挖掘了畢業(yè)生就業(yè)率歷史數(shù)據(jù)隱含的變化規(guī)律,有助于后續(xù)的畢業(yè)生就業(yè)率預(yù)測(cè)模型的構(gòu)建。
(2) 利用最小二乘支持向量機(jī)的自適應(yīng)學(xué)習(xí)能力,對(duì)混沌分析后的畢業(yè)生就業(yè)率歷史數(shù)據(jù)進(jìn)行訓(xùn)練,可以更好地?cái)M合畢業(yè)生就業(yè)率變化特點(diǎn),獲得了較優(yōu)的畢業(yè)生就業(yè)率預(yù)測(cè)結(jié)果。
(3) 與經(jīng)典畢業(yè)生就業(yè)率預(yù)測(cè)模型相比,混沌分析和最小二乘支持向量機(jī)的畢業(yè)生就業(yè)率預(yù)測(cè)精度得到了明顯的改善,同時(shí)畢業(yè)生就業(yè)率預(yù)測(cè)效率也得到了有效的提升,預(yù)測(cè)結(jié)果可以為高校就業(yè)管理人員提供有意義的參考信息。