鞏 紅,陳 陽(yáng),周晨暉,李昊楠,喻小康
(1.西安郵電大學(xué) 研究生院,陜西 西安 710121;2.西安郵電大學(xué) 經(jīng)濟(jì)與管理學(xué)院,陜西 西安 710121; 3.西安郵電大學(xué) 馬克思主義學(xué)院,陜西 西安 710121)
隨著碩士研究生招生規(guī)模的擴(kuò)大,中國(guó)已經(jīng)成為研究生教育大國(guó)[1]。畢業(yè)研究生人數(shù)不斷攀升,就業(yè)問(wèn)題也日漸受到重視。在碩士研究生就業(yè)預(yù)測(cè)的研究中,國(guó)內(nèi)研究者大多使用傳統(tǒng)的回歸方法構(gòu)建就業(yè)能力預(yù)測(cè)模型,但此方法在構(gòu)建非線性的模型時(shí)難以精確預(yù)測(cè)。因此,構(gòu)建一個(gè)能夠準(zhǔn)確預(yù)測(cè)碩士研究生就業(yè)能力的模型顯得十分重要。
近年來(lái),學(xué)界關(guān)于碩士研究生個(gè)體就業(yè)能力影響因素的研究主要分為探究高校對(duì)就業(yè)的影響和探究碩士研究生個(gè)體特征對(duì)就業(yè)能力的影響兩類(lèi)。高校對(duì)碩士研究生就業(yè)能力的影響是多方面的,文獻(xiàn)[2]發(fā)現(xiàn)雙一流建設(shè)高校的本科學(xué)歷對(duì)所有層次的碩士研究生的就業(yè)滿意度均有積極影響。但是,在起薪方面,碩士研究生的本科學(xué)歷僅對(duì)雙一流高校碩士研究生有正向作用。另有研究表明,碩士研究生的培養(yǎng)目標(biāo)與就業(yè)需求的不匹配是導(dǎo)致研究生就業(yè)難的重要因素之一[3]。碩士研究生的個(gè)體特征對(duì)就業(yè)能力的影響因素主要包括先賦性因素[4-6]和研究生在碩士階段學(xué)習(xí)獲得的能力、成果和學(xué)習(xí)經(jīng)歷等后致性因素[7-8]。
目前,主要使用邏輯回歸算法構(gòu)建碩士研究生的就業(yè)模型。孫怡帆等[9]使用Lasso-Logisitic算法構(gòu)建畢業(yè)生去向預(yù)測(cè)模型。王立非等[10]運(yùn)用線性回歸分析探究家庭背景、本科背景、生源地等與就業(yè)單位類(lèi)型的關(guān)系。
隨著機(jī)器學(xué)習(xí)的日益完善,國(guó)內(nèi)外均有研究者使用機(jī)器學(xué)習(xí)算法研究研究生就業(yè)問(wèn)題。Bowers在利用相對(duì)操作特征(Relative Operating Characteristic,ROC)分析學(xué)生各項(xiàng)輟學(xué)指標(biāo)對(duì)其輟學(xué)行為進(jìn)行預(yù)測(cè)[11]。Oztekin構(gòu)建了一個(gè)集成畢業(yè)生畢業(yè)預(yù)測(cè)模型,選擇30項(xiàng)教育數(shù)據(jù)預(yù)測(cè)學(xué)生是否順利畢業(yè)[12]。Qu[13]等通過(guò)多層感知器構(gòu)建學(xué)生就業(yè)預(yù)測(cè)模型。國(guó)內(nèi)也有許多研究者對(duì)此進(jìn)行研究[14-16],分別提出了基于遺傳神經(jīng)網(wǎng)絡(luò)的學(xué)生成績(jī)預(yù)測(cè)方法、集成學(xué)習(xí)方法并用其構(gòu)建學(xué)生成績(jī)預(yù)測(cè)模型及構(gòu)建了基于最鄰近規(guī)則分類(lèi)(K-Nearest Neighbors,KNN)算法的分類(lèi)預(yù)測(cè)模型。
現(xiàn)有的研究多從不同的角度探究碩士研究生就業(yè)能力影響因素問(wèn)題,但多從單個(gè)視角出發(fā)進(jìn)行研究,針對(duì)碩士研究生培養(yǎng)過(guò)程以及客觀數(shù)據(jù)的研究相對(duì)較少,并且模型指標(biāo)數(shù)目較少。在研究方法方面,構(gòu)建模型時(shí),未預(yù)先對(duì)數(shù)據(jù)分布問(wèn)題進(jìn)行處理,導(dǎo)致最終結(jié)果可信度不足。因此,為了更加深入地分析碩士研究生就業(yè)能力的影響因素,預(yù)測(cè)碩士畢業(yè)生的就業(yè)能力,擬構(gòu)建一種基于CatBoost算法的研究生就業(yè)能力模型。采用SMOTE過(guò)采樣方法處理數(shù)據(jù)集的不平衡問(wèn)題以防止后續(xù)模型產(chǎn)生偏差。將該算法與其他算法進(jìn)行對(duì)比分析,驗(yàn)證基于該算法的碩士研究生就業(yè)能力模型的預(yù)測(cè)效果,并對(duì)影響碩士研究生就業(yè)能力的影響因素進(jìn)行分析。
考慮影響碩士研究生就業(yè)能力的主要因素,設(shè)定了科研訓(xùn)練、實(shí)踐訓(xùn)練及學(xué)位論文訓(xùn)練等4個(gè)一級(jí)指標(biāo)和科研項(xiàng)目、期刊論文及創(chuàng)新基金等10個(gè)二級(jí)指標(biāo),具體的指標(biāo)及指標(biāo)內(nèi)容如表1所示。
表1 碩士研究生培養(yǎng)過(guò)程中的指標(biāo)設(shè)置
1.2.1 指標(biāo)測(cè)量
將收集到的原始數(shù)據(jù)集分為分類(lèi)型和賦值型變量?jī)深?lèi),具體分類(lèi)型變量分類(lèi)標(biāo)準(zhǔn)和連續(xù)型變量賦值標(biāo)準(zhǔn)分別如表2和表3所示。
表2 分類(lèi)型變量分類(lèi)標(biāo)準(zhǔn)
表3 連續(xù)型變量賦值標(biāo)準(zhǔn)
通過(guò)計(jì)算峰度、偏度指標(biāo)進(jìn)行檢驗(yàn),所采集的數(shù)據(jù)近似服從正態(tài)分布,對(duì)于少量輸入項(xiàng)缺失的樣本采用平均值填補(bǔ)樣本的缺失值。
1.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化
考慮變量具有種類(lèi)多、量綱多和量綱差異大的特點(diǎn),將對(duì)收集到的數(shù)據(jù)進(jìn)行Z-score標(biāo)準(zhǔn)化處理。經(jīng)過(guò)標(biāo)準(zhǔn)化處理的數(shù)據(jù)可以使不同類(lèi)型特征變量的量綱相同,能處理防止由于單個(gè)變量量綱過(guò)大從而造成結(jié)果精度損失的情況發(fā)生。變量的具體轉(zhuǎn)化公式[9]為
(1)
1.2.3 SMOTE過(guò)采樣
在所收集的數(shù)據(jù)集中,未就業(yè)碩士研究生樣本遠(yuǎn)少于就業(yè)碩士研究生樣本,導(dǎo)致樣本數(shù)據(jù)分布不均勻。若直接使用該類(lèi)數(shù)據(jù)集對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練,會(huì)使輸出結(jié)果偏向于占比較大的類(lèi)別樣本,影響到模型的計(jì)算準(zhǔn)確性。因此,采用SMOTE過(guò)采樣方法,在不改變?cè)擃?lèi)樣本總體特征的前提下,直接對(duì)占比較少的類(lèi)別樣本按照特定規(guī)律增加其數(shù)量,便于模型構(gòu)建。
對(duì)于少數(shù)類(lèi)中每一個(gè)樣本δ,以歐氏距離為標(biāo)準(zhǔn)計(jì)算其到少數(shù)類(lèi)樣本集中所有樣本的距離,得到其k近鄰。首先,根據(jù)樣本不平衡比例設(shè)置一個(gè)采樣比例以確定采樣倍率N。其次,對(duì)于每一個(gè)少數(shù)類(lèi)樣本δ,從其近鄰中隨機(jī)選擇若干個(gè)樣本,假設(shè)選擇的近鄰為o。最后,對(duì)于每一個(gè)隨機(jī)選出的近鄰分別與原樣本構(gòu)建新的樣本[17],新樣本的表達(dá)式為
T=o+rand(0,1)(x-0)
式中,rand(0,1)表示0到1的隨機(jī)數(shù)。
由此可以產(chǎn)生多個(gè)新的樣本,且新的樣本仍然具有原樣本的基本特征。采用SMOTE過(guò)采樣方法,將未就業(yè)研究生樣本的數(shù)量擴(kuò)充,與就業(yè)研究生樣本數(shù)量持平。
將機(jī)器學(xué)習(xí)方法運(yùn)用到高校就業(yè)的工作中,用于挖掘?qū)W生個(gè)人培養(yǎng)數(shù)據(jù)與就業(yè)之間的關(guān)系,進(jìn)一步建立就業(yè)能力預(yù)測(cè)模型。首先,將原始數(shù)據(jù)集進(jìn)行數(shù)值化、缺失值填充和標(biāo)準(zhǔn)化等數(shù)據(jù)預(yù)處理。其次,對(duì)數(shù)據(jù)集進(jìn)行SMOTE過(guò)采樣,從而消除數(shù)據(jù)集樣本的不平衡問(wèn)題。進(jìn)而將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,再利用10倍交叉驗(yàn)證將所得訓(xùn)練集不斷劃分,充分訓(xùn)練CatBoost模型。最后,使用測(cè)試集驗(yàn)證CatBoost訓(xùn)練模型的有效性。碩士研究生就業(yè)能力預(yù)測(cè)建模具體過(guò)程如圖1所示。
圖1 就業(yè)能力預(yù)測(cè)建模過(guò)程
考慮CatBoost算法[17]在高效合理地處理類(lèi)別特征、進(jìn)行特征組合、豐富特征維度及克服梯度偏差方面具有一定優(yōu)越性,在處理特征較多且分布不均勻的碩士研究生就業(yè)數(shù)據(jù)方面具有相對(duì)優(yōu)勢(shì)。因此,通過(guò)CatBoost算法對(duì)碩士研究生培養(yǎng)及就業(yè)數(shù)據(jù)進(jìn)行預(yù)測(cè)模型的構(gòu)建。
2.2.1 類(lèi)別特征處理
由于研究中存在一些取值較多的特征變量,如果使用目前使用廣泛的one-hot方法進(jìn)行處理,會(huì)產(chǎn)生大量新的特征,最終導(dǎo)致計(jì)算量過(guò)大。因此,Catboost算法采用目標(biāo)變量統(tǒng)計(jì)方法處理類(lèi)別特征,該算法能夠減少計(jì)算量以及降低信息損失程度。具體步驟如下。
步驟1設(shè)S為樣本總數(shù)據(jù)集,Xi為樣本類(lèi)別特征向量,表達(dá)式分別為
式中:Y為樣本的標(biāo)簽值;x為樣本的類(lèi)別特征;m表示樣本類(lèi)別特征總數(shù);n為樣本總數(shù)。
(3) 試驗(yàn)初期,排水管壁面積的大小會(huì)影響土體梯度比Gr值下降速度。與小直徑排水管壁試樣相比,在大直徑試樣條件下,礫質(zhì)黏性土下降速度變緩的時(shí)間比小直徑試樣早3 h,砂質(zhì)黏性土早3 h,粉質(zhì)黏性土早1 h。梯度比下降速度大小為:大直徑排水管壁試樣>小直徑排水管壁試樣。
步驟2將所有樣本隨機(jī)排列,生成多個(gè)隨機(jī)序列。
步驟3針對(duì)某個(gè)序列,用訓(xùn)練數(shù)據(jù)集的平均標(biāo)簽值替換類(lèi)別,第i個(gè)樣本中的第k個(gè)特征標(biāo)簽值計(jì)算公式為
(1)
式中:若xjk=xik,則[xjk=xik]=1;若xjk≠xik,則[xjk=xik]=0。
步驟4設(shè)σ=(σ1,σ2,…,σn)為一個(gè)重新排序的隨機(jī)樣本序列,σj表示序列σ中第j個(gè)樣本,可以將xik替換為
(2)
式中:P表示先驗(yàn)值;a(a>0)表示參數(shù),即先驗(yàn)權(quán)重有助于減少低頻類(lèi)別的噪聲。
2.2.2 克服梯度偏差
包括CatBoost算法在內(nèi)的很多Boosting算法都易導(dǎo)致過(guò)度擬合問(wèn)題,可通過(guò)建立新樹(shù)模擬現(xiàn)有模型的梯度,主要包括兩個(gè)步驟。
步驟1構(gòu)建樹(shù)結(jié)構(gòu)。
步驟2確定葉子節(jié)點(diǎn)的值。先通過(guò)列舉各種不同的分割方式構(gòu)建樹(shù),再確定葉子節(jié)點(diǎn)的值,隨后通過(guò)對(duì)每種不同分割方式得到的樹(shù)進(jìn)行打分,選擇最佳的樹(shù)結(jié)構(gòu)。CatBoost算法通過(guò)對(duì)經(jīng)典梯度提升算法的改進(jìn)嘗試解決過(guò)度擬合的問(wèn)題,即先通過(guò)無(wú)偏估計(jì)的方法實(shí)現(xiàn)構(gòu)建樹(shù)結(jié)構(gòu),再采取原來(lái)GBDT的實(shí)施方案確定葉子節(jié)點(diǎn)值,葉子節(jié)點(diǎn)的值即梯度。
假設(shè)Fi是第一次建立i樹(shù)后構(gòu)建的模型,由于在模型計(jì)算過(guò)程中,作為重要因素的梯度值會(huì)產(chǎn)生偏移,導(dǎo)致結(jié)果可信度及解釋力降低。因此,采用Ordered boosting方法解決此問(wèn)題。對(duì)于每個(gè)Xk,算法訓(xùn)練訓(xùn)練集中不包含Xk的模型Mk。該模型對(duì)于Xk不會(huì)使用梯度估計(jì)進(jìn)行更新,但會(huì)對(duì)其余樣本的梯度進(jìn)行估計(jì)。最后,使用這些梯度訓(xùn)練基學(xué)習(xí)器并得到最終模型。此外,CatBoost訓(xùn)練時(shí)會(huì)生成s個(gè)隨機(jī)排列的訓(xùn)練數(shù)據(jù)集,以此加強(qiáng)模型的魯棒性,并對(duì)隨機(jī)置換進(jìn)行采樣并獲得梯度,避免過(guò)擬合現(xiàn)象的發(fā)生。
考慮單次劃分訓(xùn)練集和測(cè)試集易導(dǎo)致計(jì)算結(jié)果的偶然性。因此,采用10倍交叉驗(yàn)證的方法降低偶然性,提高泛化能力[17]。10倍交叉驗(yàn)證原理如圖2所示。
圖2 10倍交叉驗(yàn)證原理
對(duì)不同算法的預(yù)測(cè)模型運(yùn)用混淆矩陣(Confusion Matrix,CM)進(jìn)行性能評(píng)價(jià),其是一個(gè)用來(lái)總結(jié)分類(lèi)器評(píng)價(jià)指標(biāo)的矩陣[15],常見(jiàn)的二分類(lèi)問(wèn)題的混淆矩陣如表4所示。
表4 混淆矩陣
其中:PT表示真正例,真實(shí)值為正,預(yù)測(cè)值也為正;PF表示假正例,真實(shí)值為負(fù),但預(yù)測(cè)值為正;NF表示假反例,真實(shí)值為正,但預(yù)測(cè)值為負(fù);NT表示真反例,真實(shí)值為負(fù),預(yù)測(cè)值也為負(fù)。
根據(jù)上述4個(gè)數(shù)值可以得到評(píng)價(jià)預(yù)測(cè)模型性能的常用指標(biāo),包括準(zhǔn)確率、召回率和F1值,具體計(jì)算表達(dá)式分別為
準(zhǔn)確率和召回率是一對(duì)矛盾的度量。一般來(lái)說(shuō),準(zhǔn)確率高時(shí),召回率往往偏低;召回率高時(shí),準(zhǔn)確率往往偏低??紤]F1值是精確率和召回率的調(diào)和值,選用準(zhǔn)確率,召回率和F1值3個(gè)評(píng)價(jià)標(biāo)準(zhǔn)。
選取某高校2019—2020屆電子信息類(lèi)碩士研究生作為研究對(duì)象。依據(jù)每個(gè)數(shù)據(jù)庫(kù)中的共同信息,即“學(xué)號(hào)”和“姓名”,將多個(gè)數(shù)據(jù)庫(kù)進(jìn)行集成,組成一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。再?gòu)臄?shù)據(jù)倉(cāng)庫(kù)中提取相關(guān)信息組成數(shù)據(jù)集,包含有學(xué)號(hào)、姓名、獲得技能證書(shū)、學(xué)位課成績(jī)、期刊論文發(fā)表情況、專(zhuān)利申請(qǐng)獲批情況、參與學(xué)科競(jìng)賽情況、參與科研項(xiàng)目情況、獲得創(chuàng)新基金情況、學(xué)業(yè)獎(jiǎng)學(xué)金、圖書(shū)閱讀量、畢業(yè)論文情況及就業(yè)情況等信息,共收集到了961個(gè)電子信息類(lèi)碩士研究生樣本數(shù)據(jù)。其中,就業(yè)碩士研究生樣本占95.32%,未就業(yè)碩士研究生樣本占4.68%。
對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)類(lèi)型轉(zhuǎn)化、缺失值處理、數(shù)據(jù)的標(biāo)準(zhǔn)化及數(shù)據(jù)的過(guò)采樣。整個(gè)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理后的部分樣本數(shù)據(jù)如表5所示。
表5 數(shù)據(jù)集標(biāo)準(zhǔn)化處理后部分樣本數(shù)據(jù)
為了訓(xùn)練得到電子信息類(lèi)碩士研究生的就業(yè)能力預(yù)測(cè)模型,設(shè)定了CatBoost算法的參數(shù)學(xué)習(xí)率、樹(shù)最大深度、過(guò)擬合檢測(cè)閾值以及最大葉子樹(shù)等10項(xiàng)相關(guān)模型參數(shù)。具體模型參數(shù)如表6所示。
表6 模型參數(shù)
在預(yù)測(cè)碩士研究生就業(yè)能力時(shí),采用10倍交叉驗(yàn)證方法提升模型的泛化能力,將原始數(shù)據(jù)集劃分為10個(gè)子數(shù)據(jù)集,輪流將每個(gè)子數(shù)據(jù)集作為驗(yàn)證集,其余作為訓(xùn)練集,共訓(xùn)練10次。
為了驗(yàn)證該模型的預(yù)測(cè)性能,將CatBoost算法與其他機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,按召回率、精確率、F1值及誤判率分別進(jìn)行排名。將所有排名相加得到綜合排名作為最終的評(píng)價(jià)指標(biāo)。不同算法就業(yè)能力預(yù)測(cè)模型性能綜合排名如表7所示。在召回率、精確率、F1值以及誤判率4項(xiàng)指標(biāo)中,CatBoost算法均排名第一。此外,AdaBoost、GBDT、隨機(jī)森林以及決策樹(shù)等算法各項(xiàng)指標(biāo)與CatBoost算法均有一定差距,樸素貝葉斯、支持向量機(jī)和邏輯回歸則相差較大。CatBoost、AdaBoost、決策樹(shù)以及GBDT算法均是非線性模型。而樸素貝葉斯、支持向量機(jī)和邏輯回歸均是線性模型,這表明碩士研究生就業(yè)能力相關(guān)數(shù)據(jù)往往呈現(xiàn)復(fù)雜的非線性關(guān)系。
表7 不同算法就業(yè)能力預(yù)測(cè)模型性能對(duì)比
經(jīng)過(guò)指標(biāo)選取與10倍交叉驗(yàn)證與不同算法對(duì)比可得,該算法與樸素貝葉斯、支持向量機(jī)、邏輯回歸等算法在召回率、精確率、F1值和誤判率等方面比較而言,預(yù)測(cè)效果更優(yōu)。
同時(shí),經(jīng)過(guò)最終的觀測(cè)指標(biāo),在最終環(huán)節(jié)得到的觀測(cè)值表中,科研項(xiàng)目、圖書(shū)閱讀量、期刊論文及學(xué)位課成績(jī)對(duì)就業(yè)能力的影響力度比較大,具體如圖3所示。
圖3 10個(gè)觀測(cè)指標(biāo)對(duì)就業(yè)能力影響程度排名
為了預(yù)測(cè)碩士研究生的就業(yè)能力,通過(guò)Z-core對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和SMOTE過(guò)采樣處理,采用CatBoost算法構(gòu)建碩士畢業(yè)生就業(yè)能力預(yù)測(cè)模型,并與其他算法進(jìn)行綜合對(duì)比。研究結(jié)果顯示,該算法在召回率、精確率、F1值、誤判率4項(xiàng)指標(biāo)方面均優(yōu)于隨機(jī)森林、貝葉斯、支持向量機(jī)等主流算法。因此,基于該算法的碩士研究生就業(yè)能力預(yù)測(cè)模型的預(yù)測(cè)能力更強(qiáng)。
基于該研究,將對(duì)碩士研究生就業(yè)能力的培養(yǎng)從以下兩個(gè)方面提出建議。
第一,宏觀層面。從碩士研究生管理部門(mén)角度出發(fā),管理部門(mén)在政策支持的同時(shí),可以更加重視在研究生培養(yǎng)過(guò)程中對(duì)碩士研究生就業(yè)能力的培養(yǎng),設(shè)定更多有利于增長(zhǎng)碩士研究生能力的項(xiàng)目。如重視獎(jiǎng)學(xué)金體系,鼓勵(lì)碩士研究生在校期間發(fā)表更多高質(zhì)量的期刊論文,提高研究能力;著重提升碩士研究生課程質(zhì)量,在課程設(shè)定中加入更多的開(kāi)放環(huán)節(jié),增強(qiáng)碩士研究生的鉆研能力;帶動(dòng)碩士研究生有更多機(jī)會(huì)參與到科研項(xiàng)目中或自己申請(qǐng)科研項(xiàng)目。
第二,微觀層面。從碩士研究生個(gè)人角度出發(fā),在入學(xué)之前,需要對(duì)自己所選專(zhuān)業(yè)發(fā)展前景有清晰的了解,并對(duì)未來(lái)發(fā)展方向有明確的目標(biāo)設(shè)定。在碩士研究生的整個(gè)學(xué)習(xí)期間,在注重學(xué)科知識(shí)體系的系統(tǒng)化學(xué)習(xí)的同時(shí),加強(qiáng)科研、外延知識(shí)學(xué)習(xí)、學(xué)術(shù)論文等能力的培養(yǎng)。