李 楠, 郝文佳
(桂林理工大學(xué) 環(huán)境科學(xué)與工程學(xué)院, 廣西 桂林 541006)
從歷年研究生考試的報(bào)名情況看, 報(bào)考碩士研究生的學(xué)生人數(shù)持續(xù)增加, 2018年我國(guó)研究生報(bào)名人數(shù)為238萬人, 2019年為290萬人, 比上一年增加52萬人, 中國(guó)研究生教育已經(jīng)進(jìn)入了新的歷史發(fā)展階段[1]??佳谐煽?jī)的預(yù)測(cè)可以預(yù)估考生的考試成績(jī), 并為考研的下一個(gè)程序階段做準(zhǔn)備。由于考研成績(jī)與多個(gè)成績(jī)變量有關(guān), 因此為了保證考研成績(jī)結(jié)果的預(yù)測(cè)精度, 需要提出一種高精度考研成績(jī)變量預(yù)測(cè)方法。
教育部在2012年發(fā)布了考研成績(jī)的相關(guān)報(bào)告, 對(duì)考研成績(jī)統(tǒng)計(jì)工作產(chǎn)生了深遠(yuǎn)的影響。但對(duì)考研成績(jī)數(shù)據(jù)的預(yù)測(cè)和研究工作起步較晚, 相關(guān)研究文獻(xiàn)較少。目前對(duì)考研成績(jī)變量預(yù)測(cè)方法的研究成果主要包括多變量GM(1,N)灰色模型成績(jī)預(yù)測(cè)方法、 正交核最小二乘法成績(jī)預(yù)測(cè)方法和權(quán)重分配組合模型成績(jī)預(yù)測(cè)方法等。然而在成績(jī)變量預(yù)測(cè)問題的研究上仍存在缺陷有待改進(jìn), 例如僅憑學(xué)生的單一成績(jī)數(shù)據(jù)對(duì)考研成績(jī)進(jìn)行預(yù)測(cè)、 歷史數(shù)據(jù)的獲取來源過于單一等[2]。為解決上述傳統(tǒng)方法存在的問題, 在前人研究已取得重大成果的基礎(chǔ)上進(jìn)一步探索, 筆者提出了基于Logistic算法的考研成績(jī)變量預(yù)測(cè)方法, 該方法主要立足于Logistic算法, 即回歸分類模型, 與傳統(tǒng)的分析手段不同, 其將考研成績(jī)變量的諸多影響因素按照不同的邏輯層次進(jìn)行劃分, 凸顯出不同層次影響因素的主次效應(yīng), 得出更加精準(zhǔn)的考研成績(jī)變量預(yù)測(cè)結(jié)果。
考研成績(jī)變量預(yù)測(cè)方法在設(shè)計(jì)過程中引入了Logistic算法, 并以該算法的運(yùn)行原理為基礎(chǔ)構(gòu)建對(duì)應(yīng)的回歸分類模型。以某學(xué)生的歷史學(xué)習(xí)數(shù)據(jù)以及歷年考研的成績(jī)數(shù)據(jù)作為初始數(shù)據(jù), 通過模型的運(yùn)算得出考研成績(jī)變量的變化規(guī)律, 結(jié)合考研成績(jī)變量的影響因素得出最終的成績(jī)變量預(yù)測(cè)結(jié)果, 并實(shí)現(xiàn)該預(yù)測(cè)方法的設(shè)計(jì)目的。
歷年考研成績(jī)數(shù)據(jù)的采集是為了獲取研究所需的學(xué)生基礎(chǔ)信息數(shù)據(jù)以及歷史成績(jī)數(shù)據(jù), 其中學(xué)生的基礎(chǔ)信息數(shù)據(jù)包括學(xué)生的學(xué)號(hào)、 年齡和性別等, 由于信息系統(tǒng)中學(xué)生信息的精確度較低, 不能滿足技術(shù)要求, 因此運(yùn)用python工具編寫一個(gè)網(wǎng)絡(luò)爬蟲程序, 通過學(xué)生的身份證號(hào)在相關(guān)平臺(tái)上進(jìn)行歷史數(shù)據(jù)信息的抓取, 并從抓取到的文件中對(duì)此次研究中需要使用的信息數(shù)據(jù)進(jìn)行解析, 最終獲取到可以滿足成績(jī)變量預(yù)測(cè)方法研究要求的學(xué)生歷史信息數(shù)據(jù)[3]。經(jīng)過歷年考研成績(jī)數(shù)據(jù)的收集, 得出的考研學(xué)生基礎(chǔ)數(shù)據(jù)的部分采集結(jié)果如表1所示。
表1 考生基礎(chǔ)數(shù)據(jù)屬性表
學(xué)生的歷史成績(jī)數(shù)據(jù)方面, 從教務(wù)部門獲得該學(xué)院所有專業(yè)多個(gè)學(xué)年的成績(jī)排名數(shù)據(jù), 去除與此次研究無明顯關(guān)聯(lián)的字段屬性, 得出學(xué)生歷史成績(jī)數(shù)據(jù)屬性結(jié)果, 如表2所示。
表2 學(xué)生成績(jī)數(shù)據(jù)屬性表
除了上述學(xué)生對(duì)象的歷史成績(jī)數(shù)據(jù)外, 還需要對(duì)歷年的考研平均數(shù)據(jù)進(jìn)行收集與統(tǒng)計(jì), 并以采集整理完成的結(jié)果作為考研成績(jī)變量預(yù)測(cè)的初始數(shù)據(jù)[4]。
(1)
(2)
其中M為初始數(shù)據(jù)集中的平均值或中位數(shù),n為初始數(shù)據(jù)集中數(shù)據(jù)的數(shù)量[7]。最后從屬性規(guī)約和數(shù)值規(guī)約兩個(gè)方面實(shí)現(xiàn)對(duì)初始數(shù)據(jù)集的規(guī)約處理, 并得出預(yù)處理完成的考研成績(jī)初始數(shù)據(jù)表, 如圖1所示。
圖1 初始數(shù)據(jù)預(yù)處理顯示結(jié)果Fig.1 Initial data pre-processing results
以預(yù)處理完成的初始數(shù)據(jù)為基礎(chǔ), 結(jié)合數(shù)據(jù)內(nèi)容分析結(jié)果與數(shù)據(jù)特征提取結(jié)果, 設(shè)置考研成績(jī)預(yù)測(cè)變量[8]。在本次預(yù)測(cè)方法中設(shè)置的考研成績(jī)變量分別為平均成績(jī)績(jī)點(diǎn)、 高數(shù)加權(quán)平均成績(jī)、 專業(yè)課成績(jī)和四六級(jí)加權(quán)平均成績(jī), 其中平均成績(jī)績(jī)點(diǎn)是評(píng)估考研成績(jī)的一項(xiàng)重要指標(biāo), 該變量的計(jì)算公式如下
(3)
其中GPA為平均成績(jī)績(jī)點(diǎn),fi和gi分別為課程學(xué)分和課程績(jī)點(diǎn),gi的計(jì)算表達(dá)式為
(4)
其中F為學(xué)生的實(shí)際考研科目總分?jǐn)?shù)[9]。加權(quán)平均成績(jī)是學(xué)生每門考研成績(jī)與其權(quán)值比例的乘積計(jì)算出的平均成績(jī), 其計(jì)算表達(dá)式為
(5)
其中Fi為加權(quán)科目分?jǐn)?shù),WA為單科考研的加權(quán)平均成績(jī)。通過式(5)的計(jì)算可得出高數(shù)、 政治以及英語四六級(jí)的加權(quán)成績(jī)計(jì)算結(jié)果。而專業(yè)課成績(jī)可以通過數(shù)據(jù)調(diào)取直接得出, 為提高數(shù)據(jù)的參考價(jià)值, 可以計(jì)算專業(yè)課的平均值代替某一次專業(yè)課的實(shí)際成績(jī)。
Logistic回歸分類算法模型的構(gòu)建是用于描述分類響應(yīng)變量與解釋變量之間的關(guān)系, 在本研究中也就是歷史考研成績(jī)、 學(xué)生平時(shí)成績(jī)與考研成績(jī)之間的變量關(guān)系[10]。定義模型中的響應(yīng)變量為Y, 且該變量只有0和1兩種取值結(jié)果, 假設(shè)Y依賴于p個(gè)自變量, 記為Xi, 則在自變量的作用下Y取值為0或1的概率可表示為
(6)
式(6)為L(zhǎng)ogistic回歸分類算法模型的一般形式, 其中βi為模型的回歸系數(shù), 當(dāng)i的取值為0時(shí),β0為常數(shù)項(xiàng), 得出的Logistic回歸分類算法模型建立結(jié)果如圖2所示。
圖2 Logistic回歸分類算法模型框圖Fig.2 Logistic block diagram of regression classification algorithm
判斷一個(gè)變量是否能對(duì)相應(yīng)變量提供顯著的附加解釋信息, 若滿足則將該變量選入Logistic回歸分類算法模型當(dāng)中, 否則剔除該變量。通過模型變量的篩選, 得出模型對(duì)應(yīng)的Logistic回歸分類函數(shù)如圖3所示。
從圖3中可以看出, Logistic函數(shù)的值域?yàn)閇0,1], 保證了模型概率估計(jì)的合理性。受到自變量變化的影響, 響應(yīng)變量的概率值也發(fā)生了變化[11]。則將影響考研成績(jī)變量的影響因素作為模型的輸入值代入模型中, 模型的輸出值即為成績(jī)變量回歸分類的結(jié)果。
影響考研成績(jī)的因素可以分為個(gè)人因素、教學(xué)因素、環(huán)境因素以及專業(yè)因素等, 其中個(gè)人因素是考生的學(xué)習(xí)狀態(tài)、 對(duì)專業(yè)知識(shí)的理解程度以及對(duì)專業(yè)知識(shí)的應(yīng)用能力等[12]。教學(xué)因素是考生在考研學(xué)習(xí)階段接受的教學(xué)水平, 具體包括教師的教學(xué)水平、 教學(xué)資源的數(shù)量以及教學(xué)資源的來源等。環(huán)境因素主要是生源地因素和接受教育環(huán)境的因素, 不同地區(qū)的考研政策以及接收條件不同, 不同生源地考題的難易程度也有所區(qū)別。而專業(yè)因素是學(xué)生報(bào)考的專業(yè)是否與當(dāng)前接受教育的專業(yè)有關(guān), 與必考科目, 即高數(shù)、 政治以及英語科目的關(guān)聯(lián)程度。綜合所有考研成績(jī)的影響因素, 并將其作為L(zhǎng)ogistic回歸分類算法的自變量導(dǎo)入構(gòu)建的模型中, 得出對(duì)應(yīng)的響應(yīng)變量, 即考研成績(jī)變量的概率測(cè)算結(jié)果。
通過對(duì)歷史考研成績(jī)數(shù)據(jù)以及學(xué)生成績(jī)數(shù)據(jù)的分析與特征提取, 得出考研成績(jī)變量在無影響因素作用下的變化規(guī)律。然后利用Logistic回歸分類算法模型, 分析影響變量與考研成績(jī)變量之間的關(guān)系, 綜合兩個(gè)分析結(jié)果得出考研成績(jī)變量的預(yù)測(cè)結(jié)果。多個(gè)考生的成績(jī)變量數(shù)據(jù), 通過對(duì)數(shù)據(jù)集的遍歷得出多個(gè)模型輸出結(jié)果, 并選擇概率值最高的分類數(shù)據(jù)作為考研成績(jī)變量的預(yù)測(cè)結(jié)果。
以全國(guó)256個(gè)地級(jí)及以上城市的1 195所本科高等學(xué)院獲得各個(gè)城市本科高校生作為此次實(shí)驗(yàn)的研究對(duì)象。選擇的研究對(duì)象為具有考研意愿的大四學(xué)生, 由于生源地對(duì)考生的成績(jī)存在著一定的影響, 因此在選擇考研研究對(duì)象時(shí), 需要將考生的生源地信息一同存儲(chǔ)到主測(cè)環(huán)境中, 作為實(shí)驗(yàn)的自變量之一。通過對(duì)學(xué)生數(shù)據(jù)的篩選最終確定實(shí)驗(yàn)研究對(duì)象共7 642人, 具體的研究對(duì)象統(tǒng)計(jì)情況如表3所示。
表3 考研研究對(duì)象統(tǒng)計(jì)表
針對(duì)選擇的實(shí)驗(yàn)研究樣本, 調(diào)取每個(gè)考生在校期間的成績(jī), 需要調(diào)取的成績(jī)包括四六級(jí)成績(jī)、 英語成績(jī)、 高數(shù)成績(jī)、 政治成績(jī)和專業(yè)課成績(jī), 并在主測(cè)環(huán)境中生成對(duì)應(yīng)的初始數(shù)據(jù), 如圖4所示。
圖4 考研成績(jī)樣本數(shù)據(jù)源Fig.4 Sample data source for postgraduate examination
除了研究對(duì)象的平時(shí)成績(jī)外, 還需要調(diào)取不同生源地近5年不同專業(yè)的考研成績(jī), 包括考研的平均成績(jī)以及考研的分?jǐn)?shù)線等。按照相同的方式導(dǎo)入到實(shí)驗(yàn)環(huán)境中, 并生成對(duì)應(yīng)的數(shù)據(jù)庫(kù)表。
對(duì)比設(shè)計(jì)基于Logistic算法的考研成績(jī)變量預(yù)測(cè)方法與現(xiàn)有預(yù)測(cè)方法之間的預(yù)測(cè)誤差, 凸顯設(shè)計(jì)的考研成績(jī)變量預(yù)測(cè)方法的應(yīng)用價(jià)值。為了保證實(shí)驗(yàn)結(jié)果的可信度, 在實(shí)驗(yàn)中分別設(shè)置傳統(tǒng)的考研成績(jī)變量預(yù)測(cè)方法和文獻(xiàn)[5]中的基于正交核最小二乘法的成績(jī)預(yù)測(cè)方法作為此次實(shí)驗(yàn)的兩個(gè)對(duì)比方法, 其中傳統(tǒng)的預(yù)測(cè)方法是通過分析歷年考研成績(jī)變量的變化趨勢(shì), 得出對(duì)應(yīng)的變化規(guī)律, 從而得出預(yù)測(cè)結(jié)果。而文獻(xiàn)[5]中的預(yù)測(cè)方法, 在傳統(tǒng)預(yù)測(cè)方法的基礎(chǔ)上應(yīng)用了正交核最小二乘法, 通過該技術(shù)方法的應(yīng)用, 分析歷史考研成績(jī)數(shù)據(jù)與成績(jī)變量之間的關(guān)系, 得出最終的成績(jī)預(yù)測(cè)結(jié)果。分別將3種預(yù)測(cè)方法導(dǎo)入到相同的實(shí)驗(yàn)環(huán)境中, 并連接初始樣本數(shù)據(jù), 保證預(yù)測(cè)方法可以實(shí)時(shí)調(diào)用樣本數(shù)據(jù)。設(shè)置考研成績(jī)變量的實(shí)際預(yù)測(cè)數(shù)據(jù), 其中部分考研成績(jī)變量的數(shù)據(jù)設(shè)置情況如表4所示。
表4 考研成績(jī)變量數(shù)據(jù)設(shè)置表
將3種方法的預(yù)測(cè)結(jié)果與設(shè)置的數(shù)據(jù)做對(duì)比, 可以得出有關(guān)考研成績(jī)變量預(yù)測(cè)誤差的實(shí)驗(yàn)結(jié)果, 其中設(shè)計(jì)的考研成績(jī)變量的預(yù)測(cè)輸出結(jié)果如圖5所示。
圖5 考研成績(jī)變量預(yù)測(cè)界面Fig.5 Prediction interface of grade variables
預(yù)測(cè)對(duì)比結(jié)果, 其中樣本序號(hào)1的預(yù)測(cè)對(duì)比結(jié)果如表5所示。
表5 考研成績(jī)預(yù)測(cè)對(duì)比結(jié)果
從表5可以看出, 在實(shí)驗(yàn)樣本1中應(yīng)用傳統(tǒng)的成績(jī)變量預(yù)測(cè)方法, 得出的平均預(yù)測(cè)誤差約為0.58, 而應(yīng)用文獻(xiàn)[5]中提出的以及本設(shè)計(jì)的成績(jī)變量預(yù)測(cè)方法, 對(duì)應(yīng)的平均預(yù)測(cè)誤差分別為0.57和0.56。使用相同的測(cè)試方法得出本次實(shí)驗(yàn)中7 642個(gè)樣本的平均預(yù)測(cè)誤差, 通過對(duì)比傳統(tǒng)預(yù)測(cè)方法和文獻(xiàn)[5]中預(yù)測(cè)方法的平均預(yù)測(cè)誤差分別為0.65和0.62, 而筆者預(yù)測(cè)方法的平均預(yù)測(cè)誤差為0.54, 由此可見設(shè)計(jì)預(yù)測(cè)方法的預(yù)測(cè)準(zhǔn)確性更高。其原因是所設(shè)計(jì)預(yù)測(cè)方法綜合所有考研成績(jī)的影響因素, 并將其作為L(zhǎng)ogistic回歸分類算法的自變量導(dǎo)入到構(gòu)建的模型中, 得出對(duì)應(yīng)的響應(yīng)變量, 即考研成績(jī)變量的概率測(cè)算結(jié)果, 在一定程度上, 有助于提高預(yù)測(cè)結(jié)果準(zhǔn)確性。
大學(xué)生畢業(yè)去向的選擇不僅對(duì)大學(xué)生自身非常重要, 同時(shí)也是國(guó)家、 社會(huì)、 高校十分關(guān)注的問題。考研首先要符合國(guó)家標(biāo)準(zhǔn), 其次按照考研進(jìn)度, 分別完成與學(xué)校聯(lián)系、 報(bào)名、 初試、 調(diào)劑、 復(fù)試、 復(fù)試調(diào)劑以及錄取等程序??佳谐煽?jī)是決定大學(xué)生能順利拿到研究生學(xué)位的重要決定因素, 考研成績(jī)按照不同的報(bào)考專業(yè), 對(duì)應(yīng)的計(jì)算方式不同, 考研的必考科目包括專業(yè)課、 英語、 數(shù)學(xué)和政治, 此外, 其他專業(yè)課均為招生自主命題、 閱卷??佳谐煽?jī)變量的預(yù)測(cè)可以在一定程度上影響考生的實(shí)際成績(jī), 通過Logistic算法的應(yīng)用解決了變量單一的問題, 從實(shí)驗(yàn)結(jié)果看能有效地提升對(duì)考研成績(jī)變量預(yù)測(cè)的準(zhǔn)確度, 因此設(shè)計(jì)的基于Logistic算法的考研成績(jī)變量預(yù)測(cè)方法可以推廣使用。