• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于 LSTM 的高校高考錄取分數(shù)預測研究

      2020-03-19 12:07:24王宏利孫全亮呂震宇
      經(jīng)濟師 2020年2期
      關鍵詞:錄取分數(shù)排位平方和

      ●王宏利 邊 帥,2 孫全亮 呂震宇

      一、引言

      在高考志愿填報中,精準預測一所高校的錄取分數(shù)可以有效避免志愿填報的盲目性。由于歷年高考試題在難易度上有所不同,高考分數(shù)也會隨之上下浮動,因此無法根據(jù)某高校前幾年度錄取分數(shù)直接估計出當年錄取分數(shù)。目前,各省考試院都會公布諸多高考數(shù)據(jù),包括分批次、分文理科的高校錄取最低分、平均分、錄取人數(shù)信息、分文理科一分一檔表、省控線信息等。目前比較流行的高校錄取分數(shù)預測方法包括線差法、等效分法、平均排位法等,都是通過對高考信息的某種線性變換實現(xiàn)的。然而高校錄取人數(shù)的變化、歷史數(shù)據(jù)年份的長短等因素以某種不可預知的非線性關系也在影響高校錄取分數(shù),因此需要一種能夠充分吸納這些非線性因素的新預測方法,以實現(xiàn)更為精準的高校高考錄取分數(shù)預測。

      二、相關研究

      目前對高校高考錄取分數(shù)預測的主流方法包括線差法、等效分法、平均排位法、修正的平均排位法、組合預測模型、神經(jīng)網(wǎng)絡等。

      線差法是用“當年省控線+上年錄取分與省控線的差值(線差)”作為預測錄取分數(shù)的一種方法。該方法計算簡便,但預測精度較低,尤其是距離省控線越遠預測精度越低。等效分法首先根據(jù)上年一分一檔表將上年錄取分映射為排名,再根據(jù)當年一分檔表將排名反向映射成預測錄取分的一種方法。該方法預測準確度相對較高,但未考慮考生總?cè)萘亢褪】鼐€變化對預測的影響。平均排位法是一種改進的等效分法,它使用前n-1 年最低錄取分排名平均值預測第n 年的錄取分,同樣存在預測精度不高、受考生總?cè)萘亢褪】鼐€變化的影響等問題。修正的平均排位法使用上年高校排名和當年錄取人數(shù)增減變化修正平均排位法結(jié)果,能夠部分提升排名靠前的高校錄取分預測精度。

      組合預測模型是通過各種不同的單項預測模型所組成的一種模型。周帆①將三種不同的單項預測模型組合在一起,通過最小二乘法運算得出所需要的最優(yōu)變權重的系數(shù),最后再利用常用的誤差平方和做對比驗證。通過2002——2008 年重慶市文科二批錄取分數(shù)實驗得出,組合模型的預測精度高。但此模型并未能解決高考分數(shù)線受題目難易程度的影響等因素。李敬文②等采用能用數(shù)學思維闡述不分明現(xiàn)象的模糊數(shù)學和需要較少觀測數(shù)據(jù)的灰色預測模型相結(jié)合的方式構(gòu)建模糊灰色模型,此模型綜合考慮省控線、招生計劃人數(shù)、學生對學校的喜好程度等因素。通過蘭州大學和蘭州交通大學2006——2011 年的數(shù)據(jù)進行分析檢驗,得出此模型的預測精度相對較好,但此模型所選取的實驗數(shù)據(jù)較為單一,不能更好說明模型預測的精準度。賈妮③采用神經(jīng)網(wǎng)絡模型,將三年西安工業(yè)大學數(shù)據(jù)進行處理,通過主成分分析進行降維來實現(xiàn)影響因素的歸一化處理,最終由BP 反向傳播算法計算最佳的權重值,提高了預測精度,此方法依舊存在測試樣本集較少問題,不具有代表性。

      綜上,只有充分考慮歷年分數(shù)、排名、省控線、招生人數(shù)等因素以及相互之間的非線性影響,才能更為精確地預測高校高考錄取分數(shù)。

      三、模型設計

      1. 線上百分位。線上百分位是一種綜合考慮省控線和排位的錄取水平測度,其取值在0%到100%之間。0%表示錄取分與省控線相同;100%表示錄取分達到上一批次省控線(本科二批或高職??婆┗蛉∨琶谝唬ū究埔慌?。

      設r=f(c,s,k,y)為成績映射為排名的函數(shù),c=g(r,s,k,y)為將排名反向映射為成績的函數(shù),其中,r 為考生排名,c 為考生成績,s 為考生所在省份,k 為文理科,y 為高考年份。在s,k,y 相對固定的情況下(后續(xù)內(nèi)容均在此假設基礎之上),上述映射可以簡化為:r=f(c),c=g(r),可通過查詢當年一分一檔表獲得。

      設c1為本科一批分數(shù)線,c2為本科二批分數(shù)線,則考生成績c 對應的一本線上平均百分位或二本線上平均百分位分別為:

      使用線上百分位作為高校高考錄取分數(shù)高低的測度可以有效的化解因考試題目難易程度而引起的分數(shù)不同問題,同時也間接實現(xiàn)了LSTM模型數(shù)據(jù)輸入前的歸一化問題。

      2.平均排位法。平均排位法是通過對高校前n-1 的投檔分數(shù)對應的全省排名的平均值所對應的分數(shù)即為這一年度高校錄取投檔分。

      3. 長短時記憶(LSTM)神經(jīng)網(wǎng)絡。長短時記憶網(wǎng)絡(long short term memory,LSTM)作為一種特殊存在的循環(huán)網(wǎng)絡④結(jié)構(gòu),它能夠較好的處理神經(jīng)網(wǎng)絡中的長期依賴情況。由Sepp Hochreiter 和Jurgen Schmidhuber 在1997 年提出。LSTM⑤鏈式結(jié)構(gòu)示意圖,如圖1。

      圖1 LSTM 的鏈式結(jié)構(gòu)圖

      LSTM獨特之處在于擁有三扇“門”⑤分別為輸入、遺忘和輸

      出門,門的作用主要是依靠sigmoid 激活函數(shù)神經(jīng)網(wǎng)絡層和點乘來實現(xiàn)。本文所構(gòu)建的LSTM神經(jīng)網(wǎng)絡模型,如圖2 所示。

      圖2 LSTM 模型

      其中本文選取最低分線上百分位、平均分線上百分位作為輸入變量,輸出變量為最低線上百分位。用四年的數(shù)據(jù)預測下一年的錄取分數(shù),再經(jīng)過全鏈接神經(jīng)網(wǎng)絡最終輸出第五年預測最低分線上百分位。

      四、模型實現(xiàn)

      1. 數(shù)據(jù)集的采集與歸一化處理。本文采集的數(shù)據(jù)⑥包括:2010—2017 年各高校在河北省招收本科一、二批文理科學生的錄取平均分和最低分,并以此計算得到對應的最低分線上百分位和平均分線上百分位,將數(shù)據(jù)歸一化處理。其中高校數(shù)據(jù)采集輸入、輸出數(shù)據(jù)如表1 所示。

      表1 部分高校數(shù)據(jù)采集表

      滾動選取前n-1 年數(shù)據(jù)作為輸入,第n 年數(shù)據(jù)作為預測輸出,即用2010—2013 數(shù)據(jù)預測2014 錄取成績;2011—2014 數(shù)據(jù)預測2015 錄取成績。訓練樣本集數(shù)據(jù)取自2010—2016 年各高校在河北省本科一、二批文理科錄取分數(shù)的最低線上百分位、平均線上百分位和2017 年本科一批文科錄取分數(shù)的最低線上百分位。測試樣本集數(shù)據(jù)取自2013—2017 河北省本科一批理科錄取成績。在輸入數(shù)據(jù)選取過程中,首先剔除年份殘缺的不完整數(shù)據(jù),得到5078 個訓練數(shù)據(jù),同時為了確保線上百分位較高的院校錄取分數(shù)預測精度,將清華大學、北京大學等481 個輸出最低線上百分位在95%以上的訓練數(shù)據(jù)重復加入訓練數(shù)據(jù)集,最終得到訓練樣本集數(shù)據(jù)5559 個,測試樣本集數(shù)據(jù)251 個。

      2.參數(shù)設置。搭建LSTM神經(jīng)網(wǎng)絡⑦模型,將前四年的最低分線上百分位和平均分線上百分位作為輸入變量,即輸入為4 個cell,8 個變量,將預測當年的最低分線上百分位作為輸出變量,即輸出為1 個變量。將LSTM模型隱藏維度(hidden dimention)設為32,mini-batch 設為200,學習率(learning Rate) 設為0.0001,采用誤差平方和作為損失函數(shù)。表2 顯示了訓練epoch從1200 到12000 時測試數(shù)據(jù)集上的誤差平方和。

      表2 訓練epoch 數(shù)與測試數(shù)據(jù)集誤差平方和的對照關系

      可以看出,隨著訓練次數(shù)epoch 的增加,LSTM預測的最低分誤差平方和逐漸減小,當epoch 超過12000 時,LSTM的最低分誤差平方和未出現(xiàn)明顯下降趨勢,反而略有上升。隨epoch 增加而變化的LSTM最低分誤差平方和變化趨勢如圖3 所示:

      圖3 LSTM 最低分誤差平方和變化趨勢圖

      3.模型求解。將LSTM神經(jīng)網(wǎng)絡模型輸出的預測分數(shù)與實際分數(shù)、傳統(tǒng)的平均排位法預測分數(shù)進行對比分析,如表3。

      表3 部分高校LSTM 預測與平均排位法2017 年預測的結(jié)果表

      通過對2017 年本科理科一批各院校的錄取成績預測結(jié)果分析,用誤差平方和比較平均排位法與LSTM模型兩種方法的預測準確度。其中平均排位法最低分的誤差平方和為36681,LSTM 最低分的誤差平方和為17424,LSTM 預測的準確度遠高于平均排位法。

      通過對錄取分數(shù)的預測結(jié)果⑧分析,得到如下結(jié)論:

      (1)LSTM預測結(jié)果準確度明顯高于平均排位法預測結(jié)果。在LSTM的預測結(jié)果中,可以看出大多數(shù)高校錄取分數(shù)的預測值準確度都高于或等于平均排位預測值。但在招生人數(shù)存在明顯變化的高校中,LSTM的預測值準確度遠高于平均排位法的準確度。如表4、表5、圖4。

      表4 部分高校招生人數(shù)變化表

      表5 部分招生人數(shù)變化高校兩種方法預測2017 年成績結(jié)果對比表

      圖4 部分高校招生人數(shù)與最低百分位對應關系圖

      (2)對于錄取分數(shù)較高的個別院校錄取成績預測,LSTM 的預測值不如平均排位法精準。如表6。

      表6 個別錄取分數(shù)較高的院校平均排位與LSTM 2017 年預測結(jié)果對比表

      本文在實驗中考慮到此項問題,并通過重復增加高分院校的樣本數(shù)量進行訓練,以達到充足的樣本數(shù),確保實驗訓練結(jié)果。

      (3)LSTM能預測出錄取最低分的趨勢,從而使預測精準度進一步提升,如表7、圖5、圖6、圖7。

      表7 部分院校平均排位與LSTM 2017 年預測分數(shù)對比表

      圖5 北京體育大學錄取最低、平均線上百分位分布圖

      圖6 華南師范大學錄取最低、平均線上百分位分布圖

      圖7 沈陽建筑大學錄取最低、平均線上百分位分布圖

      通過平均排位法和LSTM方法預測分數(shù)對比,LSTM最低分誤差平方和小于平均排位法最低分誤差平方和,說明LSTM預測更準確。通過歷年高校錄取最低、平均線上百分位分布圖得出LSTM方法能較為準確地預測出錄取分數(shù)趨勢,進一步提高預測準確度。

      五、結(jié)論與展望

      1.LSTM方法可以有效預測高校錄取分數(shù),并且預測準確度遠高于傳統(tǒng)的平均排位法。

      2.LSTM能較為準確地預測到高校錄取分數(shù)的未來趨勢,進一步提高錄取分數(shù)預測準確度。

      3.本文LSTM方法在未考慮招生人數(shù)變化的情況下,對于擴招院校錄取分數(shù)預測的結(jié)果好于傳統(tǒng)的平均排位法,若將招生人數(shù)變化情況考慮到模型中,預測結(jié)果是否提升有待進一步實驗研究。

      注釋:

      ①周帆.變權重組合預測法預測重慶市高考分數(shù)線[J].科教文匯(上旬刊),2009(9):287- 288

      ②李敬文.組合預測模型在高考數(shù)據(jù)預測中的應用研究[J].計算機工程與應用,2014,50(7):259~292

      ③賈妮.大數(shù)據(jù)處理技術在錄取分數(shù)線預測中的應用[J]研究價值工程,2016.200- 201

      ④Deng L,YuD.Deep learning:methods and applications[J].Foundations and Trends in Signal Processing,2014,7(3/4):197- 387

      ⑤Hochreiter S, SchmidhuberJ.Long short- term memory[J].Neural Computation,1997,9(8):1735- 1780

      ⑥河北省教育考試院.全國普通高校在河北招生錄取分數(shù)分布統(tǒng)計[M].石家莊:河北人民出版社,2016

      ⑦白盛楠,申曉留.基于LSTM 循環(huán)神經(jīng)網(wǎng)絡的PM_(2.5)預測[J].計算機應用與軟件,2019,36(01):73- 76+110

      ⑧吳強,方睿,韓斌,賈川,浦東.基于決策樹- LMBP 神經(jīng)網(wǎng)絡的學生成績分析及預測模型的研究[J].成都信息工程大學學報,2018,03:274- 280

      猜你喜歡
      錄取分數(shù)排位平方和
      我刊影響因子及學科排位再創(chuàng)新高
      K-Means聚類分析在高職高專院校招生中的應用
      我刊影響因子及學科排位再創(chuàng)新高
      費馬—歐拉兩平方和定理
      學在財校,終得成材
      示范校建設對高職院校生源質(zhì)量的影響
      利用平方和方法證明不等式賽題
      勾股定理的擴展
      關于四奇數(shù)平方和問題
      康康日記
      沧州市| 治县。| 浑源县| 高密市| 汤阴县| 东莞市| 格尔木市| 札达县| 保定市| 大余县| 正阳县| 兴义市| 中卫市| 尉犁县| 敦煌市| 湾仔区| 家居| 定襄县| 安远县| 镇赉县| 长子县| 阿图什市| 岐山县| 长寿区| 香格里拉县| 道真| 会泽县| 阳朔县| 五莲县| 奈曼旗| 察隅县| 炉霍县| 建始县| 鸡西市| 大理市| 邓州市| 抚顺县| 隆安县| 开阳县| 滁州市| 富源县|