胡 珍
(湖北工業(yè)大學(xué) 理學(xué)院, 武漢 430068)
留學(xué)是我國(guó)發(fā)展對(duì)外開(kāi)放教育和現(xiàn)代化經(jīng)濟(jì)以及實(shí)施人才強(qiáng)國(guó)戰(zhàn)略的重要途徑之一,同時(shí)也是我國(guó)高等教育規(guī)模擴(kuò)張的一個(gè)重要過(guò)程。2020年《意見(jiàn)》的印發(fā),強(qiáng)調(diào)出國(guó)留學(xué)仍是為我國(guó)提供現(xiàn)代化建設(shè)所需的各級(jí)各類(lèi)人才的重要途徑之一,疫情只是暫時(shí)性地阻礙了出國(guó)留學(xué)的發(fā)展,要把握疫情防控下的教育改革發(fā)展,堅(jiān)持對(duì)外開(kāi)放教育理念不動(dòng)搖,同時(shí)積極增加同世界各國(guó)教育的密切聯(lián)系[1]。科學(xué)有效地預(yù)測(cè)出國(guó)留學(xué)人數(shù),有助于全面把握出國(guó)留學(xué)工作的總體大局,并對(duì)促進(jìn)我國(guó)未來(lái)留學(xué)工作發(fā)展規(guī)劃的制定和實(shí)施具有重要意義。
近年來(lái)已有學(xué)者對(duì)出國(guó)留學(xué)的相關(guān)問(wèn)題進(jìn)行了深入研究。如潘昆峰等[2]發(fā)現(xiàn)影響大學(xué)生出國(guó)留學(xué)的因素包括宏觀與微觀兩個(gè)方面;陳玥等[3]通過(guò)研究出國(guó)留學(xué)政策的歷史變遷得出政府決策、市場(chǎng)需求、科技發(fā)展這三方面對(duì)出國(guó)留學(xué)影響較大;魏永長(zhǎng)等[4]通過(guò)問(wèn)卷調(diào)查和訪談研究,得出個(gè)人主觀愿望、家庭狀況、外部因素對(duì)學(xué)生出國(guó)留學(xué)意愿均有影響;陸根書(shū)等[5]通過(guò)提出綜合選擇模型,分析了影響大學(xué)生出國(guó)留學(xué)的因素。陳揚(yáng)霖等[6]對(duì)高校學(xué)生出國(guó)的趨勢(shì)和影響因素等進(jìn)行了探究,結(jié)果發(fā)現(xiàn)出國(guó)留學(xué)人數(shù)逐年增加,且家庭背景、人力特征等因素對(duì)出國(guó)留學(xué)均有影響;柯普等[7]應(yīng)用GM(1,1)模型對(duì)出國(guó)留學(xué)人數(shù)進(jìn)行了預(yù)測(cè),結(jié)果表明2011—2015年間我國(guó)留學(xué)人數(shù)呈快速增長(zhǎng)的態(tài)勢(shì);楊彩華[8]采用了時(shí)間序列預(yù)測(cè)法中的趨勢(shì)外推法預(yù)測(cè)了我國(guó)留學(xué)人數(shù);馮志平等[9]利用ARIMA模型預(yù)測(cè)了留學(xué)人數(shù)以及granger因果檢驗(yàn)分析了留學(xué)人數(shù)和居民消費(fèi)之間的關(guān)系,結(jié)果發(fā)現(xiàn),隨著經(jīng)濟(jì)快速發(fā)展和居民收入的增加,自費(fèi)出國(guó)留學(xué)人數(shù)激增。
綜合已有研究發(fā)現(xiàn),出國(guó)留學(xué)相關(guān)研究仍存在兩個(gè)方面的問(wèn)題:其一,大部分研究都是基于定性的方法探究出國(guó)留學(xué)影響因素;其二,利用統(tǒng)計(jì)模型對(duì)出國(guó)留學(xué)人數(shù)進(jìn)行預(yù)測(cè)的研究相對(duì)有限,且模型和預(yù)測(cè)的方法比較單一,沒(méi)有進(jìn)行模型對(duì)比和形成公認(rèn)的最優(yōu)預(yù)測(cè)方法或統(tǒng)計(jì)模型。其中柯普利用的GM(1,1)模型對(duì)預(yù)測(cè)留學(xué)人數(shù)有一定的參考價(jià)值,但通過(guò)分析留學(xué)現(xiàn)狀以及成因可以發(fā)現(xiàn),隨著近年來(lái)出國(guó)留學(xué)人數(shù)日趨增加,影響留學(xué)的因素也在不斷變化,呈現(xiàn)多元化趨勢(shì),故對(duì)模型的預(yù)測(cè)精度提出了更高的要求,則前人所用的以單一因素建模的GM(1,1)模型可能難以全面反映現(xiàn)代數(shù)據(jù)的復(fù)雜狀況,擬合精度也會(huì)隨之降低,并且選用單一模型預(yù)測(cè),可能就要承擔(dān)一定的決策失誤風(fēng)險(xiǎn)。
針對(duì)現(xiàn)有研究存在的問(wèn)題,有必要尋求新的預(yù)測(cè)方法或模型,對(duì)預(yù)測(cè)留學(xué)人數(shù)加以研究。因此,提出一種基于L1范數(shù)的組合預(yù)測(cè)模型。國(guó)外學(xué)者Bates和Granger,在1969年首次研究了組合預(yù)測(cè)模型[10],國(guó)內(nèi)一些學(xué)者對(duì)其也進(jìn)行了深入探究[11-13],且取得了良好的研究成果。組合模型一般能利用各種預(yù)測(cè)方法所包含的信息進(jìn)而更加有效地提高預(yù)測(cè)精度,而組合預(yù)測(cè)方法的關(guān)鍵在于如何有效地選擇加權(quán)系數(shù),在實(shí)際生活中,通常單一模型在不同時(shí)刻的預(yù)測(cè)精度并不相同,故傳統(tǒng)的不變權(quán)組合模型可能會(huì)降低預(yù)測(cè)精度,而基于L1范數(shù)的變權(quán)組合模型可以提高傳統(tǒng)的組合模型的預(yù)測(cè)精度。因此,基于L1范數(shù)對(duì)單項(xiàng)預(yù)測(cè)模型賦權(quán),并建立以最小對(duì)數(shù)誤差為準(zhǔn)則的組合預(yù)測(cè)模型,再通過(guò)線性規(guī)劃求解模型;然后,通過(guò)對(duì)比不同模型的預(yù)測(cè)效果,表明基于L1范數(shù)組合預(yù)測(cè)模型的有效性[14];最后運(yùn)用組合預(yù)測(cè)模型對(duì)我國(guó)未來(lái)幾年的出國(guó)留學(xué)人數(shù)進(jìn)行預(yù)測(cè),為分析疫情背景下出國(guó)留學(xué)人數(shù)的總體趨勢(shì)和相關(guān)部門(mén)制定決策提供參考依據(jù)。
1.1.1 灰色系統(tǒng)
灰色系統(tǒng)理論是由鄧聚龍教授[15]提出的,它著重研究了生活、經(jīng)濟(jì)、科研活動(dòng)中等難以解決的“小數(shù)據(jù)”和“貧信息”以及“不確定性”等問(wèn)題。“灰”即指信息的不完全。考慮影響留學(xué)因素過(guò)多且復(fù)雜以及信息不完全性等問(wèn)題,故采用灰色系統(tǒng)進(jìn)行建模。
1.1.2 灰色關(guān)聯(lián)度
設(shè)系統(tǒng)行為序列為
Xi=(x1(1),x1(2),…,x1(n)),i=1,2,3,…,m
對(duì)于ξ∈(0,1),令
γ(x0(k),xi(k))=
(1)
(2)
則γ(X0,Xi)稱為X0與Xi的灰色關(guān)聯(lián)度[15]。
1.1.3 GM(1,N)模型
(1) 設(shè)有原始序列為
X1(0)=(x1(0)(1),x1(0)(2),…,x1(0)(n))
關(guān)聯(lián)序列為
Xi(0)=(xi(0)(1),xi(0)(2),…,xi(0)(n)),i=2,3,…,N
(2) 時(shí)間響應(yīng)函數(shù)計(jì)算公式[12]為
(3)
針對(duì)一些無(wú)法用線性模型解決的問(wèn)題,神經(jīng)網(wǎng)絡(luò)利用自身較強(qiáng)的映射能力,可以較好地解決這類(lèi)非線性問(wèn)題。BP神經(jīng)網(wǎng)絡(luò)是一種誤差反向傳播和信號(hào)正向傳播的多層前饋神經(jīng)網(wǎng)絡(luò),一般包括輸入、隱含、輸出三層或者以上的神經(jīng)網(wǎng)絡(luò),而且能夠較好地逼近非線性連續(xù)函數(shù)[16]。考慮出國(guó)留學(xué)影響因素眾多以及因素與人數(shù)之間復(fù)雜的非線性關(guān)系,使得難以精準(zhǔn)預(yù)測(cè)留學(xué)人數(shù),而神經(jīng)網(wǎng)絡(luò)模型恰好使得輸入與輸出之間,呈現(xiàn)出高度非線性的映射特點(diǎn),更好地進(jìn)行非線性預(yù)測(cè)。
BP神經(jīng)網(wǎng)絡(luò)構(gòu)建主要分成3步,首先,生成BP網(wǎng)絡(luò),再進(jìn)行網(wǎng)絡(luò)訓(xùn)練,最后得到網(wǎng)絡(luò)仿真,其函數(shù)表達(dá)式如下。
若一個(gè)神經(jīng)元模型有n個(gè)輸入變量,w為連接不同神經(jīng)元之間的權(quán)重,最終輸出為
y=f(wx+b)
其中,b為神經(jīng)元的偏置值,f為傳遞函數(shù)。
BP神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D如圖1所示,圖1中輸入層、隱含層以及輸出層神經(jīng)元節(jié)點(diǎn)個(gè)數(shù)分別為n、m、l,這種結(jié)構(gòu)稱為n-m-l三層BP神經(jīng)網(wǎng)絡(luò)[16]。其中,xi(i=1,2,…,n)為實(shí)際的輸入值,yj(j=1,2,…,m)是隱含層的輸出,Ok(k=1,2,…,l)為實(shí)際輸出,隱含層和輸出層閾值分別為a,b,輸入層與隱含層以及隱含層與輸出層之間的連接權(quán)值分別為vij,wjk。
此處,權(quán)值更新的計(jì)算公式[16]為
圖1 BP神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D
采用陳華友等[17]提出的基于L1范數(shù)的加權(quán)幾何平均的組合預(yù)測(cè)模型,利用預(yù)測(cè)誤差絕對(duì)值的和,衡量預(yù)測(cè)精度,這樣可以克服預(yù)測(cè)誤差再平方以后導(dǎo)致誤差擴(kuò)大或者縮小的缺陷,尤其針對(duì)數(shù)據(jù)中存在異常值的問(wèn)題,其模型參數(shù)估計(jì)的穩(wěn)健性比預(yù)測(cè)誤差平方和要好。
定義1[11]:令
eit稱為第i種單一預(yù)測(cè)模型第t時(shí)刻預(yù)測(cè)值與實(shí)際值之間的對(duì)數(shù)誤差,et為第t時(shí)刻的組合模型預(yù)測(cè)值和實(shí)際值之間對(duì)數(shù)誤差。
定義2[17]:令
(4)
稱F為加權(quán)幾何平均組合模型預(yù)測(cè)值與實(shí)際值之間的基于L1范數(shù)對(duì)數(shù)誤差,其中,F(xiàn)i為第i種單一模型預(yù)測(cè)值與實(shí)際值之間的基于L1范數(shù)對(duì)數(shù)誤差。
定義3[17]:設(shè)F(L)為各種預(yù)測(cè)模型的加權(quán)系數(shù)向量的函數(shù),則基于L1范數(shù)以最小對(duì)數(shù)誤差為準(zhǔn)則的加權(quán)幾何平均組合預(yù)測(cè)模型為
(5)
若要求目標(biāo)函數(shù)的最小值,可做如下變換,將其轉(zhuǎn)化為線性規(guī)劃問(wèn)題,令
則|εt|=εt++εt-,εt=εt+-εt-,εt+εt-=0
在上述變換下,式(5)可改寫(xiě)成如式(6)模型:
(6)
此處可以利用MATLAB或LINGO軟件求解,求得的最優(yōu)解L即為組合預(yù)測(cè)模型的加權(quán)系數(shù)。
首先選取柯普文章中提到的GM(1,1)作為對(duì)照模型,但僅以單一因素建模,難以精準(zhǔn)預(yù)測(cè)留學(xué)人數(shù),而GM(1,N)模型主要用來(lái)研究多外部因子影響內(nèi)部因子的動(dòng)態(tài)變化關(guān)系,克服了以單一因素建模的局限性;針對(duì)出國(guó)留學(xué)與各影響因素之間屬于非線性函數(shù)的問(wèn)題,若使用傳統(tǒng)的線性回歸預(yù)測(cè)方法可能難以反映它們之間的非線性關(guān)系,而B(niǎo)P神經(jīng)網(wǎng)絡(luò)模型可以適應(yīng)非線性預(yù)測(cè),使得輸入與輸出之間呈現(xiàn)高度的非線性映射特點(diǎn),因此建立BP神經(jīng)網(wǎng)絡(luò)模型;然后構(gòu)建基于L1范數(shù)改進(jìn)的組合預(yù)測(cè)模型;最后,利用預(yù)測(cè)誤差評(píng)價(jià)指標(biāo)體系比較GM(1,1)、GM(1,3)、BP神經(jīng)網(wǎng)絡(luò)模型和基于L1范數(shù)改進(jìn)的組合模型預(yù)測(cè)精度,具體建模框架如圖2所示。
圖2 建模框架圖
數(shù)據(jù)均來(lái)源于《中國(guó)統(tǒng)計(jì)年鑒》和中華人民共和國(guó)教育部官方網(wǎng)站。由于中華人民共和國(guó)教育部官方網(wǎng)站中2020年我國(guó)出國(guó)留學(xué)人數(shù)還未更新,并且考慮各變量數(shù)據(jù)的時(shí)效性和可獲得性,僅選取2006—2019年出國(guó)留學(xué)人數(shù)以及各變量統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析。
對(duì)照模型GM(1,1)的未知參數(shù)求解計(jì)算如下:
根據(jù)式(7)
(7)
將k代入響應(yīng)方程,可計(jì)算GM(1,1)模型的預(yù)測(cè)值及預(yù)測(cè)精度。
2.3.1 數(shù)據(jù)樣本指標(biāo)的選取
由于數(shù)據(jù)樣本的選取對(duì)模型的構(gòu)建及其預(yù)測(cè)結(jié)果影響較大,而影響留學(xué)的因素眾多,其中又有一些因素是難以量化的,倘若選取全部的因素構(gòu)造預(yù)測(cè)模型是難以實(shí)現(xiàn)的。因此,要科學(xué)地選取外部影響因素,并盡可能客觀真實(shí)地反映留學(xué)人數(shù)的變化規(guī)律,這樣預(yù)測(cè)留學(xué)人數(shù)變化趨勢(shì)才更準(zhǔn)確且具有說(shuō)服力。劉志民等[18]認(rèn)為一國(guó)經(jīng)濟(jì)發(fā)展?fàn)顩r和教育投入是影響留學(xué)的重要因素。劉玉君等[19]通過(guò)實(shí)證分析發(fā)現(xiàn),教育經(jīng)費(fèi)的投入對(duì)經(jīng)濟(jì)發(fā)展有促進(jìn)作用,同時(shí)也是實(shí)現(xiàn)經(jīng)濟(jì)可持續(xù)發(fā)展的現(xiàn)實(shí)要求。劉倩等[20]認(rèn)為經(jīng)濟(jì)發(fā)展水平和產(chǎn)業(yè)結(jié)構(gòu)對(duì)中國(guó)高等教育有一定的影響。馬子健等[21]選取普通高等學(xué)校畢業(yè)生數(shù)、城鎮(zhèn)居民家庭人均可支配收入作為影響大學(xué)生出國(guó)留學(xué)影響因素。根據(jù)科學(xué)性、可行性等原則,借鑒前人文獻(xiàn)指標(biāo)的研究成果,選取國(guó)民總收入、教育經(jīng)費(fèi)投入、普通本??飘厴I(yè)人數(shù)、城鎮(zhèn)居民人均可支配收入作為影響出國(guó)留學(xué)的外部因素,具體數(shù)值如表1所示。
表1 出國(guó)留學(xué)人數(shù)影響因子
2.3.2 灰色關(guān)聯(lián)度計(jì)算與典型因子的選取
通過(guò)式(1)、式(2)計(jì)算可確定N,由表2可知教育經(jīng)費(fèi)投入與出國(guó)留學(xué)人數(shù)之間的灰色關(guān)聯(lián)度最大(r=0.837 8),其次是國(guó)民總收入(r=0.995 9)、城鎮(zhèn)居民人均可支配收入(r=0.677 9)、普通本??飘厴I(yè)人數(shù)(r=0.731 7),從中選取灰色關(guān)聯(lián)度r>0.7的3個(gè)典型因子,即教育經(jīng)費(fèi)投入、國(guó)民總收入、城鎮(zhèn)居民人均可支配收入,則N=3。
表2 灰色關(guān)聯(lián)度系數(shù)表
2.3.3 數(shù)值計(jì)算
選取國(guó)民總收入、教育經(jīng)費(fèi)投入、城鎮(zhèn)居民人均可支配收入、普通本??飘厴I(yè)人數(shù)作為BP神經(jīng)網(wǎng)絡(luò)的輸入層,出國(guó)留學(xué)人數(shù)為輸出層,則輸入層神經(jīng)元個(gè)數(shù)為4,而輸出層神經(jīng)元個(gè)數(shù)是根據(jù)具體問(wèn)題確定的,本文是針對(duì)預(yù)測(cè)出國(guó)留學(xué)人數(shù)的問(wèn)題,故輸出層神經(jīng)元數(shù)目為1,隱含層結(jié)點(diǎn)數(shù)為6。函數(shù)選取和參數(shù)設(shè)定分別為:訓(xùn)練函數(shù)用彈性梯度下降法trainrp,最大訓(xùn)練次數(shù)=50 000,精度=0.004 5,學(xué)習(xí)率η=0.01,迭代次數(shù)=50,具體算法流程如圖3所示。用MATLAB運(yùn)行后可得網(wǎng)絡(luò)實(shí)際輸出值與期望輸出值,結(jié)果及預(yù)測(cè)精度如表3所示。
圖3 BP神經(jīng)網(wǎng)絡(luò)算法流程
表3 單項(xiàng)預(yù)測(cè)模型預(yù)測(cè)結(jié)果及其預(yù)測(cè)精度
根據(jù)表3可知,GM(1,3)模型、BP神經(jīng)網(wǎng)絡(luò)模型的擬合精度均高于GM(1,1)模型,再選用GM(1,3)模型和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行組合,將這兩個(gè)單一模型在各個(gè)時(shí)期的預(yù)測(cè)值代入基于L1范數(shù)改進(jìn)的組合預(yù)測(cè)模型式(5),可得到基于L1范數(shù)改進(jìn)的最優(yōu)化組合預(yù)測(cè)模型:
minF(l1,l2)=|0.044 5l1-0.123 3l2|+|0.039 1l1-0.020 3l2|+|0.038 7l1-0.092 8l2|+|-0.014 1l1+0.074 1l2|+|-0.039 2l1+0.048 3l2|+|-0.080 6l1-0.014 0l2|+|-0.071 9l1-0.035 3l2|+|-0.029 5l1-0.024 4l2|+|-0.006 7l1-0.029 7l2|+|0.019 8l1-0.025 6l2|+|-0.054 7l1-0.115 3l2|
利用LINGO軟件對(duì)上述式子求解,得到最優(yōu)化模型的解為
l1*=0.5171,l2*=0.482 9
再將模型的最優(yōu)解代入式(4),計(jì)算得基于L1范數(shù)的組合預(yù)測(cè)模型的預(yù)測(cè)值和預(yù)測(cè)精度如表4所示。
表4 基于L1范數(shù)的組合預(yù)測(cè)模型預(yù)測(cè)值與預(yù)測(cè)精度
為體現(xiàn)基于L1范數(shù)的組合預(yù)測(cè)模型的有效性,將3個(gè)單一模型和基于L1范數(shù)的組合模型的預(yù)測(cè)值與實(shí)際值進(jìn)行對(duì)比分析,如圖4所示。
(a) GM(1,1)與GM(1,3)模型對(duì)比
從圖4可以直觀地看出:GM(1,1)模型與實(shí)際值的預(yù)測(cè)效果不佳,GM(1,3)模型、BP神經(jīng)網(wǎng)絡(luò)模型對(duì)實(shí)際值的預(yù)測(cè)效果較好,基于L1范數(shù)的組合模型預(yù)測(cè)效果最佳。為了進(jìn)一步比較基于L1范數(shù)的組合預(yù)測(cè)模型與3個(gè)單一預(yù)測(cè)模型之間的優(yōu)劣,利用預(yù)測(cè)誤差平方和、平均絕對(duì)誤差、平均絕對(duì)百分比誤差、均方誤差、均方百分比誤差5個(gè)評(píng)價(jià)指標(biāo)構(gòu)成的模型預(yù)測(cè)效果評(píng)價(jià)指標(biāo)體系進(jìn)行比較,結(jié)果如表5所示。
(1) 預(yù)測(cè)誤差平方和:
(2) 平均絕對(duì)誤差:
(3) 平均絕對(duì)百分比誤差
(4) 均方誤差
(5) 均方百分比誤差
表5 模型預(yù)測(cè)效果評(píng)價(jià)指標(biāo)體系
從表5可以看出,3個(gè)單一模型的各項(xiàng)指標(biāo)誤差均高于基于L1范數(shù)的組合預(yù)測(cè)模型的誤差指標(biāo)值。即基于L1范數(shù)改進(jìn)的組合預(yù)測(cè)模型的預(yù)測(cè)效果更優(yōu),并且有效地利用了單一模型提供的信息,從而提高了預(yù)測(cè)精度,可以更加準(zhǔn)確地預(yù)測(cè)我國(guó)出國(guó)留學(xué)人數(shù),同時(shí)利用組合模型預(yù)測(cè)我國(guó)未來(lái)幾年出國(guó)留學(xué)人數(shù),結(jié)果如表6所示。
表6 2020—2021年出國(guó)留學(xué)人數(shù)預(yù)測(cè)
出國(guó)留學(xué)教育作為促進(jìn)我國(guó)經(jīng)濟(jì)和高等教育發(fā)展的重要方式之一,且留學(xué)生規(guī)模又作為衡量留學(xué)教育的一個(gè)重要指標(biāo),故有必要選擇一個(gè)相對(duì)最優(yōu)模型來(lái)精準(zhǔn)地預(yù)測(cè)出國(guó)留學(xué)人數(shù)。在借鑒前人研究的基礎(chǔ)上,選取GM(1,1)模型為對(duì)照模型,同時(shí)構(gòu)建了GM(1,3)模型、BP神經(jīng)網(wǎng)絡(luò)模型和基于L1范數(shù)的組合預(yù)測(cè)模型,結(jié)果顯示基于多因素建模的GM(1,3)模型的預(yù)測(cè)精度相對(duì)于以單一因素建模的GM(1,1)模型顯著提升;同時(shí),BP神經(jīng)網(wǎng)絡(luò)模型的精度相對(duì)于GM(1,1)模型又一次提高,而基于L1范數(shù)的GM(1,3)和BP神經(jīng)網(wǎng)絡(luò)的組合模型預(yù)測(cè)精度又高于3個(gè)單一模型預(yù)測(cè)精度,故所建立基于L1范數(shù)的組合預(yù)測(cè)模型相對(duì)于單一模型在預(yù)測(cè)出國(guó)留學(xué)人數(shù)更有優(yōu)勢(shì)。通過(guò)實(shí)證分析可知,未來(lái)留學(xué)人數(shù)將會(huì)有增長(zhǎng)趨勢(shì),但由于一些重大突發(fā)事件,如非典、金融危機(jī)、新冠病毒等非常規(guī)因素,會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響。故需要結(jié)合非常規(guī)因素,對(duì)當(dāng)前疫情下留學(xué)的發(fā)展趨勢(shì)做進(jìn)一步討論。