丁文濤,劉孟琦,齊 越,蘇孟超,李宜軍,房 卓
(1.交通運(yùn)輸部規(guī)劃研究院,北京 100028;2.大連理工大學(xué)建設(shè)工程學(xué)部,遼寧 大連116023)
集裝箱運(yùn)輸是現(xiàn)代交通的重要發(fā)展方向,也是港口地位和功能的重要標(biāo)志,科學(xué)準(zhǔn)確地預(yù)測港口集裝箱吞吐量,對(duì)于指導(dǎo)港口發(fā)展和建設(shè)具有重要的意義。目前港口集裝箱吞吐量預(yù)測方法可以分為兩大類,即定性預(yù)測方法和定量預(yù)測方法,常用的定性方法有Delphi法、專家調(diào)查法等,定量預(yù)測法有因果分析法、時(shí)間序列分析法、組合預(yù)測法等。如戴霖,黃浩[1]等建立馬爾科夫模型預(yù)測港口吞吐量,劉明維[2]等利用指數(shù)平滑法進(jìn)行吞吐量預(yù)測,劉長儉[3]等采用 BP人工神經(jīng)網(wǎng)絡(luò)構(gòu)建港口集裝箱吞吐量預(yù)測模型,朱小檬[4]等基于時(shí)間序列-因果分析法相結(jié)合的方法對(duì)海港集裝箱吞吐量進(jìn)行中長期預(yù)測,陳昌源[5]等利用改進(jìn)的 GM(1,1)對(duì)上海港集裝箱吞吐量進(jìn)行預(yù)測。
綜合來看,傳統(tǒng)方法多基于少量解釋變量,造成數(shù)據(jù)信息的流失,并且無法很好地解決解釋變量間的共線性問題。另一方面,這些方法都需要足夠多的歷史數(shù)據(jù)來支撐,更適用于集裝箱運(yùn)輸發(fā)展較為成熟的港口。我國有較多港口的集裝箱運(yùn)輸尚處于起步發(fā)展階段,傳統(tǒng)的方法較難預(yù)測未來的吞吐量規(guī)模。偏最小二乘法(PLS)能夠較好解決解釋變量共線性及樣本數(shù)量過少導(dǎo)致的無法有效建模的問題,因此本文采集影響港口集裝箱吞吐量的眾多影響因素并利用PLS方法建立預(yù)測模型。
偏最小二乘法(PLS)是由瑞典統(tǒng)計(jì)學(xué)家Herman OA Wold和Svante Wold一起開發(fā)的線性回歸模型,最初應(yīng)用于社會(huì)科學(xué)領(lǐng)域,現(xiàn)在主要應(yīng)用在化學(xué)計(jì)量學(xué)領(lǐng)域并廣泛應(yīng)用于其他領(lǐng)域。PLS方法將主成分分析與多元線性回歸和典型相關(guān)分析結(jié)合到一起,將自變量和因變量投影到新空間提取主要成分,按照相關(guān)性程度排序確定提取成分個(gè)數(shù)后,建立線性回歸模型。相比標(biāo)準(zhǔn)回歸,PLS方法特別適用于自變量存在多重共線性和預(yù)測變量矩陣維度多于觀測值的情況。
設(shè)自變量為矩陣En×m,因變量為矩陣Fn×p。將矩陣進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,每個(gè)樣本減去一個(gè)維度變量均值然后除以該維度的標(biāo)準(zhǔn)差。自變量矩陣標(biāo)準(zhǔn)化后為E0(n×m),因變量矩陣標(biāo)準(zhǔn)化后為F0(n×p)。
提取主成分t1:
提取主成分u1:
式中:w1為權(quán)重系數(shù)且為單位向量,;c1為權(quán)重系數(shù)且為單位向量,。
根據(jù)主成分原理和典型相關(guān)分析,t1與u1的方差達(dá)到最大且t1與u1的相關(guān)度達(dá)到最大值。故要求:
通過拉格朗日方法求解,w1為矩陣E0′F0F0′E0的最大特征值的特征向量,c1為矩陣F0′E0E0′F0的最大特征值的特征向量,并且均單位化。解出w1,c1即可求出t1與u1。
從而建立E0,F(xiàn)0對(duì)t1與u1的回歸方程:式
中:E1,F1*,F1是三個(gè)回歸方程的殘差矩陣。
用E1和F1取代E0和F0,按照上述過程,求出第二個(gè)軸w2和c2以及t2和u2,并重新建立E1和F1與t2和u2的回歸方程,直到求出所有主成分。(何時(shí)終止提取成分,后文詳述)
若E0的秩為A,則可以得到:
由于t1,…tA都是E01…E0m的線性組合,m=1,2,…,帶入上式中,可得到:
式中:k=1,2,…,且FAk為殘差矩陣FA的第k列。
確定提取主成分的個(gè)數(shù)th:
當(dāng)Qh2≥(1-0.952)=0.0975時(shí),th成分邊際貢獻(xiàn)顯著,可以確定h,然后將其轉(zhuǎn)化為y與x1,x2,…xh的回歸方程[6]。
每一個(gè)自變量在解釋因變量作用的重要性程度可以用變量投影重要性(VIP)來分析,具體的計(jì)算公式為:
式中:VIPj是第j個(gè)變量xj的投影重要性指標(biāo);m為自變量個(gè)數(shù);whj是wh的第j個(gè)分量;RD(y,th)是th對(duì)y解釋的變異精度;是t1…th對(duì)y的累計(jì)解釋能力。
為了驗(yàn)證偏最小二乘回歸模型的有效性和準(zhǔn)確性,本文擬采用黃驊港進(jìn)行驗(yàn)證。黃驊港于2012年開始運(yùn)營集裝箱業(yè)務(wù),實(shí)現(xiàn)了年均40 %以上的快速增長,2018年完成集裝箱吞吐量72萬TEU。新
時(shí)期,“一帶一路”、京津冀協(xié)同發(fā)展、設(shè)立雄安新區(qū)等重大戰(zhàn)略陸續(xù)實(shí)施,黃驊港的發(fā)展環(huán)境發(fā)生了較大的變化,科學(xué)把握未來集裝箱吞吐量是十分必要和有意義的。
集裝箱吞吐量與港口腹地的經(jīng)濟(jì)發(fā)展和基礎(chǔ)設(shè)施的規(guī)模密切相關(guān),根據(jù)對(duì)黃驊港集裝箱裝箱貨物及貨源地的調(diào)查,選取影響黃驊港集裝箱吞吐量的相關(guān)因素如下:滄州市生產(chǎn)總值(x1,億元),滄州市全社會(huì)固定資產(chǎn)投資值(x2,億元),滄州市消費(fèi)品零售值(x3,億元),滄州市外貿(mào)進(jìn)出口值(x4,億美元),滄州市出口值(x5,億美元),滄州市公路里程(x6,萬km),滄州市海鐵聯(lián)運(yùn)量(x7,t),河北省生產(chǎn)總值(x8,億元),河北省糧食產(chǎn)量(x9,萬t),河北省第二產(chǎn)業(yè)總值(x10,億元),河北省第三產(chǎn)業(yè)總值(x11,億元),河北省進(jìn)出口總值(x12,億美元),河北省鐵路運(yùn)營里程(x13,km)以及黃驊港集裝箱吞吐量(y,TEU),具體數(shù)據(jù)見表1。
表1 黃驊港集裝箱吞吐量影響數(shù)據(jù)采集
表2 回歸系數(shù)
表3 多重共線性診斷
黃驊港 2012年才開始發(fā)展集裝箱業(yè)務(wù),樣本數(shù)量小于變量數(shù)量,且經(jīng)過SPSS初步計(jì)算,相關(guān)系數(shù)大于0.96,有嚴(yán)重多重共線性問題,采用普通的回歸方法無法建立回歸方程,一般的方法是采用逐步回歸方法建立多元回歸方程。
經(jīng)過SPSS軟件計(jì)算,得出的多元回歸方程的回歸系數(shù)以及多重共線性診斷如表2和表3所示。
從表2中可看出,經(jīng)過逐步回歸后的變量VIF值依舊偏大,其中x10的VIF值大于10,從表3中可以看出最小特征值為 0,其中最大方差比例達(dá)到0.93,接近于 1,可以看出逐步回歸后建立的多元回歸方程多重共線性依舊很嚴(yán)重,本文采用PLS方法解決共線性問題建立預(yù)測模式。
利用 SPSS軟件中的 PLS算法,選取2012—2016年影響黃驊港集裝箱吞吐量的13個(gè)因素進(jìn)行偏最小二乘法,將 2017年數(shù)據(jù)用于檢驗(yàn)方程,最終經(jīng)過計(jì)算選出4個(gè)主成分(h=4),計(jì)算結(jié)果如表4所示。
可以看出,前4個(gè)主成分可完全解釋自變量和因變量的信息,即選取4個(gè)主成分可準(zhǔn)確地提取信息。
表4 已解釋的方差比例
通過軟件計(jì)算結(jié)果可以得到標(biāo)準(zhǔn)化偏最小二乘回歸方程:
將標(biāo)準(zhǔn)化偏最小二乘回歸方程中的標(biāo)準(zhǔn)化因變量還原成普通變量,得到黃驊港集裝箱吞吐量與各自變量的回歸方程:
將 2012—2016年各自變量數(shù)據(jù)帶入預(yù)測模型中得到擬合值(見表5),與實(shí)際值相比較并算出兩者的殘差值(見表5和圖1)。將 2017年各自變量數(shù)據(jù)帶入預(yù)測模型中得到 2017年吞吐量預(yù)測值并與實(shí)際值比較檢驗(yàn)?zāi)P皖A(yù)測精度(見表6)。
表5 黃驊港集裝箱吞吐量實(shí)際值與預(yù)測值比較
表6 黃驊港集裝箱吞吐量2017年預(yù)測結(jié)果
圖1 黃驊港2012—2016年集裝箱吞吐量實(shí)際值與預(yù)測值比較
從圖1中看出,黃驊港集裝箱吞吐量實(shí)際值與擬合值擬合效果良好,從表5中看出擬合值與實(shí)際值殘差值都在1 %以內(nèi),可以見得偏最小二乘法能夠有效的消除多重共線性,得到精確度較高的回歸模型。從表6中可以看出,采用偏最小二乘回歸模型預(yù)測誤差在5 %以內(nèi),預(yù)測精度較高。
計(jì)算出影響黃驊港集裝箱吞吐量變量重要性指標(biāo)并繪制直方圖(見圖2),從圖中可以看出,滄州市生產(chǎn)總值、滄州市社會(huì)固定資產(chǎn)投資值、滄州市消費(fèi)品零售值、滄州市公路里程數(shù)、滄州市海鐵聯(lián)運(yùn)量、河北省生產(chǎn)總值、河北省農(nóng)業(yè)產(chǎn)量、河北省第三產(chǎn)業(yè)總值、河北省鐵路運(yùn)營里程這9個(gè)因素的投影重要性指標(biāo)大于1,說明這9個(gè)指標(biāo)是影響黃驊港集裝箱吞吐量的重要因素。
圖2 變量投影重要性指標(biāo)
從得到的回歸方程中可以看出滄州市生產(chǎn)總值、滄州市社會(huì)固定資產(chǎn)投資值、滄州市消費(fèi)品零售值、滄州市外貿(mào)進(jìn)出口值、滄州市出口值、滄州市公路里程、河北省生產(chǎn)總值、河北省農(nóng)業(yè)產(chǎn)量、河北省第三產(chǎn)業(yè)總值、河北省鐵路運(yùn)營里程對(duì)集裝箱吞吐量起促進(jìn)作用,而河北第二產(chǎn)業(yè)總值和河北進(jìn)出口值對(duì)黃驊港集裝箱吞吐量起負(fù)向作用。
黃驊港正在大力發(fā)展煤炭、糧食運(yùn)輸?shù)摹吧⒏募?,這占現(xiàn)有集裝箱吞吐量的70 %,而目前工業(yè)適箱貨運(yùn)量還沒有得到充分釋放,腹地工業(yè)產(chǎn)生的集裝箱多由天津港運(yùn)輸,所以河北省第二產(chǎn)業(yè)總值對(duì)黃驊集裝箱吞吐量影響有限。隨著滄州渤海新區(qū)的發(fā)展,臨港工業(yè)所產(chǎn)生的適箱貨運(yùn)量將會(huì)逐步增加,這在以后的建模中要加入進(jìn)去。黃驊港腹地冀中南地區(qū)外貿(mào)集裝箱主要經(jīng)天津港出口,所以河北省外貿(mào)進(jìn)出口額對(duì)黃驊港集裝箱吞吐量影響很小。隨著津冀港口公司參與到黃驊集裝箱碼頭運(yùn)營,以及中韓自貿(mào)協(xié)定的推動(dòng),黃驊港承擔(dān)內(nèi)支線運(yùn)輸將逐步增加,近洋直航也將在未來開辟,這也要在以后的建模中考慮。
將影響吞吐量因素的指標(biāo)按照灰色模型法GM(1,1)進(jìn)行預(yù)測,并且將預(yù)測的影響因素值帶入建好的偏最小回歸二乘模型,預(yù)測2020年和2025年的黃驊港集裝箱吞吐量,結(jié)果見表7。
表7 2020年和2025年黃驊港集裝箱吞吐量預(yù)測結(jié)果
通過 PLS方法能夠提取變量中解釋性強(qiáng)的成分,去除變量中多重相關(guān)信息,保留變量原有信息,該法能夠最大限度的利用影響港口集裝箱吞吐量的眾多變量信息。黃驊港集裝箱吞吐量預(yù)測算例表明,該方法能夠在歷史年份數(shù)據(jù)較少的情況下,精確度較高的預(yù)測集裝箱吞吐量,算例中給出的黃驊港集裝箱吞吐量2020年、2025年預(yù)測結(jié)果,也可為黃驊港發(fā)展建設(shè)預(yù)測提供參考。