楊麗蓉,呂紅霞
(1. 西南交通大學(xué) 交通運(yùn)輸與物流學(xué)院,四川 成都 610031;2. 全國鐵路列車運(yùn)行圖編制研發(fā)培訓(xùn)中心,四川 成都 610031;3. 綜合交通運(yùn)輸智能化國家地方聯(lián)合工程實(shí)驗(yàn)室,四川 成都 610031)
鐵路貨物運(yùn)輸是我國貨物運(yùn)輸?shù)闹匾\(yùn)輸方式 ,憑借其運(yùn)輸量大、安全性高、運(yùn)價(jià)極低的優(yōu)勢(shì),成為我國運(yùn)輸市場(chǎng)的主力,尤其是對(duì)于長(zhǎng)距離運(yùn)輸?shù)拇笞谪浳锲鋬?yōu)勢(shì)明顯。近年來,我國鐵路貨物運(yùn)輸量在國家大力支持的背景下,由于其他各種運(yùn)輸方式的沖擊,仍出現(xiàn)較為明顯的下降。結(jié)合歷史運(yùn)營狀況,消除冗余因素的影響,進(jìn)行貨物運(yùn)輸市場(chǎng)的科學(xué)預(yù)測(cè)。對(duì)合理制定運(yùn)輸計(jì)劃具有重要的指導(dǎo)意義。近年來,張誠等[1]運(yùn)用粗糙集對(duì)鐵路貨物周轉(zhuǎn)量預(yù)測(cè)進(jìn)行了研究,秦儉等[2?4]運(yùn)用粗糙集研究了物流需求預(yù)測(cè)。最常見的粗糙集離散化方法是等距離劃分或者等頻率劃分。等距離劃分需要使用者首先給定一個(gè)不小于二的整數(shù),然后根據(jù)各條件屬性的實(shí)際值或增減率,將屬性的值域劃分為幾個(gè)離散的區(qū)間;等頻率劃分則需要規(guī)定每個(gè)區(qū)間的樣本數(shù),然后再進(jìn)行離散。上述研究為離散化預(yù)測(cè)奠定了一定的理論基礎(chǔ),但是幾乎沒有考慮決策表內(nèi)各樣本間的不可分辨關(guān)系,離散后的結(jié)果可能會(huì)改變系統(tǒng)內(nèi)的不可分辨關(guān)系[5],繼而改變條件屬性與決策屬性間的關(guān)系,使預(yù)測(cè)結(jié)果產(chǎn)生偏差。運(yùn)用基于粗糙集的簡(jiǎn)單熵離散化方法,在保持屬性間的關(guān)系的前提下離散數(shù)據(jù),得出影響貨物周轉(zhuǎn)量的核心因素。借助Eviews軟件擬合并檢驗(yàn)參數(shù)可靠性,運(yùn)行模型,得到貨物周轉(zhuǎn)量及其增長(zhǎng)趨勢(shì)。
粗糙集是用來解決對(duì)象信息不精確、不完整等問題的一種數(shù)學(xué)工具,由波蘭學(xué)者Pawlak提出[6]。利用粗糙集,可以將無法描述或隱含的知識(shí)挖掘出來,以表達(dá)信息系統(tǒng)的內(nèi)容,找出決策系統(tǒng)潛在的規(guī)律,為決策提供判斷依據(jù)。
在信息系統(tǒng)中,條件屬性與決策屬性之間存在著某種不分明關(guān)系,稱之為不可分辨關(guān)系。設(shè)論域?yàn)閁,S為論域U上的一個(gè)等價(jià)關(guān)系簇。假如PS?,P≠?,則P中所有等價(jià)關(guān)系的交集仍是論域U的一個(gè)等價(jià)關(guān)系[8]。稱為P上的不可分明關(guān)系,記作IND()P。
在確定不同的屬性重要性時(shí),可以利用屬性依賴度來確定指標(biāo)的權(quán)重,此處需要用到關(guān)于粗糙集正域的理論。設(shè)近似空間為(U, R),XU?。
定義信息系統(tǒng)S中決策屬性D以依賴度K(0≤K≤1)依賴于條件屬性C,令,PQR∈,當(dāng)且僅當(dāng)其中r表示屬性依賴度,Card()U 表示集合U的基數(shù),即U中的元素個(gè)數(shù)[10?11]。
1.2.1數(shù)據(jù)處理
選取近幾年GDP、第一產(chǎn)業(yè)增加值、第二產(chǎn)業(yè)增加值等數(shù)據(jù)為原始數(shù)據(jù),計(jì)算以上數(shù)據(jù)的增長(zhǎng)率,后期離散化處理、重要度計(jì)算均在增長(zhǎng)率方面進(jìn)行。選擇增長(zhǎng)率進(jìn)行分析相比于分析單一的數(shù)據(jù)可以獲得更準(zhǔn)確的信息。
計(jì)算出增長(zhǎng)率之后,運(yùn)用簡(jiǎn)單熵的方法得出可以供粗糙集分析使用的離散化數(shù)據(jù)。接下來對(duì)簡(jiǎn)單熵離散化數(shù)據(jù)的計(jì)算進(jìn)行簡(jiǎn)單的介紹。
熵來源于熱力學(xué),表示不能做功的熱能[12]。常見的簡(jiǎn)單的連續(xù)數(shù)據(jù)離散化的方法有等寬法、等頻法和 K-means算法,都屬于非監(jiān)督的離散化方法[13]。等寬法離散數(shù)據(jù)時(shí)使每個(gè)區(qū)間寬度均為K,該方法離散后的結(jié)果極為脆弱;等頻法離散化數(shù)據(jù)時(shí),將最大的區(qū)間劃分為K個(gè),使每個(gè)區(qū)間具有m/K個(gè)值,忽略了樣本的原本分布信息;K-means算法作為聚類分析應(yīng)用較為成功的方法,在數(shù)據(jù)離散化問題上尚缺乏理論依據(jù)。這 3種方法均為非監(jiān)督離散化,采用基于簡(jiǎn)單熵的監(jiān)督離散化方法,可以以極大的區(qū)間純度確定離散時(shí)的分割點(diǎn)。
定義第i個(gè)區(qū)間的熵ei如下:
式中:pij為表示第i個(gè)區(qū)間中第j類屬性值的比例;K為完整區(qū)間內(nèi)樣本值的類別數(shù)。
將屬性劃分為目標(biāo)n個(gè)區(qū)間以后,從0開始,采用從小到大的整數(shù)對(duì)不同的樣本進(jìn)行編碼,同一區(qū)間的樣本編為同一個(gè)碼。對(duì)屬性集中每個(gè)屬性編碼以后便可得到離散化后的決策系統(tǒng)。
1.2.2依賴度之差
在篩選屬性時(shí),以前的研究學(xué)者常用的方法是通過比較單一屬性的依賴度來確定屬性的重要性,但決策屬性對(duì)多個(gè)單一條件屬性或條件屬性的依賴度可能會(huì)相同[14],屬性的重要度便無法確定,此時(shí),可以借助單一屬性或?qū)傩约囊蕾嚩戎顏肀容^。
進(jìn)行屬性依賴度之差求解時(shí),首先對(duì)決策系統(tǒng)按決策屬性D進(jìn)行劃分,具有相同離散值的樣本化為同一類;然后計(jì)算決策屬性D分別對(duì)條件屬性集C與屬性集C′的依賴度;最后,利用定義的屬性依賴度之差計(jì)算各單一屬性的依賴度之差,確定出屬性重要度。
1.2.3預(yù)測(cè)方法
采用的預(yù)測(cè)方法為多元線性回歸預(yù)測(cè)法[16]。對(duì)于文中這樣的實(shí)際問題,有多個(gè)樣本,可以設(shè)被解釋變量 yi與解釋變量 xi1,xi2,…,xin的線性規(guī)劃模型為
參數(shù)估計(jì)完畢以后,需要對(duì)模型進(jìn)行回歸系數(shù)顯著性的t檢驗(yàn)和回歸方程顯著性的F檢驗(yàn)[17]。
通過對(duì)以往常見方法的研究,期望以鐵路貨物運(yùn)輸為例,尋找一種更新、更直觀的預(yù)測(cè)方法。通過對(duì)影響貨物周轉(zhuǎn)量的因素進(jìn)行分析,選取合理的因素作為自變量,以粗糙集為基礎(chǔ),對(duì)于決策系統(tǒng)中的屬性值進(jìn)行離散,得出決策表,計(jì)算得出重要的自變量,最后根據(jù)因素分析的結(jié)果進(jìn)行回歸分析預(yù)測(cè)。
隨著市場(chǎng)經(jīng)濟(jì)發(fā)展趨于成熟,影響貨物周轉(zhuǎn)量的因素眾多,其中經(jīng)濟(jì)因素作用明顯。因此,選取的有GDP、第一產(chǎn)業(yè)增加值、第二產(chǎn)業(yè)增加值、第三產(chǎn)業(yè)增加值、社會(huì)消費(fèi)品零售總額、居民消費(fèi)水平、進(jìn)出口總額[2]。同時(shí),選擇能夠反應(yīng)貨物運(yùn)輸效率的鐵路貨物周轉(zhuǎn)量作為因變量,貨物周轉(zhuǎn)量是用貨物噸數(shù)乘以運(yùn)輸距離得來的,是運(yùn)輸量與運(yùn)輸距離的復(fù)合指標(biāo)。
選取2002年至2012年的數(shù)據(jù)作為原始數(shù)據(jù),見表1。
表1 2002~2012年屬性原始數(shù)據(jù)Table 1 Attributes raw data from 2002 to 2012
對(duì)原始數(shù)據(jù)進(jìn)行處理,求出GDP,進(jìn)出口總額和貨物周轉(zhuǎn)量等的增長(zhǎng)率,得出初始的信息系統(tǒng)。相對(duì)于原始數(shù)據(jù),增長(zhǎng)率具備較佳的信息表述能力。增長(zhǎng)率計(jì)算結(jié)果見表2。
表2 屬性增長(zhǎng)率Table 2 Growth rate of attributes
按照簡(jiǎn)單熵離散化方法計(jì)對(duì)初始信息系統(tǒng)進(jìn)行離散化處理,得出離散化后的決策系統(tǒng),離散化最終結(jié)果見表3。
對(duì)增長(zhǎng)率離散化以后,可以依據(jù)粗糙集等價(jià)理論將初始信息系統(tǒng)決策表按照不同屬性分類,獲取不同屬性的依賴度之差,即單一屬性重要度。下面以h屬性為例,對(duì)計(jì)算過程進(jìn)行展示。
表3 離散化決策信息系統(tǒng)Table 3 Discrete decision information system
1) 對(duì)決策屬性集D進(jìn)行等價(jià)劃分:
2) 對(duì)除開屬性 h后的條件屬性集進(jìn)行等價(jià)劃分:
3) 決策屬性等價(jià)集與條件屬性等價(jià)集的交集:
4) 決策屬性集D對(duì)條件屬性集{a,b,c,e,f,g}的依賴度與依賴度之差:
同理,用同樣的方法求得其他單一屬性的依賴度之差,見表4。
表4 單一屬性依賴度之差Table 4 Difference of single attribute dependence
由表4可知,依據(jù)屬性依賴度之差判斷,決策屬性d對(duì)條件屬性f與條件屬性h存在依賴,2個(gè)屬性條件可作為預(yù)測(cè)的重要屬性。因此,選取社會(huì)消費(fèi)品零售總額與進(jìn)出口總額作為預(yù)測(cè)的自變量。
由前面的分析可知,社會(huì)消費(fèi)品零售總額與進(jìn)出口總額對(duì)貨物運(yùn)輸周轉(zhuǎn)量影響較大,且二者對(duì)其重要性相同。因此,將選取社會(huì)消費(fèi)品零售總額與進(jìn)出總額的增長(zhǎng)率作為解釋變量,貨物運(yùn)輸周轉(zhuǎn)量的增長(zhǎng)率將作為被解釋變量。令自變量社會(huì)消費(fèi)品零售總額增長(zhǎng)率、進(jìn)出總額的增長(zhǎng)率分別為 X5和X7,因變量貨物運(yùn)輸周轉(zhuǎn)量的增長(zhǎng)率為Y。
利用多元線性回歸模型來對(duì)貨物周轉(zhuǎn)量進(jìn)行需求預(yù)測(cè),設(shè)定模型為:
式中:ci表示常數(shù);bij第i個(gè)樣本的第j個(gè)自變量的系數(shù)。
3.2.1參數(shù)估計(jì)
計(jì)算過程采用 Eviews進(jìn)行參數(shù)的估計(jì),此處引入 AR(1)變量以消除變量間的一階自相關(guān)關(guān)系[18?19]。計(jì)算結(jié)果如下:
通過上述結(jié)果可知,檢驗(yàn)結(jié)果表明判決系數(shù)為0.815 235,修正判決系數(shù)為0.704 376,比較接近于1,模型對(duì)樣本的擬合度較好。t檢驗(yàn)達(dá)到了理想水平,并且,F(xiàn)檢驗(yàn)的P值為0.027 844,遠(yuǎn)小于0.05,模型在α=0.05的水平上顯著置信區(qū)間達(dá)到0.95,模型通過了檢驗(yàn)。
3.2.2預(yù)測(cè)
根據(jù)統(tǒng)計(jì)年鑒可知2013年至2015年的社會(huì)消費(fèi)品總額增長(zhǎng)率、進(jìn)出口總額增長(zhǎng)率,見表5。
表5 2013年~2015年相關(guān)增長(zhǎng)率Table 5 Relative growth rate from 2013 to 2015
由模型可得2013年至2015年貨物周轉(zhuǎn)量的增長(zhǎng)率,結(jié)合2012年貨物周轉(zhuǎn)量29 187.09億t·km,得2013年至2015年貨物周轉(zhuǎn)量。預(yù)測(cè)結(jié)果見表6。
表6 2013年~2015年預(yù)測(cè)結(jié)果Table 6 Forecast results from 2013 to 2015
由預(yù)測(cè)結(jié)果可知按照當(dāng)前的運(yùn)營模式發(fā)展,鐵路的貨物周轉(zhuǎn)量有可能呈低走趨勢(shì),這給運(yùn)營管理人員提出一個(gè)警示,對(duì)此預(yù)測(cè)結(jié)果,可以進(jìn)行詳細(xì)的分析,找出目前的運(yùn)營存在的問題,針對(duì)問題做出一些調(diào)整,使周轉(zhuǎn)量在將來能夠呈穩(wěn)步增長(zhǎng)態(tài)勢(shì)。
1) 由預(yù)測(cè)模型可得 2013年,2014年和 2015年貨物周轉(zhuǎn)量的增長(zhǎng)率分別為1.9%,1.0%和?3.8%,貨物周轉(zhuǎn)量分別為29 746.26,30 054.87和29 812.16億 t·km,與實(shí)際數(shù)據(jù)相對(duì)吻合度分別為 98.04%,90.83%和78.29%,平均為89.05%。通過對(duì)貨物周轉(zhuǎn)量的預(yù)測(cè)可知,鐵路貨物周轉(zhuǎn)量有下降趨勢(shì),這與近兩年研究者對(duì)鐵路貨運(yùn)的研究一致。
2) 該模型的建立基于改進(jìn)后的粗糙集離散化方法,相對(duì)其他方法而言,在重要變量選取的過程中,離散化保留了變量間的分辨關(guān)系,結(jié)果更可靠,對(duì)我國貨物運(yùn)輸計(jì)劃具有一定的參考價(jià)值。
3) 若對(duì)預(yù)測(cè)模型再進(jìn)行改進(jìn),可以得出接近實(shí)際數(shù)據(jù)的預(yù)測(cè)結(jié)果。以基于粗糙集的貨物周轉(zhuǎn)量重要變量選取問題為重點(diǎn),預(yù)測(cè)年限越近時(shí)預(yù)測(cè)的準(zhǔn)確率越高,后期可進(jìn)一步探討重要變量選取與其他預(yù)測(cè)方法結(jié)合的可能性,擴(kuò)大預(yù)測(cè)年限。
參考文獻(xiàn):
[1] 張誠, 張廣勝. 基于粗糙集理論的鐵路貨運(yùn)需求預(yù)測(cè)研究[J]. 科技管理研究, 2012, 32(17): 212? 215.ZHANG Cheng, ZHANG Guangsheng. Demand forecast of rail freight based on rough set theory[J]. Science and Technology Management Research, 2012, 32(17): 212?215.
[2] 秦儉. 基于粗糙集與多元回歸的我國物流需求預(yù)測(cè)[J].物流技術(shù), 2014, 33(13): 298?299, 311.QIN Jian. Forecasting of Chinese logistics demand based on rough set theory and multiple regression[J]. Logistics Technology, 2014, 33(13): 298?299, 311.
[3] 馮怡, 張志勇, 徐廣姝, 等. 基于粗糙集理論的我國物流需求預(yù)測(cè)[J]. 物流技術(shù), 2010, 29(1): 60?62.FENG Yi, ZHANG Zhiyong, XU Guangshu, et al. The forecasting of logistics demand in China based on rough set theory[J]. Logistics Technology, 2010, 29(1): 60?62.
[4] 鐘映竑, 黃鑫. 基于粗糙集和支持向量機(jī)理論的物流需求預(yù)測(cè)研究[J]. 工業(yè)工程, 2015, 18(2): 28?33.ZHONG Yinghong, HUANG Xin. Study on the logistical forecasting method based on rough set theory and support vector machine (SVM)[J]. Industrial Engineering Journal,2015, 18(2): 28?33.
[5] 陳東升. 保持不可分辨關(guān)系的離散化方法[J]. 鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版), 2007, 22(1): 87?91.CHEN Dongsheng. Discretization method based on indiscernibility[J]. Journal of Zhengzhou University of light industry (Natural Science), 2007, 22(1): 87?91.
[6] 李秀竹. 粗糙集理論及其在管理決策中的應(yīng)用淺析[J].信息技術(shù), 2007, 31(7): 141?142.LI Xiuzhu. Analyses of rough set theory and the application in management decision[J]. Information Technology, 2007, 31(7): 141?142.
[7] 王國胤. Rought集理論與知識(shí)獲取[M]. 西安: 西安交通大學(xué)出版社, 2001: 18.WANG Guoyin. Rought set theory and knowledge acquisition[M]. Xi’an: Xi’an Jiaotong University Press,2001: 18.
[8] 苗奪謙, 李道國. 粗糙集理論、算法與應(yīng)用[M]. 北京:清華大學(xué)出版社, 2008: 25?26.MIAO Duoqian, LI Daoguo. Rough sets theory algorithms and apllications[M]. Beijing: Tsinghua University Press, 2008: 25?26.
[9] ZENG Anping, LI Tianrui, ZHANG Junbo, et al. An incremental approach for updating approximations of rough fuzzy sets under the variation of the object set[C]//Rough Sets and Current Trends in Computing, 2012:36?45.
[10] Pawlak Z. Rough set[J]. International Journal of Computer Information Science, 1982, 11(5): 341?350.
[11] Pawlak Z. Rough set theory and its applications to data analysis[J]. Cyberneties and System, 1998, 29(7): 661?668.
[12] Gray, Robert M. Entropy and information theory[M].Beijing: Science Press, 2012.
[13] 闕夏. 連續(xù)屬性離散化方法研究[D]. 合肥: 合肥工業(yè)大學(xué), 2006: 15?23.QUE Xia. Study on the discrtization of continuous attributes[D]. Hefei: Hefei University of Technology,2006: 15?23.
[14] 王小菊, 蔣蕓, 李永華. 基于依賴度之差的屬性重要性評(píng)分[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2009, 19(1): 67?70.WANG Xiaoju, JIANG Yun, LI Yonghua. Significance of attribute evaluation based on dependable difference[J].Computer Technology and Development, 2009, 19(1):67?70.
[15] 劉凌霞. 基于粗糙集理論屬性重要性的離散化算法[J].廣西輕工業(yè), 2007, 23(10): 75?76.LIU Lingxia. Discretization algorithm based on attribute importance of rough set theory[J]. Guangxi Journal of Light Industry, 2007, 23(10): 75?76.
[16] Chatterjee Samprit, Hadi Ali S. Regression analysis by example[M]. Hoboken, N J: Wiley, 2012.
[17] Kleinbaum, David G. Applied regression analysis and other multivariable methods[M]. 3rd ed. Beijing: China Machine Press, 2003.
[18] 劉巍, 陳昭. 計(jì)量經(jīng)濟(jì)學(xué)軟件: Eviews操作簡(jiǎn)明教程[M]. 2版. 廣州: 暨南大學(xué)出版社, 2013.LIU Wei, CHEN Zhao. Econometrics software: a concise guide to Eviews operations[M]. 2nd ed. Guangzhou:Jinan University Press, 2013.
[19] I Gusti Ngurah Agung. Cross section and experimental data analysis using Eviews[M]. Singapore: John Wiley &Sons, 2011.