基于粗糙集與熵的鐵路貨物周轉(zhuǎn)量預(yù)測(cè)

2018-04-04 02:23:56楊麗蓉呂紅霞

鐵道科學(xué)與工程學(xué)報(bào) 2018年3期

楊麗蓉，呂紅霞

(1. 西南交通大學(xué) 交通運(yùn)輸與物流學(xué)院，四川成都 610031；2. 全國鐵路列車運(yùn)行圖編制研發(fā)培訓(xùn)中心，四川成都 610031；3. 綜合交通運(yùn)輸智能化國家地方聯(lián)合工程實(shí)驗(yàn)室，四川成都 610031)

鐵路貨物運(yùn)輸是我國貨物運(yùn)輸?shù)闹匾\(yùn)輸方式，憑借其運(yùn)輸量大、安全性高、運(yùn)價(jià)極低的優(yōu)勢(shì)，成為我國運(yùn)輸市場(chǎng)的主力，尤其是對(duì)于長(zhǎng)距離運(yùn)輸?shù)拇笞谪浳锲鋬?yōu)勢(shì)明顯。近年來，我國鐵路貨物運(yùn)輸量在國家大力支持的背景下，由于其他各種運(yùn)輸方式的沖擊，仍出現(xiàn)較為明顯的下降。結(jié)合歷史運(yùn)營狀況，消除冗余因素的影響，進(jìn)行貨物運(yùn)輸市場(chǎng)的科學(xué)預(yù)測(cè)。對(duì)合理制定運(yùn)輸計(jì)劃具有重要的指導(dǎo)意義。近年來，張誠等[1]運(yùn)用粗糙集對(duì)鐵路貨物周轉(zhuǎn)量預(yù)測(cè)進(jìn)行了研究，秦儉等[2?4]運(yùn)用粗糙集研究了物流需求預(yù)測(cè)。最常見的粗糙集離散化方法是等距離劃分或者等頻率劃分。等距離劃分需要使用者首先給定一個(gè)不小于二的整數(shù)，然后根據(jù)各條件屬性的實(shí)際值或增減率，將屬性的值域劃分為幾個(gè)離散的區(qū)間；等頻率劃分則需要規(guī)定每個(gè)區(qū)間的樣本數(shù)，然后再進(jìn)行離散。上述研究為離散化預(yù)測(cè)奠定了一定的理論基礎(chǔ)，但是幾乎沒有考慮決策表內(nèi)各樣本間的不可分辨關(guān)系，離散后的結(jié)果可能會(huì)改變系統(tǒng)內(nèi)的不可分辨關(guān)系[5]，繼而改變條件屬性與決策屬性間的關(guān)系，使預(yù)測(cè)結(jié)果產(chǎn)生偏差。運(yùn)用基于粗糙集的簡(jiǎn)單熵離散化方法，在保持屬性間的關(guān)系的前提下離散數(shù)據(jù)，得出影響貨物周轉(zhuǎn)量的核心因素。借助Eviews軟件擬合并檢驗(yàn)參數(shù)可靠性，運(yùn)行模型，得到貨物周轉(zhuǎn)量及其增長(zhǎng)趨勢(shì)。

1　粗糙集理論與預(yù)測(cè)方法

粗糙集是用來解決對(duì)象信息不精確、不完整等問題的一種數(shù)學(xué)工具，由波蘭學(xué)者Pawlak提出[6]。利用粗糙集，可以將無法描述或隱含的知識(shí)挖掘出來，以表達(dá)信息系統(tǒng)的內(nèi)容，找出決策系統(tǒng)潛在的規(guī)律，為決策提供判斷依據(jù)。

1.1　粗糙集基本知識(shí)

在信息系統(tǒng)中，條件屬性與決策屬性之間存在著某種不分明關(guān)系，稱之為不可分辨關(guān)系。設(shè)論域?yàn)閁，S為論域U上的一個(gè)等價(jià)關(guān)系簇。假如PS?，P≠?，則P中所有等價(jià)關(guān)系的交集仍是論域U的一個(gè)等價(jià)關(guān)系[8]。稱為P上的不可分明關(guān)系，記作IND()P。

在確定不同的屬性重要性時(shí)，可以利用屬性依賴度來確定指標(biāo)的權(quán)重，此處需要用到關(guān)于粗糙集正域的理論。設(shè)近似空間為(U, R)，XU?。

定義信息系統(tǒng)S中決策屬性D以依賴度K(0≤K≤1)依賴于條件屬性C，令,PQR∈，當(dāng)且僅當(dāng)其中r表示屬性依賴度，Card()U 表示集合U的基數(shù)，即U中的元素個(gè)數(shù)[10?11]。

1.2　基于粗糙集與簡(jiǎn)單熵的組合預(yù)測(cè)方法

1.2.1數(shù)據(jù)處理

選取近幾年GDP、第一產(chǎn)業(yè)增加值、第二產(chǎn)業(yè)增加值等數(shù)據(jù)為原始數(shù)據(jù)，計(jì)算以上數(shù)據(jù)的增長(zhǎng)率，后期離散化處理、重要度計(jì)算均在增長(zhǎng)率方面進(jìn)行。選擇增長(zhǎng)率進(jìn)行分析相比于分析單一的數(shù)據(jù)可以獲得更準(zhǔn)確的信息。

計(jì)算出增長(zhǎng)率之后，運(yùn)用簡(jiǎn)單熵的方法得出可以供粗糙集分析使用的離散化數(shù)據(jù)。接下來對(duì)簡(jiǎn)單熵離散化數(shù)據(jù)的計(jì)算進(jìn)行簡(jiǎn)單的介紹。

熵來源于熱力學(xué)，表示不能做功的熱能[12]。常見的簡(jiǎn)單的連續(xù)數(shù)據(jù)離散化的方法有等寬法、等頻法和 K-means算法，都屬于非監(jiān)督的離散化方法[13]。等寬法離散數(shù)據(jù)時(shí)使每個(gè)區(qū)間寬度均為K，該方法離散后的結(jié)果極為脆弱；等頻法離散化數(shù)據(jù)時(shí)，將最大的區(qū)間劃分為K個(gè)，使每個(gè)區(qū)間具有m/K個(gè)值，忽略了樣本的原本分布信息；K-means算法作為聚類分析應(yīng)用較為成功的方法，在數(shù)據(jù)離散化問題上尚缺乏理論依據(jù)。這 3種方法均為非監(jiān)督離散化，采用基于簡(jiǎn)單熵的監(jiān)督離散化方法，可以以極大的區(qū)間純度確定離散時(shí)的分割點(diǎn)。

定義第i個(gè)區(qū)間的熵ei如下：

式中：pij為表示第i個(gè)區(qū)間中第j類屬性值的比例；K為完整區(qū)間內(nèi)樣本值的類別數(shù)。

將屬性劃分為目標(biāo)n個(gè)區(qū)間以后，從0開始，采用從小到大的整數(shù)對(duì)不同的樣本進(jìn)行編碼，同一區(qū)間的樣本編為同一個(gè)碼。對(duì)屬性集中每個(gè)屬性編碼以后便可得到離散化后的決策系統(tǒng)。

1.2.2依賴度之差

在篩選屬性時(shí)，以前的研究學(xué)者常用的方法是通過比較單一屬性的依賴度來確定屬性的重要性，但決策屬性對(duì)多個(gè)單一條件屬性或條件屬性的依賴度可能會(huì)相同[14]，屬性的重要度便無法確定，此時(shí)，可以借助單一屬性或?qū)傩约囊蕾嚩戎顏肀容^。

進(jìn)行屬性依賴度之差求解時(shí)，首先對(duì)決策系統(tǒng)按決策屬性D進(jìn)行劃分，具有相同離散值的樣本化為同一類；然后計(jì)算決策屬性D分別對(duì)條件屬性集C與屬性集C′的依賴度；最后，利用定義的屬性依賴度之差計(jì)算各單一屬性的依賴度之差，確定出屬性重要度。

1.2.3預(yù)測(cè)方法

采用的預(yù)測(cè)方法為多元線性回歸預(yù)測(cè)法[16]。對(duì)于文中這樣的實(shí)際問題，有多個(gè)樣本，可以設(shè)被解釋變量 yi與解釋變量 xi1,xi2,…,xin的線性規(guī)劃模型為

參數(shù)估計(jì)完畢以后，需要對(duì)模型進(jìn)行回歸系數(shù)顯著性的t檢驗(yàn)和回歸方程顯著性的F檢驗(yàn)[17]。

2　鐵路貨運(yùn)數(shù)據(jù)離散及變量選取

通過對(duì)以往常見方法的研究，期望以鐵路貨物運(yùn)輸為例，尋找一種更新、更直觀的預(yù)測(cè)方法。通過對(duì)影響貨物周轉(zhuǎn)量的因素進(jìn)行分析，選取合理的因素作為自變量，以粗糙集為基礎(chǔ)，對(duì)于決策系統(tǒng)中的屬性值進(jìn)行離散，得出決策表，計(jì)算得出重要的自變量，最后根據(jù)因素分析的結(jié)果進(jìn)行回歸分析預(yù)測(cè)。

2.1　預(yù)測(cè)指標(biāo)體系

隨著市場(chǎng)經(jīng)濟(jì)發(fā)展趨于成熟，影響貨物周轉(zhuǎn)量的因素眾多，其中經(jīng)濟(jì)因素作用明顯。因此，選取的有GDP、第一產(chǎn)業(yè)增加值、第二產(chǎn)業(yè)增加值、第三產(chǎn)業(yè)增加值、社會(huì)消費(fèi)品零售總額、居民消費(fèi)水平、進(jìn)出口總額[2]。同時(shí)，選擇能夠反應(yīng)貨物運(yùn)輸效率的鐵路貨物周轉(zhuǎn)量作為因變量，貨物周轉(zhuǎn)量是用貨物噸數(shù)乘以運(yùn)輸距離得來的，是運(yùn)輸量與運(yùn)輸距離的復(fù)合指標(biāo)。

2.2　原始數(shù)據(jù)及其處理

選取2002年至2012年的數(shù)據(jù)作為原始數(shù)據(jù)，見表1。

表1　2002～2012年屬性原始數(shù)據(jù)Table 1　Attributes raw data from 2002 to 2012

對(duì)原始數(shù)據(jù)進(jìn)行處理，求出GDP，進(jìn)出口總額和貨物周轉(zhuǎn)量等的增長(zhǎng)率，得出初始的信息系統(tǒng)。相對(duì)于原始數(shù)據(jù)，增長(zhǎng)率具備較佳的信息表述能力。增長(zhǎng)率計(jì)算結(jié)果見表2。

表2　屬性增長(zhǎng)率Table 2　Growth rate of attributes

按照簡(jiǎn)單熵離散化方法計(jì)對(duì)初始信息系統(tǒng)進(jìn)行離散化處理，得出離散化后的決策系統(tǒng)，離散化最終結(jié)果見表3。

2.3　屬性重要度計(jì)算

對(duì)增長(zhǎng)率離散化以后，可以依據(jù)粗糙集等價(jià)理論將初始信息系統(tǒng)決策表按照不同屬性分類，獲取不同屬性的依賴度之差，即單一屬性重要度。下面以h屬性為例，對(duì)計(jì)算過程進(jìn)行展示。

表3　離散化決策信息系統(tǒng)Table 3　Discrete decision information system

1) 對(duì)決策屬性集D進(jìn)行等價(jià)劃分：

2) 對(duì)除開屬性 h后的條件屬性集進(jìn)行等價(jià)劃分：

3) 決策屬性等價(jià)集與條件屬性等價(jià)集的交集：

4) 決策屬性集D對(duì)條件屬性集{a,b,c,e,f,g}的依賴度與依賴度之差：

同理，用同樣的方法求得其他單一屬性的依賴度之差，見表4。

表4　單一屬性依賴度之差Table 4　Difference of single attribute dependence

由表4可知，依據(jù)屬性依賴度之差判斷，決策屬性d對(duì)條件屬性f與條件屬性h存在依賴，2個(gè)屬性條件可作為預(yù)測(cè)的重要屬性。因此，選取社會(huì)消費(fèi)品零售總額與進(jìn)出口總額作為預(yù)測(cè)的自變量。

3　周轉(zhuǎn)量多元回歸預(yù)測(cè)

3.1　建立回歸模型

由前面的分析可知，社會(huì)消費(fèi)品零售總額與進(jìn)出口總額對(duì)貨物運(yùn)輸周轉(zhuǎn)量影響較大，且二者對(duì)其重要性相同。因此，將選取社會(huì)消費(fèi)品零售總額與進(jìn)出總額的增長(zhǎng)率作為解釋變量，貨物運(yùn)輸周轉(zhuǎn)量的增長(zhǎng)率將作為被解釋變量。令自變量社會(huì)消費(fèi)品零售總額增長(zhǎng)率、進(jìn)出總額的增長(zhǎng)率分別為 X5和X7，因變量貨物運(yùn)輸周轉(zhuǎn)量的增長(zhǎng)率為Y。

利用多元線性回歸模型來對(duì)貨物周轉(zhuǎn)量進(jìn)行需求預(yù)測(cè)，設(shè)定模型為：

式中：ci表示常數(shù)；bij第i個(gè)樣本的第j個(gè)自變量的系數(shù)。

3.2　參數(shù)估計(jì)與預(yù)測(cè)

3.2.1參數(shù)估計(jì)

計(jì)算過程采用 Eviews進(jìn)行參數(shù)的估計(jì)，此處引入 AR(1)變量以消除變量間的一階自相關(guān)關(guān)系[18?19]。計(jì)算結(jié)果如下：

通過上述結(jié)果可知，檢驗(yàn)結(jié)果表明判決系數(shù)為0.815 235，修正判決系數(shù)為0.704 376，比較接近于1，模型對(duì)樣本的擬合度較好。t檢驗(yàn)達(dá)到了理想水平，并且，F(xiàn)檢驗(yàn)的P值為0.027 844，遠(yuǎn)小于0.05，模型在α=0.05的水平上顯著置信區(qū)間達(dá)到0.95，模型通過了檢驗(yàn)。

3.2.2預(yù)測(cè)

根據(jù)統(tǒng)計(jì)年鑒可知2013年至2015年的社會(huì)消費(fèi)品總額增長(zhǎng)率、進(jìn)出口總額增長(zhǎng)率，見表5。

表5　2013年～2015年相關(guān)增長(zhǎng)率Table 5　Relative growth rate from 2013 to 2015

由模型可得2013年至2015年貨物周轉(zhuǎn)量的增長(zhǎng)率，結(jié)合2012年貨物周轉(zhuǎn)量29 187.09億t·km，得2013年至2015年貨物周轉(zhuǎn)量。預(yù)測(cè)結(jié)果見表6。

表6　2013年～2015年預(yù)測(cè)結(jié)果Table 6　Forecast results from 2013 to 2015

由預(yù)測(cè)結(jié)果可知按照當(dāng)前的運(yùn)營模式發(fā)展，鐵路的貨物周轉(zhuǎn)量有可能呈低走趨勢(shì)，這給運(yùn)營管理人員提出一個(gè)警示，對(duì)此預(yù)測(cè)結(jié)果，可以進(jìn)行詳細(xì)的分析，找出目前的運(yùn)營存在的問題，針對(duì)問題做出一些調(diào)整，使周轉(zhuǎn)量在將來能夠呈穩(wěn)步增長(zhǎng)態(tài)勢(shì)。

4　結(jié)論

1) 由預(yù)測(cè)模型可得 2013年，2014年和 2015年貨物周轉(zhuǎn)量的增長(zhǎng)率分別為1.9%，1.0%和?3.8%，貨物周轉(zhuǎn)量分別為29 746.26，30 054.87和29 812.16億 t·km，與實(shí)際數(shù)據(jù)相對(duì)吻合度分別為 98.04%，90.83%和78.29%，平均為89.05%。通過對(duì)貨物周轉(zhuǎn)量的預(yù)測(cè)可知，鐵路貨物周轉(zhuǎn)量有下降趨勢(shì)，這與近兩年研究者對(duì)鐵路貨運(yùn)的研究一致。

2) 該模型的建立基于改進(jìn)后的粗糙集離散化方法，相對(duì)其他方法而言，在重要變量選取的過程中，離散化保留了變量間的分辨關(guān)系，結(jié)果更可靠，對(duì)我國貨物運(yùn)輸計(jì)劃具有一定的參考價(jià)值。

3) 若對(duì)預(yù)測(cè)模型再進(jìn)行改進(jìn)，可以得出接近實(shí)際數(shù)據(jù)的預(yù)測(cè)結(jié)果。以基于粗糙集的貨物周轉(zhuǎn)量重要變量選取問題為重點(diǎn)，預(yù)測(cè)年限越近時(shí)預(yù)測(cè)的準(zhǔn)確率越高，后期可進(jìn)一步探討重要變量選取與其他預(yù)測(cè)方法結(jié)合的可能性，擴(kuò)大預(yù)測(cè)年限。

參考文獻(xiàn)：

[1] 張誠, 張廣勝. 基于粗糙集理論的鐵路貨運(yùn)需求預(yù)測(cè)研究[J]. 科技管理研究, 2012, 32(17): 212? 215.ZHANG Cheng, ZHANG Guangsheng. Demand forecast of rail freight based on rough set theory[J]. Science and Technology Management Research, 2012, 32(17): 212?215.

[2] 秦儉. 基于粗糙集與多元回歸的我國物流需求預(yù)測(cè)[J].物流技術(shù), 2014, 33(13): 298?299, 311.QIN Jian. Forecasting of Chinese logistics demand based on rough set theory and multiple regression[J]. Logistics Technology, 2014, 33(13): 298?299, 311.

[3] 馮怡, 張志勇, 徐廣姝, 等. 基于粗糙集理論的我國物流需求預(yù)測(cè)[J]. 物流技術(shù), 2010, 29(1): 60?62.FENG Yi, ZHANG Zhiyong, XU Guangshu, et al. The forecasting of logistics demand in China based on rough set theory[J]. Logistics Technology, 2010, 29(1): 60?62.

[4] 鐘映竑, 黃鑫. 基于粗糙集和支持向量機(jī)理論的物流需求預(yù)測(cè)研究[J]. 工業(yè)工程, 2015, 18(2): 28?33.ZHONG Yinghong, HUANG Xin. Study on the logistical forecasting method based on rough set theory and support vector machine (SVM)[J]. Industrial Engineering Journal,2015, 18(2): 28?33.

[5] 陳東升. 保持不可分辨關(guān)系的離散化方法[J]. 鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版), 2007, 22(1): 87?91.CHEN Dongsheng. Discretization method based on indiscernibility[J]. Journal of Zhengzhou University of light industry (Natural Science), 2007, 22(1): 87?91.

[6] 李秀竹. 粗糙集理論及其在管理決策中的應(yīng)用淺析[J].信息技術(shù), 2007, 31(7): 141?142.LI Xiuzhu. Analyses of rough set theory and the application in management decision[J]. Information Technology, 2007, 31(7): 141?142.

[7] 王國胤. Rought集理論與知識(shí)獲取[M]. 西安: 西安交通大學(xué)出版社, 2001: 18.WANG Guoyin. Rought set theory and knowledge acquisition[M]. Xi’an: Xi’an Jiaotong University Press,2001: 18.

[8] 苗奪謙, 李道國. 粗糙集理論、算法與應(yīng)用[M]. 北京:清華大學(xué)出版社, 2008: 25?26.MIAO Duoqian, LI Daoguo. Rough sets theory algorithms and apllications[M]. Beijing: Tsinghua University Press, 2008: 25?26.

[9] ZENG Anping, LI Tianrui, ZHANG Junbo, et al. An incremental approach for updating approximations of rough fuzzy sets under the variation of the object set[C]//Rough Sets and Current Trends in Computing, 2012:36?45.

[10] Pawlak Z. Rough set[J]. International Journal of Computer Information Science, 1982, 11(5): 341?350.

[11] Pawlak Z. Rough set theory and its applications to data analysis[J]. Cyberneties and System, 1998, 29(7): 661?668.

[12] Gray, Robert M. Entropy and information theory[M].Beijing: Science Press, 2012.

[13] 闕夏. 連續(xù)屬性離散化方法研究[D]. 合肥: 合肥工業(yè)大學(xué), 2006: 15?23.QUE Xia. Study on the discrtization of continuous attributes[D]. Hefei: Hefei University of Technology,2006: 15?23.

[14] 王小菊, 蔣蕓, 李永華. 基于依賴度之差的屬性重要性評(píng)分[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2009, 19(1): 67?70.WANG Xiaoju, JIANG Yun, LI Yonghua. Significance of attribute evaluation based on dependable difference[J].Computer Technology and Development, 2009, 19(1):67?70.

[15] 劉凌霞. 基于粗糙集理論屬性重要性的離散化算法[J].廣西輕工業(yè), 2007, 23(10): 75?76.LIU Lingxia. Discretization algorithm based on attribute importance of rough set theory[J]. Guangxi Journal of Light Industry, 2007, 23(10): 75?76.

[16] Chatterjee Samprit, Hadi Ali S. Regression analysis by example[M]. Hoboken, N J: Wiley, 2012.

[17] Kleinbaum, David G. Applied regression analysis and other multivariable methods[M]. 3rd ed. Beijing: China Machine Press, 2003.

[18] 劉巍, 陳昭. 計(jì)量經(jīng)濟(jì)學(xué)軟件: Eviews操作簡(jiǎn)明教程[M]. 2版. 廣州: 暨南大學(xué)出版社, 2013.LIU Wei, CHEN Zhao. Econometrics software: a concise guide to Eviews operations[M]. 2nd ed. Guangzhou:Jinan University Press, 2013.

[19] I Gusti Ngurah Agung. Cross section and experimental data analysis using Eviews[M]. Singapore: John Wiley &Sons, 2011.

基于粗糙集與熵的鐵路貨物周轉(zhuǎn)量預(yù)測(cè)

1 粗糙集理論與預(yù)測(cè)方法

1.1 粗糙集基本知識(shí)

1.2 基于粗糙集與簡(jiǎn)單熵的組合預(yù)測(cè)方法

2 鐵路貨運(yùn)數(shù)據(jù)離散及變量選取

2.1 預(yù)測(cè)指標(biāo)體系

2.2 原始數(shù)據(jù)及其處理

2.3 屬性重要度計(jì)算

3 周轉(zhuǎn)量多元回歸預(yù)測(cè)

3.1 建立回歸模型

3.2 參數(shù)估計(jì)與預(yù)測(cè)

4 結(jié)論