• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于相關性分析的售票曲線相似度計算模型

      2016-12-05 11:06:57馬敏書房紅征
      鐵道運輸與經(jīng)濟 2016年11期
      關鍵詞:歷史數(shù)據(jù)計算公式區(qū)分

      王 浩,馬敏書,房紅征

      (1.北京市高速交通工具智能診斷與健康管理重點實驗室,北京100039;2.北京交通大學交通運輸學院,北京100044)

      基于相關性分析的售票曲線相似度計算模型

      王 浩1,馬敏書2,房紅征1

      (1.北京市高速交通工具智能診斷與健康管理重點實驗室,北京100039;2.北京交通大學交通運輸學院,北京100044)

      售票曲線相似度作為鐵路短期客流預測模型中的重要輸入,決定預測結果的準確度。為了更合理地計算售票曲線相似度,在闡述售票曲線相似度概況的基礎上,針對鐵路短期客流預測的問題,提出簡單計算模型、常用加權計算模型和基于相關性分析的計算模型,分別利用各模型計算得到的售票曲線相似度值對鐵路短期客流進行預測。結果表明,基于相關性分析的計算模型的預測結果明顯優(yōu)于常用加權計算模型,即合理引入的相關性分析結果成分越多,預測效果越好。

      相似度;相關系數(shù);預測模型;售票數(shù)據(jù)

      有效的鐵路客流預測不但能夠指導鐵路資源的合理配置,而且能夠提高鐵路部門的收益[1-2]。鐵路售票預測方法有很多。WICKHAM R R[3]提出改善的打包模型 (Advanced Pick Up),通過有效利用已有的售票信息進行預測,提高預測精度;2003 年,WEATHERFORD L R 和 KIMES S E[4]提出一種通過計算訂票曲線相似度來區(qū)分歷史數(shù)據(jù)在預測中所起作用,進而對歷史數(shù)據(jù)進行加權并預測的方法;2009 年,TSAI T H[5]提出三階段法 (Three-Stage-Model),并論證合理區(qū)分不同預售期的售票數(shù)據(jù)在計算相似度過程中的作用能夠極大提高預測精度,但其區(qū)分依據(jù)是歐式距離,簡單認為數(shù)據(jù)重要性大小只與應預測數(shù)據(jù)的時間距離遠近有關。為更加準確地描述相對于同一發(fā)車時間不同提前時間的累計售票數(shù)據(jù),以及不同歷史數(shù)據(jù)對預測結果的影響,通過對上一年同期數(shù)據(jù)進行相關性分析 (計算線性相關系數(shù)),用計算所得的相關系數(shù)來準確描述曲線相似度,可以有效區(qū)分不同數(shù)據(jù)在預測當中所起的作用,從而得到更加準確的預測結果。

      1 售票曲線相似度計算模型

      1.1售票曲線相似度

      相似度計算通常通過已知數(shù)據(jù)的變化趨勢來推算未知數(shù)據(jù)的應用,在鐵路售票數(shù)據(jù)的預測中存在巨大應用潛力[6]。鐵路在售票過程中不斷積累歷史數(shù)據(jù),而歷史數(shù)據(jù)與未來數(shù)據(jù)間有一定的相關關系,售票數(shù)據(jù)會呈現(xiàn)出一定的周期性變化,因而通過計算不同時間的售票曲線相似度,可以建立歷史數(shù)據(jù)與未來數(shù)據(jù)的相似關系,實現(xiàn)對未來數(shù)據(jù)預測的有效指導。

      假定有 n 個發(fā)車日的售票數(shù)據(jù) (為方便分析,選擇 n 為 1 周 7 天的倍數(shù),即 n = 7m,m ∈ Z+),Di表示第 i 個發(fā)車日,其中 di,0表示第 i 個發(fā)車日的最終累計售票量,di, j表示第 i 個發(fā)車日前 j 天的累計售票量,以此類推。在計算 Dx日數(shù)據(jù)曲線 (不含 dx,0) 與 Dy日數(shù)據(jù)曲線 (不含 dy,0)的相似度 Dx, y時(0≤x<y≤n,并且 x,y ∈ Z+),由于 dy,0為待預測數(shù)據(jù),數(shù)據(jù)曲線不包含 dx,0,dy,0。Dx, y實際代表Dx日數(shù)據(jù)曲線 (不含 dx,0) 與 Dy日數(shù)據(jù)曲線 (不含 dy,0) 變化趨勢的相似程度。

      1.2現(xiàn)有曲線相似度計算模型

      1.2.1簡單計算模型

      曲線相似度的簡單計算模型是指計算由 2 組數(shù)據(jù)所繪成曲線的純幾何相似程度的模型[7]。純幾何相似程度沒有考慮每個數(shù)據(jù)在計算中的不同作用,即默認為每個數(shù)據(jù)在計算相似度過程中所起的作用相同,雖然這種計算方法在一些預測問題中還會用到,但其容易使問題絕對化,不能區(qū)分不同數(shù)據(jù)對計算結果的影響,因而只適用于純數(shù)據(jù)計算,不涉及解決實際問題。簡單計算模型的計算公式為

      1.2.2常用加權計算模型

      曲線相似度的加權計算模型是指計算由 2 組經(jīng)過加權的數(shù)據(jù)所繪成曲線抽象相似程度的模型,是目前計算曲線相似度的常用方法。加權分為多種形式的加權,其目的是為了區(qū)分不同數(shù)據(jù)在計算曲線相似度時所起作用的大小。由于曲線上每個數(shù)據(jù)點賦予了不同的權重,所賦權值大的數(shù)據(jù)點在計算曲線相似度時所起的作用也大,因而不能只通過 2 條曲線的幾何趨勢即判斷其相似程度。

      在計算 Dx日數(shù)據(jù)曲線 (不含 dx,0) 與 Dy日數(shù)據(jù)曲線 (不含 dy,0) 的相似度時,計算結果用 Dx, y表示,將三階段法中計算相似度的模型定義為 Model,則Model 的計算公式為

      計算相似度是三階段法中的第一步,TSAI T H經(jīng)過相關論證,最終得出較為合理的預測模型,計算公式為

      2 基于相關性分析的售票曲線相似度計算模型

      2.1相關性分析方法

      在實際預測當中會發(fā)現(xiàn),用于預測的數(shù)據(jù)在預測當中所起的作用并非由歐氏距離簡單區(qū)分[8]。為了能有效區(qū)別不同數(shù)據(jù)對預測結果的影響,可以通過對相關性的研究,進行以下 2 種形式的線性相關性分析,用以區(qū)分不同數(shù)據(jù)在預測中所起的作用,進而對公式 ⑵ 中 1/j2和 ( y-x) 這 2 項進行改進。這里分別用第一相關系數(shù) cj和第二相關系數(shù) c'k(均為線性相關系數(shù)) 來表示相關性分析結果,其定義如下。

      (1)第一相關系數(shù)。為了區(qū)別不同提前天累計售票數(shù)據(jù)與發(fā)車日累計售票數(shù)據(jù)的相關性,用上年同期的數(shù)據(jù)進行相關性分析,定義第一相關系數(shù) cj如下。

      式中:cj為發(fā)車日累計售票數(shù)據(jù)列 (j = 0) 與發(fā)車日前 j 天 (j = 1,2,…,p) 累計售票數(shù)據(jù)的相關系數(shù);di, j為第 i 個發(fā)車日前j 天的累計售票數(shù)據(jù);。

      (2)第二相關系數(shù)。為了區(qū)別不同發(fā)車日累計售票數(shù)據(jù)與要預測發(fā)車日累計售票數(shù)據(jù)的相關性,定義第二相關系數(shù) c'k如下。將 di,0按周進行排列,則能分成 m 周,以第 1 列為例,分別求得周一與前一天 (k = 1)、前 2 天 (k = 2)、…、前 q 天 (k = q) 的相關系數(shù) c'1,c'2,…,c'q。例如,c'1等于星期一這一列陰影部分與星期日一列陰影部分的相關系數(shù),以此類推,如表1 所示。

      表1 實驗數(shù)據(jù)按照周進行排列

      其中:

      這樣可求得星期一與前一天 (k = 1)、前 2 天(k = 2)、…、前 q 天 (k = q) 的線性相關系數(shù) c'1,c'2,…,c'q。

      2.2基于相關性分析的計算模型

      改善模型當中的參數(shù)或因式,是對模型進行優(yōu)化的一種常用方法,在引入 cj,c'k時有多種方法,根據(jù)實驗比較,按下述方法引入可獲得較為準確的預測結果。為區(qū)分開售時間段內(nèi)不同日期累計售票量對預測結果的影響,把用歐式距離區(qū)分的因式改為引用相關系數(shù)區(qū)分的因式,即將 Model 中 j2一項改為 1/cj,把所得模型定義為 Model-1。則Model-1 計算公式為

      為了進一步區(qū)分不同發(fā)車日累計售票量 (即歷史數(shù)據(jù)) 對預測的影響,在 Model-1 的基礎上又將歐氏距離區(qū)分因式 ( y-x) 改為引用相關系數(shù)分析區(qū)分因式,把所得模型定義為 Model-2。則Model-2 計算公式為

      式中:k = y-x。

      3 模型比較

      3.1方法比較

      現(xiàn)對公式 ⑵、⑹、⑺ 即 Model、Model-1、Model-2 這 3 個模型的預測效果進行對比。為減少數(shù)據(jù)波動性影響并簡化預測過程,現(xiàn)規(guī)定只通過 1周之內(nèi)的數(shù)據(jù)對發(fā)車日售票量進行預測。如表2 所示,以陰影部分為例,當預測第 i + 6 個發(fā)車日的數(shù)據(jù) (這里真實數(shù)據(jù)是 di + 6, 0),則只需要用到陰影部分(1 個測試集) 的數(shù)據(jù)進行預測,預測完 1 個數(shù)據(jù),向下移動 1 行再對第 i + 7 個出發(fā)日的數(shù)據(jù)進行預測 (真實數(shù)據(jù)為 di + 7, 0) 進行預測,以此類推,這樣可得到從 D7到 Dn共 n-6 個預測數(shù)據(jù)。

      表2 用于預測的歷史數(shù)據(jù)

      為了驗證新建模型的優(yōu)越性,通過應用計算售票曲線相似度的預測方法,對所選實驗數(shù)據(jù)進行預測,再比較預測結果的精確,從而反推模型優(yōu)越性。這里選取車次為 G1,OD 為北京南到上海虹橋(終到站),席別為二等座,時間段為 2014年10月7日—2015年3月1日共 147 天 (21 周) 的數(shù)據(jù)作為實驗數(shù)據(jù),基本涵蓋各種情形的訂票數(shù)據(jù)曲線,數(shù)據(jù)具有一定代表性。這里 n = 147,m = 21,根據(jù)上述實驗數(shù)據(jù)的使用方法,即可獲得測試集個數(shù)為 141個,從而得到 2014年10月13日—2015年3月1日共 141 天的預測數(shù)據(jù)。然后將所得預測值與對應的真實值進行比較。由于要預測年的部分數(shù)據(jù)未知,cj,的計算由上年同期數(shù)據(jù)計算所得,計算結果如圖1和圖2所示。

      圖1 cj計算結果

      圖2 計算結果

      預測結果的計算公式為

      這樣可得到 2014年10月13日—2015年3月1日141 個發(fā)車日的預測數(shù)據(jù) (2014年10月13日的數(shù)據(jù)是由 2014年10月7日—2015年10月12日數(shù)據(jù)預測所得,以此類推)。

      3.2結果比較

      通過計算預測結果的絕對相對誤差 (MAPE) 來分析預測精度。

      令 h = i + 6,則 MAPEh的計算公式為

      為了分析方便并提高誤差分析的可靠性,選取 2014年10月14日—2015年3月1日的 140 天共 20 周預測誤差值進行分析 (8≤h≤147),對所得誤差按星期求平均值,計算公式為

      式中:w = 1 表示星期一;w = 2表示星期二;…;w = 7 表示星期日。

      圖3 計算結果

      由圖3可以看出,Model-1、Model-2 的預測結果明顯優(yōu)于 Model,而 Model-2 又明顯優(yōu)于Model-1。由此可知,合理引入相關性分析結果,相對于只單純基于歐氏距離的相似度計算模型預測效果更好,而且合理引入的相關性分析結果成分越多,預測效果越好。

      4 結束語

      基于相關性分析的售票曲線相似度計算模型為預測提供了新思路,這種預測模型能夠極大改善預測效果,相對于基于歐氏距離的相似度計算模型更加靈活,能夠適應不同類型數(shù)據(jù)的預測。此外,基于相關性分析的售票曲線相似度計算方法能夠發(fā)現(xiàn)數(shù)據(jù)間關聯(lián)性,對于進一步研究其內(nèi)在聯(lián)系有一定指導作用。但是,該模型也存在一些不足,比如實驗數(shù)據(jù)的選取和預測過程中數(shù)據(jù)的應用具有一定經(jīng)驗性,需要進一步完善?;谙嚓P性分析的售票曲線相似度計算模型的適應性分析是下一步重點研究方向。

      [1] 高 慧,趙建玉,賈 磊. 短時交通流預測方法綜述[J].濟南大學學報(自然科學版),2008,22(1):88-94.

      GAO Hui,ZHAO Jian-yu,JIA Lei. Summary of Short-Time Traffic Flow Forecasting Methods[J]. Journal of University of Jinan(Science and Technology),2008,22(1):88-94.

      [2] 宋嘉雯,瞿何舟. 基于客流性質的鐵路客流預測方法[J].鐵道運輸與經(jīng)濟,2011,33(3):87-90.

      SONG Jia-wen,QU He-zhou. Forecast Method of Railway Passenger Flow based on the Passenger Flow Characrer[J]. Railway Transport and Economy,2011,33(3):87-90.

      [3] WICKHAM R R. Evaluation of Forecasting Techniques for Short-Term Demand of Air Transportation[R]. Cambridge:Flight Transportation Laboratory,1995.

      [4] WEATHERFORD L R, KIMES S E. A Comparison of Forecasting Methods for Hotel Revenue Management[J]. International Journal of Forecasting,2003,19(3):401-415.

      [5] TSAI T H. A Temporal Case Retrieval Model to Predict Railway Passenger Arrivals[J]. Expert Systems with Applications,2009,36(5):8876-8882.

      [6] 賈俊芳,孫晚華,劉 華. 城際列車開行方案的客運量預測及評價[J]. 北京交通大學學報 (自然科學版),2004,28(6):95-98.

      JIA Jun-fang,SUN Wan-hua,LIU Hua. Traffic Volume Forecast and Evaluation of Intercity Passenger Train Operation[J]. Journal of Beijing Jiaotong University,2004,28(6):95-98.

      [7] 孫晚華,劉 剛. 鐵路城際客流預測模型的研究[J]. 北京交通大學學報 (自然科學版),2005,29(3):84-87.

      SUN Wan-hua,LIU Gang. Research on the Model of Forecasting Passenger Flow of the Intercity Train[J]. Journal of Beijing Jiaotong University,2005,29(3):84-87.

      [8] 王 達,榮 岡. 時間序列的模式距離[J]. 浙江大學學報(工學版),2004,38(7):795-798.

      WANG Da,RONG Gang. Pattern Distance of Time Series[J]. Journal of Zhejiang University(Engineering Science),2004,38(7):795-798.

      責任編輯:吳文娟

      The Similarity Calculating Model of Ticket Sales Curve based on Correlation Analysis

      WANG Hao1,MA Min-shu2,F(xiàn)ANG Hong-zheng3

      (1.High-Speed Transport Intelligent Diagnostics and Health Management—The Key Laboratory of Beijing Municipality, Beijing 100039, China; 2.School of Traffic and Transportation, Beijing Jiaotong University, Beijing 100044, China)

      The similarity of the ticket sales curve is an important input in the short-term passenger flow forecasting model, which determines the accuracy of forecasting results. In order to calculate the similarity of the sales curve more reasonably, a simple calculation model, a weighted calculation model and a relational analysis-based calculation model are put forward on the basis of describing the similarity of the selling curve and the short-term passenger flow forecasting, and the short-term passenger flow is forecasted by using the similarity value calculated by the model. The result shows that the prediction model based on the correlation analysis is better than the commonly used weighted calculation model, that is, the more the correlative analysis results are, the better the prediction result will be.

      Similarity; Correlation Coefficient; Prediction Model; Ticketing Data

      1003-1421(2016)11-0072-05

      U293.13

      A

      10.16668/j.cnki.issn.1003-1421.2016.11.15

      2016-02-10

      2016-08-02

      中國鐵路總公司科技研究開發(fā)計劃課題(2013F019)

      猜你喜歡
      歷史數(shù)據(jù)計算公式區(qū)分
      基于充電策略估算動力電池容量的方法
      汽車電器(2025年1期)2025-02-03 00:00:00
      區(qū)分“旁”“榜”“傍”
      你能區(qū)分平衡力與相互作用力嗎
      電機溫升計算公式的推導和應用
      防爆電機(2022年4期)2022-08-17 05:59:50
      基于設備PF性能曲線和設備歷史數(shù)據(jù)實現(xiàn)CBM的一個應用模型探討
      智能制造(2021年4期)2021-11-04 08:54:36
      基于故障歷史數(shù)據(jù)和BP神經(jīng)網(wǎng)絡的接地選線方案研究
      2019離職補償金計算公式一覽表
      教你區(qū)分功和功率
      基于Hadoop技術實現(xiàn)銀行歷史數(shù)據(jù)線上化研究
      罪數(shù)區(qū)分的實踐判定
      祁阳县| 平陆县| 济源市| 水富县| 江孜县| 喀什市| 陵水| 安达市| 双城市| 金坛市| 肇东市| 高阳县| 永济市| 施甸县| 肇庆市| 禹城市| 绍兴市| 古交市| 承德市| 肃南| 新龙县| 正阳县| 天气| 永靖县| 华坪县| 阿巴嘎旗| 渭南市| 崇仁县| 博客| 彰武县| 马关县| 福州市| 家居| 乡宁县| 犍为县| 鄂尔多斯市| 化德县| 麻栗坡县| 华坪县| 凌海市| 武威市|