• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于突發(fā)公共衛(wèi)生事件影響下的鐵路客流量恢復(fù)率預(yù)測研究

      2023-12-27 05:51:34周明杉衛(wèi)錚錚李聚寶
      鐵道運(yùn)輸與經(jīng)濟(jì) 2023年12期
      關(guān)鍵詞:客流量里程客流

      周明杉,衛(wèi)錚錚,李聚寶

      (中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081)

      0 引言

      突發(fā)公共衛(wèi)生事件是指突然發(fā)生,造成或者可能造成社會公眾健康嚴(yán)重?fù)p害的重大傳染病疫情、群體性不明原因疾病、重大食物和職業(yè)中毒以及其他嚴(yán)重影響公眾健康的事件。自2020 年新冠疫情出現(xiàn)以來,我國鐵路運(yùn)輸和運(yùn)營遭受了一定影響。進(jìn)入后疫情時(shí)代,各地疫情的階段性爆發(fā)使鐵路客流量呈現(xiàn)較大的波動,在此背景下,準(zhǔn)確研判客流趨勢對鐵路客運(yùn)決策起著關(guān)鍵作用。

      國內(nèi)外針對鐵路客流量預(yù)測已有不少的研究,研究初期主要采用的是統(tǒng)計(jì)學(xué)和傳統(tǒng)機(jī)器學(xué)習(xí)方法[1-3],后期出現(xiàn)了混合預(yù)測方法[4-6]。隨著計(jì)算機(jī)算力的提升,深度學(xué)習(xí)模型在該方向得以廣泛應(yīng)用。近幾年的研究證明,深度學(xué)習(xí)在客流量預(yù)測方面的應(yīng)用[7-9]具有顯著效果。這些研究方法各有其優(yōu)勢和應(yīng)用范圍,針對的預(yù)測對象也有所不同,其中涉及突發(fā)公共衛(wèi)生事件影響下的鐵路客流量恢復(fù)率預(yù)測研究較少。

      突發(fā)公共衛(wèi)生事件對鐵路客流量產(chǎn)生的影響是復(fù)雜而多樣的[10],需深入分析后疫情時(shí)代的客流量特征?;诖?,嘗試分析后疫情時(shí)代的客流量特征,提出恢復(fù)率的概念,綜合考慮疫情嚴(yán)重等級、地理位置和鐵路分布等因素,建立不同城市間的影響模型,通過對客流量特征進(jìn)行主成分分析,結(jié)合XGBoost算法對客流量恢復(fù)率進(jìn)行預(yù)測,為突發(fā)公共衛(wèi)生事件影響下的鐵路客流量恢復(fù)率預(yù)測提供理論指導(dǎo)與參考。

      1 城市間鐵路客流量影響因素分析

      為提高城市間客流量恢復(fù)率預(yù)測模型的準(zhǔn)確性,需全面分析其影響因素,并進(jìn)行權(quán)重計(jì)算。

      1.1 城市間鐵路客流量影響因素

      在受疫情影響下,城市間鐵路客流量影響因素的選取對模型的建立十分重要。從宏觀角度來看,鐵路客流量在疫情期間受多個(gè)因素的綜合影響而發(fā)生變化,并且具有一定的規(guī)律性。通過對疫情下的城市間客流量的觀察,分析得出疫情期城市間客流量主要由城市間鐵路里程、非疫情期城市間客流量、城市間地理位置和鐵路分布、疫情的嚴(yán)重程度4個(gè)因素決定。

      (1)城市間鐵路里程。通常來說,鐵路里程較短的城市間地理位置更接近,人們的通勤和往來頻率更高。隨著城市間鐵路里程的增加,城市間的通勤活動相對減少,長距離出行中,旅客更傾向于選擇飛機(jī)來代替鐵路出行。選取2021 年城市間列車運(yùn)行距離的平均值作為城市間鐵路里程,得到二級及以上城市間鐵路里程統(tǒng)計(jì)如圖1所示,其中二級及以上城市數(shù)據(jù)來自國家統(tǒng)計(jì)局,共計(jì)622 個(gè)。根據(jù)圖1,得出大多數(shù)城市間鐵路里程在 3000 km以內(nèi)。經(jīng)過統(tǒng)計(jì),得到城市間鐵路平均里程為 1204 km,方差為740。此外,其1/4,1/2,3/4 分位數(shù)對應(yīng)的距離依次為644 km, 1089 km, 1631 km。

      圖1 二級及以上城市間鐵路里程統(tǒng)計(jì)Fig.1 Railway mileage statistics among cities of level II and above

      (2)非疫情期城市間客流量。城市間的客流量包括客流發(fā)送量和客流到達(dá)量2 部分,為了獲取城市間的客流量數(shù)據(jù),選取2019 年每天平均發(fā)客量大于50 人次的二級及以上城市作為樣本。二級及以上城市間2019 年每日平均客流量統(tǒng)計(jì)如圖2 所示。經(jīng)統(tǒng)計(jì)得到二級及以上城市間2019 年每日平均客流量為882 人次,數(shù)據(jù)呈現(xiàn)典型的長尾分布,可以將城市間的客流量劃分為發(fā)送量和到達(dá)量2 個(gè)維度進(jìn)行研究。

      圖2 二級及以上城市間2019年每日平均客流量統(tǒng)計(jì)Fig.2 Statistics of daily average passenger flow among cities of level II and above in 2019

      (3)城市間地理位置和鐵路分布。由于地理位置的隔絕和鐵路線路的分布,鐵路系統(tǒng)會呈現(xiàn)出一些區(qū)域特征。根據(jù)地理位置的分布,將城市劃分為7個(gè)地區(qū):東北、華北、西北、華東、華南、華中、西南,不同地區(qū)城市與鐵路分布具體特征如表1所示。

      表1 不同地區(qū)城市與鐵路分布具體特征Tab.1 Distribution characteristics of cities and railways in different regions

      (4)疫情嚴(yán)重程度。一般來說,隨著疫情嚴(yán)重程度的增加,客流量會逐漸減少。當(dāng)疫情嚴(yán)重到一定程度時(shí),客流量會趨近于0。依據(jù)國家衛(wèi)生健康委員會發(fā)布的每個(gè)城市2021 年1—9 月的疫情新增數(shù)據(jù),參考國家衛(wèi)生健康委員會中高低風(fēng)險(xiǎn)的疫情周期劃分標(biāo)準(zhǔn),提出疫情等級劃分如表2 所示,以該城市連續(xù)7 d 無新增病例作為一段疫情結(jié)束的標(biāo)記,統(tǒng)計(jì)該段時(shí)間內(nèi)該城市疫情的持續(xù)時(shí)間和累計(jì)病例數(shù)。根據(jù)疫情持續(xù)時(shí)間、累計(jì)病例數(shù)和平均每日新增病例數(shù)3 個(gè)數(shù)據(jù),將疫情分為5 個(gè)等級。

      表2 疫情等級劃分Tab.2 Pandemic level

      1.2 城市間鐵路客流量影響因素權(quán)重計(jì)算

      通過權(quán)重量化城市間客流量影響因素,為客流量預(yù)測和決策提供參考,城市間鐵路客流量4 個(gè)特征因素權(quán)重具體計(jì)算如下。

      (1)城市間鐵路里程。在鐵路客流量預(yù)測和影響因素分析中,為更準(zhǔn)確地反映不同城市之間的聯(lián)系和影響程度,將城市間鐵路里程轉(zhuǎn)換為權(quán)重,其計(jì)算公式為

      式中:i,j分別代表不同城市;di,j為城市間鐵路里程的權(quán)重,di,j∈[0,1),di,j值越大說明i與j市之間的里程越近;xi,j為城市i與j間的鐵路里程,km;σ為城市間鐵路里程的標(biāo)準(zhǔn)差。

      以最高速度400 km/h的高速動車組為基準(zhǔn),考慮中間站點(diǎn)的停站,當(dāng)城市間鐵路里程大于 1589 km時(shí),其運(yùn)行時(shí)長約為4 h。超過4 h旅行時(shí)間的旅客其疲勞程度明顯增加,此時(shí)選擇鐵路的旅客較少[11],故一般認(rèn)為鐵路里程相距 1589 km的城市相互間的影響不大?;诖?,可以設(shè)置當(dāng)xi,j> 1589 km 時(shí),其權(quán)重di,j取0,表示2個(gè)城市間沒有明顯的鐵路聯(lián)系。同樣,如果2 個(gè)城市間沒有鐵路連接,其權(quán)重也取0。

      (2)城市間客流量。對城市間的客流量進(jìn)行權(quán)值計(jì)算,客流發(fā)送量fi,j,是以某個(gè)城市為出發(fā)城市其對應(yīng)的到達(dá)城市的客流到達(dá)量占該城市客流總發(fā)送量的百分比,其計(jì)算公式為

      式中:fi,j為i至j市客流發(fā)送量百分比,%;SFi為自i城市出發(fā)能到達(dá)的所有城市集合;numi,j為i至j市的客流量,人次。

      客流到達(dá)量ti,j,是以某個(gè)城市為到達(dá)城市其對應(yīng)的出發(fā)城市的客流發(fā)送量占該城市客流總到達(dá)量的百分比,其計(jì)算公式為

      式中:ti,j為i至j市客流到達(dá)量百分比,%;STj為能到達(dá)j城市的所有出發(fā)城市集合。

      客流發(fā)送量和客流到達(dá)量的百分比分布如表3所示。

      表3 客流發(fā)送量和客流到達(dá)量的百分比分布Tab.3 Percentage distribution of passenger flow sending and arriving

      從表3 可以看出,客流發(fā)送量與客流到達(dá)量百分比分布基本相同。大部分城市的到達(dá)和出發(fā)百分比在(0.2,5]之間,因此如果fi,j或ti,j在[0,0.2]之間,則該占比過低,將其出發(fā)和到達(dá)權(quán)重置為0,如果fi,j或ti,j在(5,100]之間,則將其出發(fā)和到達(dá)權(quán)重置為5。對于百分比在(0.2,5]之間的數(shù)據(jù)進(jìn)行如下標(biāo)準(zhǔn)化處理。

      (3)城市地理位置和鐵路分布。由于位于相同地區(qū)城市間的影響遠(yuǎn)大于不同地區(qū)城市間的影響,故根據(jù)下面公式,對其進(jìn)行分類。

      式中:wi,j代表i市與j市的地理權(quán)重。

      2 基于XGBoost 的城間客流量恢復(fù)率預(yù)測模型

      2.1 XGBoost模型算法

      XGBoost在大部分的回歸和分類問題上有廣泛的應(yīng)用[12],表達(dá)的性能良好,可以使用該算法對疫情等級進(jìn)行分類,從而預(yù)測城間客流量的恢復(fù)率。XGBoost 對應(yīng)的模型包含了多個(gè)CART 樹,其損失函數(shù)為

      式中:n為需預(yù)測數(shù)據(jù)的總量;yi為實(shí)際受疫情影響等級;為模型的預(yù)測等級;為模型的訓(xùn)練誤差;K為模型生成樹的總量;Ω(fk)為第k棵樹的正則化項(xiàng)。

      訓(xùn)練過程中,XGBoost 采用貪心算法進(jìn)行樹節(jié)點(diǎn)的分裂,根據(jù)疫情等級、地理和鐵路分布特征、客流發(fā)送量等級等屬性對樹中的每個(gè)葉子結(jié)點(diǎn)嘗試進(jìn)行分裂。每次分裂后,原先的葉子結(jié)點(diǎn)將被劃分為左右2 個(gè)子葉子結(jié)點(diǎn),原葉子結(jié)點(diǎn)中的樣本集將根據(jù)該結(jié)點(diǎn)的判斷規(guī)則分散到左右2 個(gè)葉子結(jié)點(diǎn)中。新分裂1 個(gè)結(jié)點(diǎn)后,需要檢測這次分裂是否會給損失函數(shù)帶來增益,增益的定義表達(dá)式為

      式中:λ為嶺回歸正則化系數(shù);其中GL為左子樹的所有葉子結(jié)點(diǎn)的輸入樣本的一階導(dǎo)之和;HL為左子樹的所有葉子結(jié)點(diǎn)的輸入樣本的二階導(dǎo)之和;同理,GR,HR為右子樹的所有葉子節(jié)點(diǎn)的一階導(dǎo)和二階導(dǎo)之和。和分別為劃分后的左子樹和右子樹的分?jǐn)?shù);為劃分前的分?jǐn)?shù);γ為加入新葉子節(jié)點(diǎn)的復(fù)雜度的代價(jià)。

      當(dāng)引入1 次分裂后,重新計(jì)算新生成的左、右2 個(gè)葉子結(jié)點(diǎn)的樣本權(quán)重和。如果任一個(gè)葉子結(jié)點(diǎn)的樣本權(quán)重低于某一個(gè)閾值,將會放棄此次分裂。

      2.2 K均值聚類

      K 均值聚類是一種常用的數(shù)據(jù)聚類算法[13],旨在將數(shù)據(jù)點(diǎn)分組為具有相似特征的群集。在這種方法中,首先需要選擇分成多少個(gè)群集,通常稱為K值。然后,算法隨機(jī)選擇K個(gè)數(shù)據(jù)點(diǎn)作為初始群集的中心,稱為質(zhì)心。通過計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與每個(gè)質(zhì)心之間的距離,將數(shù)據(jù)點(diǎn)分配到最近的質(zhì)心所代表的群集;根據(jù)每個(gè)群集中的數(shù)據(jù)點(diǎn),計(jì)算新的質(zhì)心位置。這個(gè)過程不斷迭代,直到質(zhì)心的變化很小或者達(dá)到預(yù)定的迭代次數(shù)。K均值聚類通過最小化群集內(nèi)數(shù)據(jù)點(diǎn)與其質(zhì)心之間的平均距離,同時(shí)在不同群集之間保存了一定的距離,從而實(shí)現(xiàn)了數(shù)據(jù)的分組。

      肘部圖是用于確定合適的K值的一種圖形方法[14]。構(gòu)建肘部圖的步驟包括嘗試不同的K值,對每個(gè)K值執(zhí)行K均值聚類,然后計(jì)算每個(gè)群集內(nèi)數(shù)據(jù)點(diǎn)到其質(zhì)心的平均距離,通常稱為簇內(nèi)平方和(SSE)。隨后,將不同K值對應(yīng)的SSE值繪制成圖表。肘部圖的特點(diǎn)是,隨著K值的增加,SSE 值逐漸減少。然而,當(dāng)K值增加到一定程度時(shí),SSE的減小幅度會減緩,形成一個(gè)圖像上的“肘部”,這個(gè)肘部對應(yīng)的K值通常被認(rèn)為是數(shù)據(jù)分組的最佳選擇。

      2.3 恢復(fù)率的引入

      所有2021 年及以后的客流量數(shù)據(jù)以2019 年的客流量數(shù)據(jù)為參考,將其節(jié)假日、周末和工作日對齊后進(jìn)行如下處理。

      式中:r為恢復(fù)率;I21,I19分別為2021 年和2019 年的同期客流量,人次。

      r取值范圍為[-1,∞],通常情況下為[-1,0]之間,-1 代表2021 年的客流量為0,0 代表2021 年的客流量與2019 年同期持平,取值為正數(shù)則表明2021年的客流量大于2019年的同期客流量,2021年北京至上??土髁炕謴?fù)率曲線如圖3所示。

      圖3 2021年北京至上??土髁炕謴?fù)率曲線Fig.3 Recovery rate curve of passenger flow from Beijing to Shanghai in 2021

      圖3中紅點(diǎn)和藍(lán)點(diǎn)標(biāo)注了疫情開始到結(jié)束的時(shí)間范圍,恢復(fù)率能從客流量變化識別疫情持續(xù)時(shí)間和嚴(yán)重程度,可以將不同城市間客流發(fā)送量的變化轉(zhuǎn)變?yōu)榻y(tǒng)一的判別指標(biāo),因此恢復(fù)率的概念對客流量識別有重要價(jià)值。

      2.4 預(yù)測目標(biāo)值的選取

      對于二級及以上城市之間的客流量數(shù)據(jù),剔除2019年平均每天客流量小于50人次的城市間數(shù)據(jù)。截取其疫情期間的數(shù)據(jù),計(jì)算疫情持續(xù)天數(shù)和平均恢復(fù)率,去掉疫情期間平均恢復(fù)率大于-0.5的異常數(shù)據(jù)。由于疫情持續(xù)天數(shù)和平均恢復(fù)率數(shù)據(jù)呈現(xiàn)長尾分布,故將對其作box-cox變換處理。

      式中:γ為常數(shù),通過最大似然估計(jì)方法求得;y(γ)為box-cox變換后的恢復(fù)率與疫情持續(xù)天數(shù)。

      將處理后的數(shù)據(jù)進(jìn)行K均值聚類,得到疫情持續(xù)天數(shù)和平均恢復(fù)率聚類肘部圖如圖4所示。

      圖4 疫情持續(xù)天數(shù)和平均恢復(fù)率聚類肘部圖Fig.4 Cluster elbow diagram of pandemic duration and average recovery rate

      通過肘部圖可以看出K均值聚類,聚類數(shù)等于4 時(shí)為曲線的拐點(diǎn),故肘部為K=4,將其聚為4 類。疫情持續(xù)天數(shù)和平均恢復(fù)率聚類圖如圖5 所示,每一聚類對應(yīng)的客流量受疫情影響等級如表4 所示。經(jīng)過聚類分析,將客流量受疫情影響程度劃分為了4 個(gè)不同的等級,每個(gè)等級都呈現(xiàn)出獨(dú)特的特征,故預(yù)測目標(biāo)便是客流量受疫情影響程度所對應(yīng)的等級。

      表4 客流量受疫情影響等級Tab.4 Passenger flow level affected by the pandemic

      圖5 疫情持續(xù)天數(shù)和平均恢復(fù)率聚類圖Fig.5 Cluster diagram of pandemic duration and average recovery rate

      3 實(shí)驗(yàn)與評估

      3.1 實(shí)驗(yàn)流程

      選取2021年1—9月發(fā)生疫情的城市至城市間的數(shù)據(jù)進(jìn)行分析。經(jīng)過預(yù)處理,得到了總計(jì) 5721 條受疫情影響的城市至城市間數(shù)據(jù)。為了建立模型并進(jìn)行實(shí)驗(yàn),將隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練樣本,剩下20%的數(shù)據(jù)作為測試樣本。由于目標(biāo)值分布不均勻、樣本數(shù)不均衡,需要對訓(xùn)練集里的少數(shù)類進(jìn)行“過采樣”,使得正、反例數(shù)目接近,并進(jìn)行機(jī)器學(xué)習(xí)。過采樣后對數(shù)據(jù)進(jìn)行主成分分析,使數(shù)據(jù)維數(shù)壓縮,盡可能降低原數(shù)據(jù)的復(fù)雜度,損失少量信息。

      在模型訓(xùn)練的過程中,首先對XGBoost的重要參數(shù)進(jìn)行高效調(diào)參。通常情況下,很多模型需要手動調(diào)參,故引入網(wǎng)格搜索來預(yù)設(shè)幾種超參數(shù)組合。每組超參數(shù)都采用4 組交叉驗(yàn)證來進(jìn)行評估,以防止過擬合。將數(shù)據(jù)分為4 份,其中一份作為驗(yàn)證集,進(jìn)行4 組測試,每次更換不同的驗(yàn)證集,得到4 組模型的結(jié)果,取其平均值作為最終結(jié)果。最后引入樸素貝葉斯算法和LightGBM 算法與XGBoost算法進(jìn)行對比。

      3.2 模型評估

      對于分類模型常采用的損失函數(shù)有合頁損失和對數(shù)損失。

      (1)合頁損失。當(dāng)類別有多個(gè)時(shí),依據(jù)Crammer&Singer 提出的多類損失辦法來計(jì)算,其計(jì)算公式為

      式中:yw是對真實(shí)類標(biāo)簽的預(yù)測值;yt是對其他類標(biāo)簽的預(yù)測里面最大的值。

      (2)對數(shù)損失。對數(shù)損失是定義在概率分布基礎(chǔ)上的,其計(jì)算公式為

      式中:a表示樣本;b表示類別;Pab代表第a個(gè)樣本屬于類別b的概率。

      使用樸素貝葉斯、LightGBM、XGBoost 分別進(jìn)行預(yù)測,得到的算法性能對比如表5所示。

      表5 算法性能對比Tab.5 Algorithm performance comparison

      由表5 可知,XGBoost 算法在整體準(zhǔn)確率方面表現(xiàn)最佳,并且具有最小的合頁損失和對數(shù)損失值;從預(yù)測準(zhǔn)確率來看,XGBoost 算法優(yōu)于LightGBM 算法,而LightGBM 算法又好于樸素貝葉斯算法;從運(yùn)行耗時(shí)來看,樸素貝葉斯的執(zhí)行速度最快,其次是LgihtGBM,而XGBoost 的執(zhí)行速度相對較慢。盡管XGBoost算法由于最優(yōu)參數(shù)中樹的最大深度導(dǎo)致耗時(shí)較長,但其總體預(yù)測效果最好。

      4 結(jié)束語

      基于XGBoost 算法,選取2021 年1—9 月所有二級及以上城市間的鐵路客流量恢復(fù)率進(jìn)行模型訓(xùn)練和預(yù)測,其準(zhǔn)確率為87.09%,總體效果良好。研究為完善疫情下客流量恢復(fù)率預(yù)測的方法進(jìn)行了有益的探索,對于減少鐵路客運(yùn)收益損失和降低運(yùn)輸風(fēng)險(xiǎn)具有重要價(jià)值。在后續(xù)的研究中,將考慮加入疫情下影響鐵路客流量的其他相關(guān)因素,如各地疫情管控政策、客流周期性和季節(jié)性等。此外,還可將客流量受疫情影響等級進(jìn)行更加精細(xì)的劃分,以進(jìn)一步提高模型的實(shí)用性和預(yù)測精確度,也將有助于更全面地理解疫情對鐵路客流量的影響,并為客流量預(yù)測提供更準(zhǔn)確、可靠的方法和決策支持。

      猜你喜歡
      客流量里程客流
      客流增多
      基于嵌入式系統(tǒng)的商場客流量統(tǒng)計(jì)算法
      騰勢400 用在上海市區(qū)的來回穿梭克服里程焦慮
      車迷(2017年12期)2018-01-18 02:16:12
      幸福合力 開啟幸福里程
      中國寶玉石(2017年2期)2017-05-25 00:37:11
      幸福合力 開啟幸福里程
      中國寶玉石(2017年1期)2017-03-24 09:19:42
      基于自學(xué)習(xí)補(bǔ)償?shù)氖覂?nèi)定位及在客流分析中的應(yīng)用
      算里程
      讀寫算(上)(2015年6期)2015-11-07 07:18:00
      基于AFC數(shù)據(jù)的城軌站間客流量分布預(yù)測
      人工免疫算法在電梯客流時(shí)段劃分的應(yīng)用
      城市軌道交通運(yùn)營客流數(shù)據(jù)分析缺陷及應(yīng)對
      东方市| 崇义县| 万宁市| 崇左市| 山阳县| 内黄县| 松原市| 益阳市| 隆化县| 安福县| 西青区| 民县| 巨鹿县| 会同县| 贵州省| 富民县| 汝南县| 牡丹江市| 珲春市| 广河县| 扎兰屯市| 上饶县| 垫江县| 石家庄市| 娄底市| 西宁市| 修水县| 齐河县| 唐河县| 资溪县| 孝感市| 崇仁县| 年辖:市辖区| 棋牌| 漯河市| 佛坪县| 泉州市| 上虞市| 中山市| 辽宁省| 临清市|