• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于支持向量機的低收入通勤者出行方式預(yù)測*

      2016-08-29 05:45:06陳學(xué)武王海嘯
      關(guān)鍵詞:訓(xùn)練樣本低收入準確率

      程 龍 陳學(xué)武 楊 碩 王海嘯

      (東南大學(xué)城市智能交通江蘇省重點實驗室1) 南京 210096)(現(xiàn)代城市交通技術(shù)江蘇高校協(xié)同創(chuàng)新中心2) 南京 210096)

      ?

      基于支持向量機的低收入通勤者出行方式預(yù)測*

      程龍1,2)陳學(xué)武1,2)楊碩1,2)王海嘯1,2)

      (東南大學(xué)城市智能交通江蘇省重點實驗室1)南京210096)(現(xiàn)代城市交通技術(shù)江蘇高校協(xié)同創(chuàng)新中心2)南京210096)

      為了研究支持向量機(SVM)在出行行為分析中的適用性,分析低收入通勤者的出行方式選擇,構(gòu)建了基于支持向量機的出行方式選擇預(yù)測建模流程,并對模型求解.基于撫順市居民出行調(diào)查數(shù)據(jù),統(tǒng)計結(jié)果表明低收入通勤者與非低收入通勤者的社會經(jīng)濟屬性特征和活動特征具有顯著差異.選取分方式的分類預(yù)測準確率、總體分類預(yù)測準確率和平均絕對百分比誤差3個指標,通過與傳統(tǒng)的多項Logit模型對比,發(fā)現(xiàn)支持向量機對分類數(shù)據(jù)具有較好的擬合能力,出行方式選擇的預(yù)測準確率更高.

      出行方式選擇;支持向量機;預(yù)測能力;低收入通勤者

      0 引  言

      研究分類變量選擇較常用的方法是離散選擇模型,但傳統(tǒng)的統(tǒng)計建模方法有一定不足,如要求樣本數(shù)據(jù)呈正態(tài)分布的假設(shè)、假設(shè)效用函數(shù)中自變量間呈線性關(guān)系等.當(dāng)數(shù)據(jù)不能滿足上述假設(shè)時,傳統(tǒng)的建模方法得出的結(jié)論將會產(chǎn)生偏差.為了克服傳統(tǒng)方法的不足,有學(xué)者提出非參數(shù)建模方法來分析交通選擇問題,支持向量機(SVM)則是其中一種用于解決分類和回歸問題比較新的方法[1],近年來被廣泛應(yīng)用于交通研究中.

      Zhang等[2]運用支持向量機對高速公路短時交通流量進行預(yù)測,認為支持向量機能夠克服數(shù)據(jù)過度擬合和局部極小解的問題,具有更好的預(yù)測能力.Chen等[3]基于加州I-880號公路的交通事故數(shù)據(jù),發(fā)現(xiàn)支持向量機在交通事故檢測方面具有較強的能力.Li等[4]證明支持向量機比傳統(tǒng)負二項回歸模型在事故嚴重等級預(yù)測方面的準確性更高,且收斂速率快.通過佛羅里達州326處高速公路分流區(qū)交通事故數(shù)據(jù)的分析,Li等[5]發(fā)現(xiàn)支持向量機在事故嚴重等級預(yù)測準確率比有序Probit模型高.可以看出,支持向量機在處理數(shù)據(jù)分類問題時,比傳統(tǒng)的統(tǒng)計模型有較高的數(shù)據(jù)擬合能力[6].

      以往的研究多聚焦在交通流預(yù)測、交通事故分析等,較少研究出行方式選擇行為.低收入通勤者作為社會的構(gòu)成的重要階層,在“交通公平性”的背景下,研究低收入者的出行行為具有重要意義.本研究基于支持向量機分析低收入通勤者出行方式選擇行為,探討其在出行行為分析方面的適用性,以豐富和增強交通需求預(yù)測的基礎(chǔ)理論.

      1 數(shù)據(jù)來源及描述性統(tǒng)計

      數(shù)據(jù)來自2014年10月29日(星期三)的遼寧省撫順市居民出行調(diào)查.調(diào)查內(nèi)容分為2部分:(1)家庭和個人特征;(2)被調(diào)查者的1天出行記錄.在對調(diào)查數(shù)據(jù)校核和篩選后,最終獲得了8 585個有效個體樣本.經(jīng)濟合作與發(fā)展組織提出的國際貧困線標準為當(dāng)?shù)厝司芍涫杖氲?0%[7].由此,2014年撫順市的貧困標準為1.4萬元/年.然后基于職業(yè)屬性,1 973個樣本被識別為低收入通勤者.

      通過對比,發(fā)現(xiàn)低收入和非低收入通勤者的社會經(jīng)濟屬性和活動屬性特征具有差異性,見表 1.低收入通勤者具有如下特征:家庭規(guī)模較大,小汽車擁有率較低,公交卡擁有率高,受教育水平較低;全日較少組織多個出行鏈,生存型活動(指上班和上學(xué))時耗較長,機動化出行以公共交通為主,小汽車的出行比例較低.低收入和非低收入者選擇自行車和電動車出行的比例都較低,這是因為撫順市位于我國東北地區(qū),受氣候和地形地貌的限制(天氣冷、道路坡度大),騎行環(huán)境較差.

      表1 社會經(jīng)濟屬性和活動屬性特征差異

      由于本研究涉及個體社會經(jīng)濟屬性、活動屬性和方式選擇之間的關(guān)系,變量數(shù)量眾多,相互之間關(guān)系層次復(fù)雜,為了提高初始模型設(shè)定的準確性和有效性,需要對各變量間的關(guān)系進行顯著性檢驗.表1中的離散變量有家庭規(guī)模,自行車、電動車、小汽車擁有率,性別,駕照和公交卡擁有率,年齡,受教育程度,出行鏈個數(shù).連續(xù)變量有出行時耗和生存型活動時耗.卡方檢驗(Pearson’s chi-squared)用于檢驗離散變量與出行方式選擇之間的顯著性,單因素方差分析(ANOVA)用于檢驗連續(xù)變量與出行方式選擇之間的顯著性.從檢驗結(jié)果發(fā)現(xiàn),表 1中的變量都與出行方式選擇顯著相關(guān),因此在建模時均予考慮.

      2 研究方法

      2.1支持向量機

      支持向量機是從觀測樣本數(shù)據(jù)出發(fā)運用統(tǒng)計學(xué)的方法,對樣本數(shù)據(jù)規(guī)律進行學(xué)習(xí),研究其內(nèi)在的相互關(guān)聯(lián)聯(lián)系,同時利用該規(guī)律對未知數(shù)據(jù)進行預(yù)測估計.支持向量機的模型定義為特征空間上間隔最大的線性分類器,基本思想是尋找能夠?qū)⑷坑?xùn)練樣本點正確分類的最優(yōu)分類面,同時保證距離該分類面最近的樣本點與其間隔最大.學(xué)習(xí)策略是間隔最大化,最終轉(zhuǎn)化為凸二次規(guī)劃求解問題.

      式中:w為分類面的法向量;b為常數(shù)項.

      當(dāng)訓(xùn)練樣本集在低維空間不可分時,可以通過添加核函數(shù)K(xi,xj)將數(shù)據(jù)映射到高維空間中,以求解在原始空間中線性不可分的問題.當(dāng)數(shù)據(jù)存在噪聲,可引入非負松弛變量εi≥0和懲罰因子C作為綜合權(quán)重來處理,則式(1)的最優(yōu)化問題變?yōu)?/p>

      2.2建模流程

      基于支持向量機的低收入通勤者出行方式選擇預(yù)測建模流程如下.

      1) 選擇影響低收入通勤者出行方式選擇的變量,對數(shù)據(jù)進行預(yù)處理,構(gòu)造訓(xùn)練樣本數(shù)據(jù)集.基于變量間的相關(guān)性檢驗結(jié)果,表 1中的所有變量均作為預(yù)測模型的輸入.

      3) 構(gòu)造優(yōu)化問題,如式(2)所示,并對參數(shù)進行求解.

      4) 求得最優(yōu)解構(gòu)建的決策函數(shù),用測試樣本數(shù)據(jù)集預(yù)測其他低收入通勤者出行方式選擇結(jié)果.

      模型建立后,采用5折交叉驗證來評價模型精度.也就是將原始數(shù)據(jù)均分成5組,將每個子集數(shù)據(jù)分別做一次驗證集,其余的4組子集數(shù)據(jù)作為訓(xùn)練集,這樣會得到5個模型,用這5個模型驗證集的分類準確率的平均值作為分類器的性能指標.5折交叉驗證可以有效的避免過學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生,最后得到的結(jié)果具有說服力.

      對訓(xùn)練樣本集學(xué)習(xí)過程中,需要確定兩個參數(shù),即懲罰因子C和核函數(shù)參數(shù)r.采用網(wǎng)格搜索算法對參數(shù)尋優(yōu),網(wǎng)格搜索算法屬于啟發(fā)式算法,不必遍歷區(qū)間內(nèi)所有的參數(shù)組就能找到全局最優(yōu)解,具有收斂速度快的特性.

      3 分析結(jié)果

      3.1支持向量機

      使用LIBSVM軟件包[8]來進行支持向量機模型的標定,事先將總體樣本按照4∶1的比例隨機分成訓(xùn)練樣本集和測試樣本集.為了減少數(shù)據(jù)隨機分配產(chǎn)生的誤差,做了6次試驗以對低收入通勤者出行方式選擇進行訓(xùn)練和測試.

      以第1次試驗為例,詳細介紹SVM的訓(xùn)練和測試過程.首先按4∶1的比例將總體數(shù)據(jù)分成1 578個訓(xùn)練樣本和395個測試集樣本.然后,采用5折交叉驗證和網(wǎng)格搜索法進行參數(shù)(C,r)尋優(yōu),最終結(jié)果見圖 1.當(dāng)訓(xùn)練集驗證分類準確率最高時,C=147.033 4,r=0.006 8,此時的訓(xùn)練集驗證分類準確率是62.29%.這樣就得到了對訓(xùn)練樣本學(xué)習(xí)過程的模型,該模型是一個結(jié)構(gòu)體,由該結(jié)構(gòu)體中參數(shù)可以得到?jīng)Q策函數(shù),該決策函數(shù)將用于測試樣本集數(shù)據(jù)的預(yù)測.

      圖1 支持向量機參數(shù)尋優(yōu)結(jié)果

      6次試驗的分類準確率匯總情況見表 2.可以發(fā)現(xiàn),支持向量機在訓(xùn)練樣本集上分類準確率要大于測試樣本集.訓(xùn)練樣本數(shù)據(jù)分類準確率平均值是68.59%,測試樣本數(shù)據(jù)分類準確率平均值是64.66%.此外,對于大樣本量的數(shù)據(jù),支持向量機有很好的分類能力,如步行和公共交通,兩者在測試樣本中分類準確率分別是68.96%和76.84%.但對于小樣本量的數(shù)據(jù),支持向量機的分類能力較差,如自行車和電動車,兩者在測試樣本中分類準確僅為16.34%和10.73%.這是因為支持向量機在工作過程中為提高整體分類準確率,會忽視小樣本量數(shù)據(jù)提供的信息.這個問題廣泛存在于多分類技術(shù)手段中,如分類樹、人工神經(jīng)網(wǎng)絡(luò)和支持向量機[9].

      表2 支持向量機的分類準確率

      3.2與多項Logit預(yù)測能力的對比

      為了對比支持向量機與多項Logit(MNL)模型在低收入通勤者出行方式選擇的預(yù)測能力,基于相同的數(shù)據(jù)用MNL模型也做了6次試驗,首先用訓(xùn)練樣本數(shù)據(jù)對MNL模型中的參數(shù)求解,然后基于求解的參數(shù)模型對測試樣本集中數(shù)據(jù)進行預(yù)測.選取3個指標進行對比,分別是分方式的分類預(yù)測準確率、總體預(yù)測準確率和平均絕對百分比誤差.

      1) 分方式的分類預(yù)測準確率是指某種交通方式預(yù)測準確的樣本量占選擇該交通方式總樣本量的比例,結(jié)果見表 3.可以看出,各方式的平均預(yù)測準確率SVM均比MNL高,特別對于樣本量較小的自行車和電動車兩種出行方式,SVM準確率比MNL高很多,約10%,表明MNL模型在小樣本量數(shù)據(jù)上分類能力更差.

      表3 分方式平均預(yù)測準確率 %

      2) 總體分類預(yù)測準確率是指所有交通方式預(yù)測準確的樣本量占總體樣本量的比例.SVM的總體分類預(yù)測準確率高于MNL,兩者分別為64.66%和61.94%.此外,6次試驗中SVM預(yù)測準確率的方差為1.67,而MNL的方差為4.82,說明SVM在出行方式選擇方面的預(yù)測能力較為穩(wěn)定,方差較小.

      3) 平均絕對百分比誤差為預(yù)測值與實際值的差值占實際值百分比的算術(shù)平均數(shù),公式為

      (3)

      (4)

      式中:PEi為第i種交通方式選擇的百分比誤差;n為交通方式種類,本研究有5種;Xi為第i種交通方式實際選擇的樣本數(shù);Fi為第i種交通方式預(yù)測的樣本數(shù).指標對比結(jié)果見表 4,除第3次試驗外,SVM的預(yù)測平均絕對百分比誤差均小于MNL模型.而且從6次試驗整體看,SVM的預(yù)測平均絕對百分比誤差要小于MNL模型.

      表4 平均絕對百分比誤差 %

      從3個指標的對比可以看出,支持向量機比MNL模型在出行方式選擇的預(yù)測能力要好,支持向量機具有較高的處理數(shù)據(jù)分類問題的能力,在出行行為分析中具有較好的適用性.

      4 結(jié) 束 語

      基于撫順市居民出行調(diào)查數(shù)據(jù),發(fā)現(xiàn)低收入通勤者與非低收入通勤者的社會經(jīng)濟屬性特征和活動特征具有顯著差異.構(gòu)建了基于支持向量機的出行方式選擇預(yù)測建模流程,然后對低收入通勤者的出行方式選擇行為進行分析,通過與MNL模型預(yù)測能力的對比,發(fā)現(xiàn)支持向量機在處理分類數(shù)據(jù)方面具有較高的擬合能力,在出行行為分析中具有較好的適用性.研究結(jié)論將為居民出行行為分析提供新的研究思路,豐富和增強交通需求預(yù)測分析的理論基礎(chǔ).但是,本研究僅分析了支持向量機與MNL模型預(yù)測能力的對比,以后的研究可進一步考慮與其他傳統(tǒng)統(tǒng)計模型,如巢式Logit、混合Logit等的預(yù)測能力對比.

      [1]鄭文昌,陳淑燕,王宣強.面向不平衡數(shù)據(jù)集的SMOTE-SVM交通事件檢測算法[J].武漢理工大學(xué)學(xué)報,2012,34(11):58-62.

      [2]ZHANG Y L, XIE Y C. Forecasting of short-term freeway volume with v-support vector machines[J]. Transportation Research Record: Journal of the Transportation Research Board,2007,2024:92-99.

      [3]CHEN S Y, WANG W, HENK J Z. Construct support vector machine ensemble to detect traffic incident[J]. Expert Systems with Applications,2009,36(8):10976-10986.

      [4]LI X G, LORD D, ZHANG Y L, ME Y C. Predicting motor vehicle crashes using support vector machine models[J]. Accident Analysis and Prevention,2008,40(4):1611-1618.

      [5]LI Z, LIU P, WANG W, et al. Using support vector machine models for crash injury severity analysis[J]. Accident Analysis and Prevention,2012,45:478-486.

      [6]ALLAHVIRANLOO M, RECKER W. Daily activity pattern recognition by using support vector machines with multiple classes[J]. Transportation Research Part B: Methodological,2013,58:16-43.

      [7]莫泰基.香港貧困與社會保障[M].香港:中華書局,1993.

      [8]CHANG C C, Lin C J.LIBSVM: A library for support vector machines[EB/OL]. https://www.csie.ntu.edu.tw/~cjlin/libsvm/,2007.

      [9]CHANG L Y, WANG H W. Analysis of traffic injury severity: an application of non-parametric classification tree techniques[J]. Accident Analysis and Prevention,2006,38(5):1019-1027.

      Mode Choice Prediction of Low Income Commuters Based on Support Vector Machine

      CHENG Long1,2)CHEN Xuewu1,2)YANG Shuo1,2)WANG Haixiao1,2)

      (JiangsuKeyLaboratoryofUrbanITS,SoutheastUniversity,Nanjing210096,China)1)(JiangsuProvinceCollaborativeInnovationCenterofModernUrbanTrafficTechnologies,Nanjing210096,China)2)

      To explore the applicability of support vector machine (SVM) in travel behavior analysis and shed light on mode choice of low income commuters, model specification scheme of mode choice prediction based on SVM is established. Statistics indicate that low income commuters have distinct socio-economic characteristics and activity characteristics from non-low income commuters based on the travel survey data of Fushun. SVM possesses high fitting ability on categorical data and provides better prediction accuracy of mode choice than traditional Multinomial Logit model from three indicators including the individual percentage of correct predictions, overall percentage of correct predictions and mean absolute percentage error.

      mode choice; support vector machine; prediction ability; low income commuters

      2016-07-07

      U491.1

      10.3963/j.issn.2095-3844.2016.04.010

      程龍(1989- ):男,博士生,主要研究領(lǐng)域為從事交通出行行為分析與需求建模

      *國家自然科學(xué)基金項目(51178109、51338003)、國家重點基礎(chǔ)研究發(fā)展計劃項目(973計劃)(2012CB725402)資助

      猜你喜歡
      訓(xùn)練樣本低收入準確率
      我國已有6200多萬低收入人口納入動態(tài)監(jiān)測預(yù)警范圍
      山西六類低收入群體可獲農(nóng)村危房改造補助戶均1.4萬
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      人工智能
      娶低收入老婆
      婦女生活(2018年10期)2018-10-12 02:57:54
      高速公路車牌識別標識站準確率驗證法
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識別算法
      遵化市| 西丰县| 天峻县| 高安市| 五大连池市| 普兰店市| 长寿区| 宜宾市| 历史| 高雄县| 东源县| 吉林省| 孟村| 芦溪县| 施秉县| 和田市| 鄢陵县| 永德县| 洛浦县| 建宁县| 泸西县| 麻栗坡县| 黄平县| 万源市| 大余县| 西林县| 富川| 吴桥县| 科技| 咸宁市| 来宾市| 东光县| 林周县| 东海县| 泗洪县| 吴江市| 内丘县| 贡嘎县| 延津县| 永吉县| 蒙阴县|