• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于集成學(xué)習(xí)方法的PPP項(xiàng)目結(jié)果預(yù)測(cè)

      2020-06-29 09:40劉爽
      大眾科學(xué)·上旬 2020年7期
      關(guān)鍵詞:數(shù)據(jù)挖掘預(yù)測(cè)

      劉爽

      摘 要:隨著政府與社會(huì)資本合作模式在基礎(chǔ)設(shè)施建設(shè)當(dāng)中的推廣與應(yīng)用,探究PPP(public-private partnership)項(xiàng)目能否實(shí)施成功的關(guān)鍵影響因素和判斷項(xiàng)目實(shí)施結(jié)果等問題已經(jīng)引起了學(xué)者們的關(guān)注。根據(jù)已有文獻(xiàn)中總結(jié)出的PPP項(xiàng)目成效關(guān)鍵影響因素,提出一種結(jié)合SMOTE(synthetic minority over-sampling technique)過采樣技術(shù)和Random Forest算法的集成學(xué)習(xí)分類模型,該模型可幫助研究人員預(yù)測(cè)PPP項(xiàng)目實(shí)施結(jié)果的成敗。通過與其他十個(gè)基線分類器進(jìn)行對(duì)比實(shí)驗(yàn),可以證明SMOTE過采樣技術(shù)對(duì)PPP項(xiàng)目數(shù)據(jù)集中不平衡數(shù)據(jù)的處理是有效的。研究結(jié)果表明所提模型在Presicion、F-measure和ROC Area三個(gè)指標(biāo)上比基線分類器具有更好的性能表現(xiàn)。

      關(guān)鍵詞:政府和社會(huì)資本合作(PPP);數(shù)據(jù)挖掘;集成學(xué)習(xí);預(yù)測(cè)

      0引言

      基礎(chǔ)設(shè)施建設(shè)作為影響國(guó)家產(chǎn)品服務(wù)的質(zhì)量和效率的重要因素,對(duì)經(jīng)濟(jì)發(fā)展具有深遠(yuǎn)的影響。一些發(fā)展中國(guó)家雖然意識(shí)到了基礎(chǔ)設(shè)施建設(shè)的重要性,但受到政府資源、融資、技術(shù)缺乏等方面的限制。因此,引入私人投資作為基礎(chǔ)設(shè)施建設(shè)的融資渠道被視為可行的方法之一。政府與社會(huì)資本合作模式有效解決了基礎(chǔ)設(shè)施融資難題,提高了基礎(chǔ)設(shè)施產(chǎn)出的經(jīng)濟(jì)價(jià)值。以我國(guó)為例,財(cái)政部政府和社會(huì)資本合作中心官網(wǎng)的數(shù)據(jù)顯示,截止到2020年4月16日,全國(guó)PPP綜合信息平臺(tái)項(xiàng)目管理庫(kù)的入庫(kù)項(xiàng)目數(shù)量達(dá)到9456個(gè),入庫(kù)項(xiàng)目金額達(dá)到144075億元。

      數(shù)據(jù)挖掘方法可用于從目標(biāo)數(shù)據(jù)集中提取信息、模式和規(guī)律來預(yù)測(cè)目標(biāo)的未來趨勢(shì)。常用集成學(xué)習(xí)算法包括Bagging和Logit Boost等。它們都涉及到結(jié)合獨(dú)立分類器并提供集合而成的最有效結(jié)果。本文的數(shù)據(jù)來源為由世界銀行建立的Private Participation in Infrastructure(PPI)數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)旨在識(shí)別和傳播發(fā)展中國(guó)家基礎(chǔ)設(shè)施建設(shè)項(xiàng)目中私人部門參與的信息,涵蓋各國(guó)基礎(chǔ)建設(shè)項(xiàng)目的數(shù)量超過6400個(gè)。

      在本研究中提出了一種基于Random Forest[1]算法的集成機(jī)器學(xué)習(xí)模型,來預(yù)測(cè)PPP項(xiàng)目實(shí)施結(jié)果,并通過與其他10個(gè)基分類器的預(yù)測(cè)準(zhǔn)確性進(jìn)行比較,證明了所提出模型的優(yōu)越性。

      1相關(guān)工作

      在對(duì)國(guó)內(nèi)外文獻(xiàn)的梳理中,我們可以總結(jié)出以下影響PPP項(xiàng)目成效的因素:

      (1)PPP項(xiàng)目開展時(shí)所在區(qū)域是否有PPP成功實(shí)施的經(jīng)驗(yàn)。在公共采購(gòu)中,PPP模式可以將服務(wù)的不確定性最大程度地降低,從而帶來潛在收益。這些服務(wù)領(lǐng)域存在過去的經(jīng)驗(yàn)以告知參與方在事態(tài)發(fā)展時(shí)會(huì)產(chǎn)生的狀況。

      (2)PPP項(xiàng)目的內(nèi)部風(fēng)險(xiǎn)因素。Ahmadabadi等人[2]基于其開發(fā)的PLS-SEM模型評(píng)估關(guān)鍵成功因素對(duì)PPP項(xiàng)目成功的影響,提出私營(yíng)部門能力直接影響項(xiàng)目成功。

      (3)PPP項(xiàng)目所屬國(guó)家的政治和社會(huì)環(huán)境。政治和社會(huì)環(huán)境與特定地區(qū)密切相關(guān),我們無法輕易量化這些因素。

      (4)PPP項(xiàng)目所屬國(guó)家的宏觀經(jīng)濟(jì)環(huán)境。隨著宏觀經(jīng)濟(jì)條件的改善,公共項(xiàng)目將會(huì)對(duì)私人部門投資具有更大的吸引力。

      學(xué)者們對(duì)PPP項(xiàng)目成功關(guān)鍵因素的研究方法以文獻(xiàn)、案例分析以及訪談等定性研究方法為主,或是使用傳統(tǒng)的統(tǒng)計(jì)學(xué)模型探究PPP項(xiàng)目產(chǎn)出效率的影響因素。羅煜[3]等人采用Probit模型對(duì)二值因變量進(jìn)行回歸分析從而判斷PPP項(xiàng)目的成敗。劉窮志[4]等人采用隨機(jī)前沿模型分析中國(guó)PPP水務(wù)項(xiàng)目的22個(gè)省份非平衡面板數(shù)據(jù),對(duì)項(xiàng)目投資效率及其影響因素進(jìn)行研究。

      PPI數(shù)據(jù)庫(kù)中存在大量失敗的基礎(chǔ)設(shè)施PPP項(xiàng)目,使得私人投資者和政府部門遭受經(jīng)濟(jì)損失,降低了社會(huì)整體福利水平。本文結(jié)合不平衡數(shù)據(jù)處理和集成學(xué)習(xí)方法,根據(jù)已有研究成果設(shè)置參數(shù),將機(jī)器學(xué)習(xí)方法運(yùn)用到PPP項(xiàng)目實(shí)施結(jié)果的預(yù)測(cè)當(dāng)中,可為私人部門對(duì)PPP項(xiàng)目的投資決策提供參考。

      2集成學(xué)習(xí)模型

      本文提出一種集成機(jī)器學(xué)習(xí)模型來預(yù)測(cè)PPP項(xiàng)目實(shí)施結(jié)果,結(jié)合了一系列數(shù)據(jù)預(yù)處理步驟。其中PPP項(xiàng)目數(shù)據(jù)取自世界銀行主導(dǎo)建立的Private Participation in Infrastructure(PPI)數(shù)據(jù)庫(kù),選取了PPI數(shù)據(jù)庫(kù)中有數(shù)據(jù)收錄的已得出實(shí)施結(jié)果的全部項(xiàng)目數(shù)據(jù)作為研究對(duì)象。實(shí)驗(yàn)工具為Weka Data Mining Tool for Java。

      2.1數(shù)據(jù)描述

      該數(shù)據(jù)集包含700個(gè)實(shí)例,每個(gè)實(shí)例有10個(gè)屬性,如表1所示。在該數(shù)據(jù)集的預(yù)測(cè)期內(nèi),有476個(gè)失敗的PPP項(xiàng)目,224個(gè)成功的PPP項(xiàng)目。

      2.2數(shù)據(jù)預(yù)處理

      根據(jù)PPP項(xiàng)目運(yùn)行結(jié)果關(guān)鍵影響因素,選取區(qū)域(Region)、國(guó)家收入水平(Income Group)、項(xiàng)目類型(Type of PPI/Subtype of PPI)、所投資部門(Sector)、投資規(guī)模(Total Investment/Investment Range)、項(xiàng)目啟動(dòng)年份(Financial Closure Year)以及過往成功的項(xiàng)目數(shù)量(Number of Successful Projects)作為特征屬性,項(xiàng)目現(xiàn)狀(Project Status)為預(yù)測(cè)類別標(biāo)簽。其中各區(qū)域過往成功的項(xiàng)目數(shù)量經(jīng)過手工整理得來,Total Investment存在缺失值,用0值代替。正在運(yùn)行的項(xiàng)目結(jié)果具有較大不確定性,因此只考慮已完結(jié)的項(xiàng)目或合約。合同結(jié)束即視為項(xiàng)目成功,使Project Status取值為1,項(xiàng)目取消和項(xiàng)目危機(jī)即視為項(xiàng)目失敗,使Project Status取值為0[3]。

      2.3建模

      在本節(jié)中共使用11種分類器來預(yù)測(cè)PPP項(xiàng)目運(yùn)行的結(jié)果,該模型包括三個(gè)部分:

      (1)依次使用Standardize、Normalize 、Add Cluster、Numeric To Nominal方法對(duì)數(shù)據(jù)集進(jìn)行特征處理;

      (2)采用Synthetic Minority Over-sampling Technique(SMOTE)技術(shù)處理此模型中的不平衡數(shù)據(jù)集;

      (3)使用Random Forest[1]分類器學(xué)習(xí)訓(xùn)練數(shù)據(jù)集并進(jìn)行評(píng)估。

      通過該模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分類和驗(yàn)證后,將預(yù)測(cè)準(zhǔn)確性與其他10個(gè)基分類器進(jìn)行比較,可證明此模型的優(yōu)越性。

      2.3.1特征工程

      為最大限度地從原始數(shù)據(jù)中提取特征供算法和模型使用,提高模型的預(yù)測(cè)精度,我們采用下列步驟對(duì)其進(jìn)行特征處理。Standardize可標(biāo)準(zhǔn)化給定數(shù)據(jù)集中的所有數(shù)字屬性,使其具有零均值和單位方差。Normalize用于規(guī)范化給定數(shù)據(jù)集中的所有數(shù)值。Add Cluster作為一個(gè)添加新名義屬性的過濾器,表示由指定的聚類算法分配給每個(gè)實(shí)例的集群。Numeric To Nominal是將數(shù)字屬性轉(zhuǎn)換為名義屬性的過濾器。

      2.3.2SMOTE

      過采樣技術(shù)可用于解決數(shù)據(jù)集不平衡的問題,然而通過簡(jiǎn)單復(fù)制數(shù)據(jù)集中少數(shù)類的已有元素容易使模型過擬合,不利于模型的推廣與應(yīng)用。SMOTE技術(shù)可根據(jù)少數(shù)類元素的分布來人工創(chuàng)造新樣本,隨后被廣泛運(yùn)用于高維不平衡數(shù)據(jù)集處理流程當(dāng)中。它包含兩個(gè)主要步驟:第一步為定義每個(gè)少數(shù)類元素的鄰域,第二步為隨機(jī)選擇鄰域內(nèi)元素并通過插值法創(chuàng)造新樣本。由于SMOTE獨(dú)立于分類器,它可以與任何算法組合使用。

      2.3.3Random Forest

      Random Forest[1]算法是一種集成機(jī)器學(xué)習(xí)模型,它的基本思想是將多個(gè)決策樹集成到一個(gè)更強(qiáng)大的分類器中,每棵樹獨(dú)立作出預(yù)測(cè),最終通過加權(quán)得出結(jié)果。Random Forest實(shí)際上是一種特殊的Bagging方法,它將決策樹用作Bagging中的模型,用bootstrap方法生成m個(gè)訓(xùn)練集后在決策樹每個(gè)節(jié)點(diǎn)的特征中隨機(jī)抽取子集,尋找最優(yōu)解并進(jìn)行分裂。因此它可避免樣本過度擬合的問題。

      3實(shí)驗(yàn)

      本節(jié)包括所提出模型的實(shí)驗(yàn)過程和使用各分類器進(jìn)行對(duì)比實(shí)驗(yàn)的結(jié)果。我們將原始數(shù)據(jù)集中的80%劃分為訓(xùn)練數(shù)據(jù)集,依次使用Standardize、Normalize、Add Cluster以及Numeric To Nominal進(jìn)行特征處理。由SMOTE技術(shù)將數(shù)據(jù)集調(diào)整為平衡數(shù)據(jù)集后,通過Random Forest分類器學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,并使用測(cè)試數(shù)據(jù)集測(cè)試模型性能,獲取驗(yàn)證結(jié)果。我們進(jìn)行了多次實(shí)驗(yàn)以確保模型分類結(jié)果是可靠的。

      3.1模型評(píng)估指標(biāo)

      本研究中的分類器需解決的是二分類問題,即PPP項(xiàng)目運(yùn)行結(jié)果是成功還是失敗??赡馨l(fā)生如下四種情況:a) True Positive(TP):將正類預(yù)測(cè)為正類數(shù);b) True Negative(TN):將負(fù)類預(yù)測(cè)為負(fù)類數(shù);c) False Positive(FP):將負(fù)類預(yù)測(cè)為正類數(shù),即誤報(bào) (Type I error);d) False Negative(FN):將正類預(yù)測(cè)為負(fù)類數(shù),即漏報(bào) (Type II error)。本文中將PPP項(xiàng)目成功定義為正類,項(xiàng)目失敗定義為負(fù)類。我們選用Precision、F-Measure和ROC Area來評(píng)估所提出的模型。

      3.2實(shí)驗(yàn)結(jié)果與分析

      3.2.1基線分類器的性能

      為了與我們提出模型的性能進(jìn)行比較,在本節(jié)中展現(xiàn)了10個(gè)基線分類器的性能表現(xiàn),實(shí)驗(yàn)結(jié)果如表3所示。為確保實(shí)驗(yàn)結(jié)果的穩(wěn)健性,我們進(jìn)行了5次重復(fù)實(shí)驗(yàn)。其中未進(jìn)行SMOTE技術(shù)處理的數(shù)據(jù)集所得出分類器精度作為對(duì)照組同樣呈現(xiàn)在表2中。

      結(jié)果顯示,在經(jīng)過SMOTE技術(shù)處理前后LMT和SGD算法都是表現(xiàn)最佳的兩個(gè)算法。

      3.2.2建議模型的性能與分析

      在本節(jié)中我們測(cè)試了所提出模型的精度,并將其結(jié)果與最佳基線分類器的結(jié)果進(jìn)行了比較。與上節(jié)操作相同,進(jìn)行了5次重復(fù)實(shí)驗(yàn)。

      我們分別將經(jīng)過相同的SMOTE過采樣技術(shù)處理之后的數(shù)據(jù)集和未經(jīng)過SMOTE過采樣技術(shù)處理的數(shù)據(jù)集在所提出模型及最佳基線分類器下得出的預(yù)測(cè)準(zhǔn)確性進(jìn)行比較,具體結(jié)果如表3所示。

      我們可以看出,經(jīng)過SMOTE技術(shù)處理之后,基線分類器與我們所提出模型的Precison、F-Measure和ROC Area得到了全面的提升,說明SMOTE技術(shù)對(duì)PPP項(xiàng)目數(shù)據(jù)集中不平衡數(shù)據(jù)的處理是有效的。SMOTE技術(shù)使Random Forest和LMT的預(yù)測(cè)精度得到了整體的提升,而SGD的性能提升并不明顯。Random Forest的Precision和F-Measure略低于LMT,而ROC Area顯然優(yōu)于LMT,因此綜合性能表現(xiàn)最良好。

      4結(jié)果與討論

      PPP模式要求政府和私人部門承擔(dān)不同等級(jí)風(fēng)險(xiǎn),合作提供公共服務(wù),已成為眾多發(fā)展中國(guó)家實(shí)施基礎(chǔ)設(shè)施建設(shè)時(shí)選擇的途徑。然而PPP項(xiàng)目的運(yùn)行結(jié)果存在風(fēng)險(xiǎn),因此對(duì)PPP項(xiàng)目成功關(guān)鍵因素及運(yùn)行結(jié)果預(yù)測(cè)的相關(guān)研究日益引起學(xué)者們的關(guān)注。

      在本文中,我們構(gòu)建了一個(gè)基于集成學(xué)習(xí)的模型來預(yù)測(cè)PPP項(xiàng)目實(shí)施的結(jié)果,使用特征處理步驟和SMOTE過采樣技術(shù)之后利用Random Forest算法對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè)。通過與其他10個(gè)基線分類器的性能表現(xiàn)作比較,我們可以證明所提出模型在Precision、F-Measure和ROC Area三個(gè)指標(biāo)上的優(yōu)越性。同時(shí),我們可以驗(yàn)證SMOTE技術(shù)在處理本數(shù)據(jù)集中的不平衡問題時(shí)表現(xiàn)突出,使Random Forest的三個(gè)評(píng)估指標(biāo)數(shù)值都得到了顯著提高。

      由于數(shù)據(jù)集中總投資金額這列屬性存在缺失值,可能影響分類器的預(yù)測(cè)精度。此外,由于數(shù)據(jù)集屬性數(shù)量較少,我們應(yīng)尋找是否存在遺漏變量,以便于提升模型的性能,在未來的工作中我們將繼續(xù)進(jìn)行研究并加以改進(jìn)。

      參考文獻(xiàn)

      [1]Cheng L, Chen X, Vos J D. Applying a random forest method approach to model travel mode choice behavior[J]. Travel Behaviour and Society, 2019, 14:1-10.

      [2]Ahmadabadi A A, Heravi G. The effect of critical success factors on project success in Public-Private Partnership projects: a case study of highway projects in Iran[J]. Transport Policy, 2019, 73: 152-161.

      [3]羅煜, 王芳, 陳熙. 制度質(zhì)量和國(guó)際金融機(jī)構(gòu)如何影響 PPP 項(xiàng)目的成效——基于“一帶一路”46 國(guó)經(jīng)驗(yàn)數(shù)據(jù)的研究[J]. 金融研究, 2017, 4: 61-77.

      [4]劉窮志, 彭彥辰. 中國(guó)PPP項(xiàng)目投資效率及決定因素研究[J]. 財(cái)政研究, 2017, 11: 34-46.

      猜你喜歡
      數(shù)據(jù)挖掘預(yù)測(cè)
      選修2—2期中考試預(yù)測(cè)卷(B卷)
      選修2—2期中考試預(yù)測(cè)卷(A卷)
      選修2—2期中考試預(yù)測(cè)卷(A卷)答案與提示
      選修2—2期中考試預(yù)測(cè)卷(B卷)答案與提示
      數(shù)據(jù)挖掘技術(shù)在內(nèi)河航道維護(hù)管理中的應(yīng)用研究
      數(shù)據(jù)挖掘綜述
      軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
      基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究
      《福彩3D中獎(jiǎng)公式》:提前一月預(yù)測(cè)號(hào)碼的驚人技巧!
      預(yù)測(cè)高考
      马龙县| 双峰县| 秭归县| 临朐县| 浮山县| 庄浪县| 于田县| 铜山县| 长宁区| 郴州市| 基隆市| 定襄县| 鄂伦春自治旗| 桑日县| 安岳县| 镇赉县| 怀仁县| 杨浦区| 福安市| 托里县| 兰州市| 乐业县| 茂名市| 龙州县| 吉木萨尔县| 绍兴县| 拜泉县| 抚顺市| 延安市| 兰州市| 高碑店市| 镇原县| 信丰县| 本溪市| 洛川县| 贞丰县| 乐至县| 沾益县| 江永县| 亚东县| 莱西市|