李超群
摘? 要:為能更有針對性的控制PM2.5濃度,對2000-2017年間全國31個省市PM2.5濃度數(shù)值和由專家先驗得出的影響PM2.5的六種人為因素分別建立了基于BIC評分函數(shù)、K2評分函數(shù)進行結構學習的兩種貝葉斯網(wǎng)絡模型、支持向量機模型、K-近鄰模型進行分析。利用5-折交叉驗證對四種模型進行評估。發(fā)現(xiàn)在樣本量不太大的情況下,貝葉斯網(wǎng)絡表現(xiàn)出更好地穩(wěn)健性與優(yōu)越性,而基于K2評分函數(shù)進行結構學習的貝葉斯網(wǎng)絡模型具有更好地分類性能。為政府相關部門對我國PM2.5濃度更加有效的控制,以及采取更加具有針對性的治理方案提供了思路與方案。
關鍵詞:PM2.5;貝葉斯網(wǎng)絡;結構學習;參數(shù)學習;模型評估
中圖分類號:TP18? ? ? ? ? 文獻標志碼:A? ? ? ? ?文章編號:2095-2945(2020)22-0001-06
Abstract: For controlling the concentration of the PM2.5, with the data of PM2.5 concentration values of 31 provinces in China during theyears 2000 to 2017, and six influencing factors of PM2.5 concentration obtained by experts' prior experience. Two Bayesian Network Models based on BIC score function and K2 score function respectively, Support Vector Machine, K-Nearest Neighbor Model are analyzed. Using the method of 5-fold cross validation, the four models are trained and tested. In conclusion, in the case of small sample size, the Bayesian Network shows better robustness and superiority, while the Bayesian Network Model based on K2 score function for structural learning has better performance. It is meaningful to provide a new idea and scheme for the control of PM2.5 concentration in China.
Keywords: PM2.5; bayesian network; structure learning; parameter learning; assessment of models
引言
近幾年,隨著我國不斷發(fā)展,城市化的程度不斷提高,在有了越來越多的機遇同時,也面臨著環(huán)境的巨大挑戰(zhàn)。我國PM2.5數(shù)值頻繁“爆表”,長期的霧霾天不僅嚴重影響了我國正常的生產(chǎn)進程,還影響了人們正常的生活。因此,對PM2.5的影響因素進行分析,就顯得十分迫切,但是PM2.5濃度的變化是一個不確定的、復雜的過程,這也增加了建模過程以及分析的難度。近年來,許多專家學者致力于對PM2.5影響因素進行分析。國內(nèi)學者解蕾等[1]使用二元定距變量的相關分析,分析了兩兩變量之間的關聯(lián)程度,最終得出結論PM2.5與SO2,PM2.5與CO,PM2.5與PM10之間都存在著較強的相關性,之后建立PM2.5與PM10的線性回歸方程,進一步分析二者之間的線性關系。學者盧德彬等[2]采用Theil-Sen median趨勢分析,Mann-Kendall、R/S和相關分析方法,分析了PM2.5的時空格局、空間變化特征、污染來源。學者羅毅等[3]將BP神經(jīng)網(wǎng)絡與支持向量機相結合,構建了PM2.5濃度組合的模擬模型,分析了PM2.5污染規(guī)律和趨勢。學者王娟[4]利用灰色關聯(lián)度分析,找到了主要影響因素,建立主要影響因素與PM2.5的二次多元回歸方程,綜合考慮了各因素的影響。雖然上述模型均取得了不錯的結果,然而,利用上述方法在對PM2.5進行分析時仍存在著一些不足:(1)將所有可能影響因素拆分開來單獨分析,僅考慮單因素的影響,而忽略了多因素之間的交互作用;(2)相關分析只能反映出兩個或者多個因素之間的線性相關程度,而不能得出具體的因果關系;(3)由于PM2.5濃度變化的復雜性,各因素與其之間的關系是不確定的,多元回歸模型可能并不能反映出其變化的真實規(guī)律;(4)大多文獻
側重于對影響PM2.5濃度的自然因素進行分析,而簡化了對人為源的分析?;诖?,本文利用已有的專家先驗知識,找出影響我國PM2.5濃度的6個主要人為因素,分別建立基于K2評分進行結構學習的貝葉斯網(wǎng)絡以及根據(jù)BIC評分進行結構學習的兩種貝葉斯網(wǎng)絡模型,對在各因素共同作用下,PM2.5數(shù)值是否能達到我國二級標準進行判斷,同時建立支持向量機(SVM)、K-近鄰(KNN)模型,利用5-折交叉驗證對四種模型的分類精度進行對比,考察四種模型在樣本數(shù)目不太大的情況下的分類精度,找出更為有效的單一分類模型。通過分析影響PM2.5濃度的直接因素、間接因素或無關因素,據(jù)此可以為政府相關部門控制PM2.5濃度提供更加有針對性,更為有效的建議方法。
貝葉斯網(wǎng)絡是由節(jié)點以及有向邊組成的概率圖模型,是一種在不確定、不完整的因素影響下,進行推理的一種有效的工具。貝葉斯網(wǎng)絡提供了一種展示變量之間的因果關系的框架結構。[5]目前貝葉斯網(wǎng)絡被廣泛應用于故障分析以及相關領域。例如,在故障分析領域,李爽等[6]基于BN-ELM方法對煤礦瓦斯安全態(tài)勢進行研究;熊宇峰等[7]借助樹形貝葉斯網(wǎng)絡,實現(xiàn)對配電網(wǎng)故障的快速災情推斷,Hu[8]等借助貝葉斯網(wǎng)絡對地震液化勢進行預測。在金融領域,嚴冠等[9]等利用貝葉斯方法建立銀行同業(yè)借貸網(wǎng)絡,對其中的系統(tǒng)風險進行分析研究。
1 研究區(qū)域與數(shù)據(jù)來源
本文面向我國31個省市,收集了2000-2017年相關數(shù)據(jù)558條。其中,我國2000-2017年的PM2.5值年度數(shù)據(jù),由全國城市空氣質(zhì)量實時發(fā)布平臺獲得。根據(jù)專家知識,得到影響PM2.5濃度的6個人為因素,包括:城市化水平(Urbanize)、產(chǎn)業(yè)結構(IS)、能源結構(ES)、外商直接投資額(Open)、人均生產(chǎn)總值(GRP)、政府治理(PT)。本文使用城鎮(zhèn)居民的消費水平與居民消費水平的比值表示城市化水平;產(chǎn)業(yè)結構用當?shù)氐诙a(chǎn)業(yè)增加值占該地區(qū)生產(chǎn)總值的比重來表示;用該地區(qū)煤炭消耗量與該地區(qū)生產(chǎn)總值的比值反映能源結構,外商直接投資額以外商投資企業(yè)進出口總額與地區(qū)生產(chǎn)總值的比值來衡量;由政府治理廢氣項目完成投資占工業(yè)污染治理完成投資的比重來衡量政府治理的力度。相關數(shù)據(jù)來自《中國統(tǒng)計年鑒》。對數(shù)據(jù)的統(tǒng)計描述如圖1。
從圖中可以看出,地區(qū)人均生產(chǎn)總值存在較多離群點,且各點之間差距較大,這也從側面反映出我國的經(jīng)濟發(fā)展仍然是不均衡的,地區(qū)之間的經(jīng)濟水平差異較大。此外,可以看到外商直接投資也存在較多離群點,根據(jù)我們的認識,經(jīng)濟水平更高、地理位置更優(yōu)越的地區(qū)可以吸引更多的外商投資,因此造成了該樣本值分布不均、差異較大。為了更加真實的反應各因素對PM2.5濃度的影響,本文將離群點全部保留。
2 研究方法
本文根據(jù)歷史數(shù)據(jù)以及專家知識,利用5-折交叉檢驗方法,對兩種貝葉斯網(wǎng)絡、SVM模型、K-近鄰,四種分類模型進行訓練與檢驗,并對四種模型在樣本數(shù)目不太大情況下的分類的準確性進行比較,得出更有效的分類模型。
2.1 貝葉斯網(wǎng)絡
一個完整的貝葉斯網(wǎng)絡模型由貝葉斯網(wǎng)絡結構、條件概率表兩部分組成。其網(wǎng)絡結構是一個有向無環(huán)圖,[10]其不同節(jié)點代表了不同的變量,節(jié)點之間的有向弧由父節(jié)點指向子節(jié)點,表示子節(jié)點的取值會受到父節(jié)點取值的直接影響。
2.1.1 概率推理
與傳統(tǒng)的概率派直接根據(jù)樣本數(shù)據(jù)建模分析不同,貝葉斯派為了更加充分利用先驗信息,首先引入?yún)?shù)先驗分布,再根據(jù)樣本數(shù)據(jù),計算得到參數(shù)的后驗概率,從而加深對先驗信息的認識,在不斷迭代,重復上述方法的過程中,不斷得到新的先驗概率,再將更新修正后的先驗信息繼續(xù)用于求參數(shù)的后驗概率,從而實現(xiàn)更加準確的推斷。通過樣本數(shù)據(jù),可以對一個給出節(jié)點的位置與其條件概率分布的貝葉斯網(wǎng)絡重新估計其變量的概率分布,其公式基礎便是如下貝葉斯公式與乘法公式:
其中,P(X)為先驗概率,P(Y)為邊際分布,P(Y|X)是由樣本數(shù)據(jù)得到的似然概率。由于貝葉斯網(wǎng)絡的聯(lián)合分布具有馬爾可夫性,即變量只與其父節(jié)點取值有關,因此公式(2)可以寫成(3)的形式,π(xi)是變量xi的父節(jié)點概率。
2.1.2 數(shù)據(jù)處理
由于貝葉斯網(wǎng)絡對于處理離散數(shù)據(jù)具有更強的穩(wěn)健性,因此先對數(shù)據(jù)進行離散化處理。按照PM2.5的濃度是否達到我國二級標準,即年均值是否小于35μg/m3。將均值小于等于35μg/m3賦值1,否則賦值為0。由于外商直接投資額、政府治理兩個因素含有大量缺失數(shù)據(jù),因此本文將這兩個因素中的缺失數(shù)據(jù)賦值為0,非缺失數(shù)據(jù)賦值為1,以考察這兩個因素的有無對于PM2.5濃度能否達標的影響。對于其他變量的缺失值,本文用插補法進行插補,之后利用k均值的方法將變量人均生產(chǎn)總值、能源結構、產(chǎn)業(yè)結構、城市化水平進行聚類,其聚類中心如表1:
表1 變量聚類中心
離散化后的結果如表2所示。
2.1.3 結構學習
貝葉斯網(wǎng)絡進行結構學習的方法主要分為兩大類:(1)基于約束的結構學習法。這類方法的核心思想是:首先對訓練數(shù)據(jù)集進行條件獨立性測試等統(tǒng)計測試,[11]從而找出變量間的條件獨立關系。DAG圖就是按照盡可能多地覆蓋條件獨立性關系的原則所構造出來的。[12](2)基于評分搜索的結構學習方法。一種直接的想法是,希望能夠遍歷DAG結構中的每一種情況,根據(jù)某種評價準則,去對每一種可能情況進行評分,選擇該標準下的最優(yōu)結構模型。然而隨著貝葉斯網(wǎng)絡結構模型中節(jié)點數(shù)的增加,DAG結構的數(shù)量將會大幅增加,Robinson曾給出一個計算DAG結構數(shù)量的計算公式:
由公式可以看出,隨著節(jié)點數(shù)增加,DAG結構的數(shù)目的增加速度是指數(shù)級別的,因此,在節(jié)點數(shù)比較多的情況下,想要遍歷每一種結構形式在有限的時間內(nèi)是很難完成的。為了解決這一問題,許多學者便提出了利用評分函數(shù)的方法,例如爬山算法,面向完全數(shù)據(jù)模型的K2算法、以及面向含有少量缺失數(shù)據(jù)的EM算法以及馬爾可夫-蒙特卡洛(MCMC)算法,用評分函數(shù)作為準則,對各結構進行打分,進而選擇出得分最高的結構,該結構即為該準則下最優(yōu)。評分函數(shù)主要分為兩大類,一類是包括BDeu評分、K2評分等的貝葉斯評分函數(shù)。假設網(wǎng)絡拓撲結構G的先驗概率為P(G) ,針對給定樣本集D,根據(jù)貝葉斯公式,網(wǎng)絡結構G的后驗概率可以表示為:
由于P(D)為樣本的函數(shù),與拓撲結構無關,因此對式(5)求極值等價于對其分子P(G)P(D|G)求極值,使得分子達到最大的G,即為所求的,具有最大后驗概率的網(wǎng)絡結構。為了計算的方便,定義
logP(G,D)=log(P(G)P(D|G))=logP(G)+logP(D|G)(6)
為網(wǎng)絡結構的貝葉斯評分,即為MAP測度。[13]另一類是基于信息論的評分函數(shù),BIC評分、MDL評分以及AIC評分等都是使用頻率較高的評分函數(shù)。爬山算法是貪婪算法的一種,通過不斷迭代最大程度提高分數(shù),一旦找到局部最大值,搜索將終止,并返回相應的局部最優(yōu)的結果。本文以爬山算法作為搜索策略,分別選擇貝葉斯評分函數(shù)中的K2評分函數(shù),基于信息論的BIC評分函數(shù)對模型進行打分,結合專家先驗知識確定出兩個局部最優(yōu)的DAG網(wǎng)絡結構。為了表述的方便,下文分別將基于K2評分函數(shù)的貝葉斯網(wǎng)絡模型與基于BIC評分的貝葉斯網(wǎng)絡結構模型記為BN-K2模型與BN-BIC模型。兩種貝葉斯網(wǎng)絡模型的結構圖如下圖2:
其中,P表示精確率,R表示召回率。
AUC(Area Under Curve)指ROC曲線下的面積,取值介于0.1到1之間,并且越接近于1表示模型的性能越好?;诨煜仃嚨母髦笜说挠嬎憬Y果匯總如表7。
由表7可以看出,BN-K2模型優(yōu)勢比較明顯,各項得分均為最高。根據(jù)F1得分可以看出,BN-K2模型得分最高,為60.366%。根據(jù)AUC的值表現(xiàn)出的結果與F1得分類似,BN-K2模型取值為0.546,是表現(xiàn)最好的模型。支持向量機模型的AUC值最低,只有0.509。
3.2 討論
綜合考慮5-折交叉驗證得分與基于混淆矩陣的評分指標,可以得出結論,兩種貝葉斯網(wǎng)絡模型是四種模型中最為穩(wěn)健的,并且模型對于先驗知識的利用,也使其在樣本量不大的情況下,有著更為優(yōu)秀的表現(xiàn)。對樣本量不大的問題仍有著較為不錯的表現(xiàn)也是貝葉斯網(wǎng)絡模型的優(yōu)勢之一。
由于樣本量以及先驗信息的限制,模型能夠從數(shù)據(jù)中學習到的信息并不夠多,因此模型的預測精度并不高,還需要進一步的提高。接下來的工作中,需要改進提升的地方還有很多,例如:(1)增大樣本量,使模型能夠從中得到充分的信息,以增加模型的精度;(2)在對數(shù)據(jù)缺失值處理的時候,可以采用更加有效的處理方式;(3)收集更多的專家先驗知識,對模型的結構與參數(shù)進行調(diào)整與優(yōu)化;(4)能夠使用混合模型對影響因素進行更加深入的分析。
4 結論與建議
本文對我國2000-2017年全國各年平均地PM2.5濃度值,以及根據(jù)專家先驗得出的六種PM2.5濃度值的影響因素分別建立了BIC-BN模型、K2-BN模型、SVM模型、K-近鄰模型四種模型。根據(jù)BIC-BN模型的DAG結構圖(圖2),我們可以看到,地區(qū)產(chǎn)業(yè)結構是影響PM2.5濃度的直接因素,城市化水平是影響其濃度的間接因素;K2-BN模型得出的DAG結構圖復雜得多,揭示了更多的直接影響因素。我們可以發(fā)現(xiàn),地區(qū)的人均生產(chǎn)總值、能源結構城市化水平、政府治理與外商直接投資額都會對PM2.5濃度產(chǎn)生直接影響。借助5-折交叉驗證與AUC對模型進行評估,得出結論,即在樣本量不太大的情況下,兩種貝葉斯網(wǎng)絡結構模型穩(wěn)健性更好,模型的性能也較好,而在兩種貝葉斯網(wǎng)絡結構模型中,基于K2評分的貝葉斯網(wǎng)絡模型性能更佳。
最后,根據(jù)本文分析的結果,綜合考慮兩種模型。各個政府要實現(xiàn)對PM2.5濃度的控制,實現(xiàn)達到國家二級標準的目標,需要在大力發(fā)展地區(qū)經(jīng)濟水平的同時,要重視調(diào)整產(chǎn)業(yè)結構與能源結構使其變得更加合理,例如提高第三產(chǎn)業(yè)的占比,減少煤炭的使用量,增加清潔能源的用量,加大環(huán)境治理的力度。根據(jù)貝葉斯網(wǎng)絡模型得出的有關PM2.5濃度影響因素的結論,為地方政府采取措施提供了更加有效的方向,地方政府可以采取更加有針對性的治理措施,更加有效的解決大氣污染問題。
參考文獻:
[1]解蕾,狄光智.基于R語言的城市PM2.5影響因素分析[J].軟件工程,2019,22(05):15-17+8.
[2]盧德彬,毛婉柳,楊東陽,等.基于多源遙感數(shù)據(jù)的中國PM2.5變化趨勢與影響因素分析[J].長江流域資源與環(huán)境,2019,28(03):651-660.
[3]羅毅,鄧瓊飛,楊昆,等.近20年來中國典型區(qū)域PM2.5時空演變過程[J].環(huán)境科學,2018,39(07):3003-3013.
[4]王娟.基于多元回歸分析的PM2.5預測研究[J].微型電腦應用,2020,36(03):48-51.
[5]丁艷麗,楊敏,楊殿微.型號研制可靠性工作項目轉階段風險預警[J].項目管理技術,2009,7(07):37-40.
[6]李爽,李丁煒,猶夢潔,等.基于BN-ELM的煤礦瓦斯安全態(tài)勢預測方法研究[J].系統(tǒng)工程,2020,38(03):132-140.
[7]熊宇峰,周剛,陳穎,等.基于樹形貝葉斯網(wǎng)絡的配電網(wǎng)快速災情推斷[J].電網(wǎng)技術,2020,44(06):2222-2230.
[8]Ji-Lei Hu,Xiao-Wei Tang,Jiang-Nan Qiu. Assessment of seismic liquefaction potential based on Bayesian network constructed from domain knowledge and history data[J].Soil Dynamics and Earthquake Engineering,2016,89.
[9]嚴冠,劉志東.基于貝葉斯方法的中國商業(yè)銀行同業(yè)借貸網(wǎng)絡中系統(tǒng)風險研究[J].中國管理科學,2020,28(04):14-26.
[10]解晶,何楨,馮楠.基于貝葉斯網(wǎng)絡的計算機硬件保修成本分析[J].計算機工程與應用,2007(24):104-106.
[11]晏文娟.模糊貝葉斯網(wǎng)絡的研究及其在電子商務發(fā)展水平中的應用[D].華南理工大學,2009.
[12]李瑋瑋.貝葉斯網(wǎng)絡結構學習方法的研究[D].南京航空航天大學,2009.
[13]胡春玲.貝葉斯網(wǎng)絡結構學習及其應用研究[D].合肥工業(yè)大學,2011.