陳嘉昊,劉 佳
(北京信息科技大學(xué),北京 100192)
基于數(shù)據(jù)挖掘的霧霾預(yù)測(cè)和分析
陳嘉昊1,劉 佳2
(北京信息科技大學(xué),北京 100192)
近幾年我國(guó)很多地區(qū)出現(xiàn)的嚴(yán)重霧霾天氣給人們的生活造成了巨大影響。根據(jù)互聯(lián)網(wǎng)上北京近年的空氣質(zhì)量和氣象數(shù)據(jù),對(duì)霧霾的發(fā)生進(jìn)行預(yù)測(cè),并分析各因素在霧霾預(yù)測(cè)中的作用。建立包括BP神經(jīng)網(wǎng)絡(luò)在內(nèi)的多種分類(lèi)模型,通過(guò)交叉驗(yàn)證的方式訓(xùn)練模型并得到預(yù)測(cè)結(jié)果。選取不同屬性組進(jìn)行分類(lèi),結(jié)合ROC曲線(xiàn)、準(zhǔn)確率等評(píng)價(jià)標(biāo)準(zhǔn),分析不同屬性組對(duì)霧霾天氣的影響,從而得出供暖、交通等與霧霾天氣的關(guān)系。該工作可為霧霾的防治提供理論支持。
霧霾;BP神經(jīng)網(wǎng)絡(luò);分類(lèi)器;數(shù)據(jù)挖掘
近年來(lái)霧霾嚴(yán)重影響了人們的日常生活。眾所周知,霧霾天氣的形成,既有氣象原因,也與污染氣體排放、地形等因素密切相關(guān)。就北京而言,冬季燃煤供暖消費(fèi)巨大,機(jī)動(dòng)車(chē)保有量持續(xù)上升,是重要的污染來(lái)源。2015年柴靜在《蒼穹之下》之中指出“北京的污染源之中最大的就是來(lái)自機(jī)動(dòng)車(chē)”,而中科院大氣物理研究所某課題組曾對(duì)外公布了一組數(shù)據(jù):三大主要PM2.5的來(lái)源是土壤粉塵(15%)、燃煤(18%)、生物質(zhì)燃燒(12%),然而機(jī)動(dòng)車(chē)尾氣只占4%。各污染因素對(duì)霧霾的產(chǎn)生起多大作用,特別是機(jī)動(dòng)車(chē)尾氣和供暖對(duì)霧霾的影響哪個(gè)更大,一直是一個(gè)飽受爭(zhēng)議的話(huà)題。近年來(lái)已經(jīng)有不少學(xué)者運(yùn)用多種非線(xiàn)性的模型對(duì)霧霾天氣進(jìn)行了預(yù)測(cè)和分析,但是對(duì)于上述爭(zhēng)議性話(huà)題還沒(méi)有系統(tǒng)的分析研究。本文基于網(wǎng)絡(luò)數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘方法,對(duì)霧霾的成因,特別是機(jī)動(dòng)車(chē)尾氣和供暖污染對(duì)霧霾天氣形成的影響做出分析和評(píng)估。
本文提出了一種新方法,基于多種分類(lèi)算法對(duì)霧霾氣象數(shù)據(jù)進(jìn)行預(yù)測(cè)分析,通過(guò)計(jì)算不同屬性組的分類(lèi)準(zhǔn)確率、ROC(Receiver Operating characteristic Curve)曲線(xiàn)等,對(duì)霧霾的不同成因做出評(píng)價(jià),分析出機(jī)動(dòng)車(chē)尾氣和供暖廢氣對(duì)霧霾天氣的形成的影響。本方法選取與機(jī)動(dòng)車(chē)尾氣、供暖、天氣相關(guān)的屬性分別構(gòu)成三個(gè)屬性組,首先用BP神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器,通過(guò)交叉驗(yàn)證對(duì)霧霾天氣進(jìn)行預(yù)測(cè),并畫(huà)出不同屬性組的ROC曲線(xiàn),對(duì)各屬性組對(duì)分類(lèi)的影響進(jìn)行評(píng)估,然后用C4.5、RIPPER、k近鄰、SVM、隨機(jī)森林等多種分類(lèi)算法進(jìn)行分類(lèi)預(yù)測(cè),并對(duì)分類(lèi)結(jié)果的正確率、ROC曲線(xiàn)面積等進(jìn)行分析。經(jīng)過(guò)以上過(guò)程分析得出結(jié)論:北京市機(jī)動(dòng)車(chē)尾氣和燃煤供暖對(duì)霧霾天氣的影響較大,且作用相當(dāng)。
近年來(lái)已經(jīng)有不少學(xué)者運(yùn)用非線(xiàn)性的分析預(yù)測(cè)方式對(duì)霧霾天氣進(jìn)行了預(yù)測(cè),其中,運(yùn)用神經(jīng)網(wǎng)絡(luò)方法對(duì)進(jìn)行霧霾預(yù)測(cè)并構(gòu)建模型,該方法適用于對(duì)非線(xiàn)性特征對(duì)象的的分析和預(yù)測(cè),以及網(wǎng)絡(luò)具有自學(xué)習(xí)的能力和魯棒性好的特點(diǎn)。艾洪福和石瑩等[1]運(yùn)用了BP神經(jīng)網(wǎng)絡(luò),在對(duì)網(wǎng)絡(luò)中間隱層的連接權(quán)和閾值進(jìn)行修正,使得在霧霾天氣指標(biāo)比較單一的情況下,仍能保持網(wǎng)絡(luò)預(yù)測(cè)分析的準(zhǔn)確性;馬楚焱、祖健、付清盼和羅凌霄等[2]設(shè)計(jì)了基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)優(yōu)化了在網(wǎng)絡(luò)訓(xùn)練過(guò)程中局部極小化和平坦區(qū)域問(wèn)題,提高了霧霾空氣能見(jiàn)度預(yù)測(cè)模型的有效性。
相關(guān)的文獻(xiàn)中也有不少運(yùn)用數(shù)理統(tǒng)計(jì)和數(shù)據(jù)擬合的方法進(jìn)行霧霾天氣的研究。侯瓊煌和楊航[3]等對(duì)二氧化硫和煙塵的排放量以及環(huán)境污染總治理投資建立了時(shí)間序列的預(yù)測(cè)模型,并運(yùn)用對(duì)所有時(shí)間序列都適用的三次指數(shù)平滑法進(jìn)行霧霾趨勢(shì)預(yù)測(cè)。楊文光、林連海和田立勤[4]等使用離散小波分析將二氧化硫和煙塵排放量分解到高頻和低頻兩個(gè)頻道,對(duì)上述的兩個(gè)頻道分別建立周期函數(shù)并用Fourier曲線(xiàn)的周期特性進(jìn)行擬合,得到了較高的預(yù)測(cè)效果。付倩嬈[5]等通過(guò)多元線(xiàn)性回歸模型,采用在線(xiàn)更新的預(yù)測(cè)方式根據(jù)當(dāng)天檢測(cè)結(jié)果,不斷更新模型,在無(wú)需大量預(yù)測(cè)數(shù)據(jù)的前提下,及時(shí)反映當(dāng)前霧霾情況的變化。
但是對(duì)于各污染因素對(duì)霧霾的產(chǎn)生起多大作用,特別是機(jī)動(dòng)車(chē)尾氣和供暖對(duì)霧霾的影響哪個(gè)更大等爭(zhēng)議性話(huà)題還沒(méi)有系統(tǒng)的分析研究。
本研究根據(jù)中國(guó)天氣后報(bào)網(wǎng)和中國(guó)環(huán)境監(jiān)測(cè)網(wǎng)站的600組天氣數(shù)據(jù)數(shù)據(jù),用多種分類(lèi)算法對(duì)霧霾天氣進(jìn)行預(yù)測(cè)分析,通過(guò)計(jì)算不同屬性組的分類(lèi)準(zhǔn)確率、ROC曲線(xiàn)等,對(duì)霧霾的不同成因做出評(píng)價(jià),分析出機(jī)動(dòng)車(chē)尾氣和供暖廢氣對(duì)霧霾天氣的影響。第3部分對(duì)本研究應(yīng)用的各種分類(lèi)算法和評(píng)估方法進(jìn)行了介紹,第4部分給出了本研究的數(shù)據(jù)分析和處理過(guò)程,第5部分為方法的實(shí)驗(yàn)結(jié)果及分析。
3.1 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種利用誤差反向傳播訓(xùn)練的前饋型網(wǎng)絡(luò),是迄今為止應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)。BP網(wǎng)絡(luò)目前廣泛應(yīng)用于函數(shù)逼近、模式識(shí)別、數(shù)據(jù)挖掘、系統(tǒng)辨識(shí)與自動(dòng)控制等領(lǐng)域。BP算法實(shí)際上就是求取網(wǎng)絡(luò)總誤差函數(shù)的最小值問(wèn)題,具體采用“最速下降法”,按誤差函數(shù)的負(fù)梯度方向進(jìn)行權(quán)系數(shù)的修正。具體學(xué)習(xí)算法包括兩大類(lèi)過(guò)程:其一是輸入信號(hào)的正向傳播過(guò)程。其二是輸出誤差信號(hào)的反向傳播過(guò)程。逐層遞歸的計(jì)算是網(wǎng)絡(luò)的輸出值和期望輸出值的誤差,根據(jù)此誤差調(diào)整網(wǎng)絡(luò)連接權(quán)值和神經(jīng)元的閾值[6]。
3.2 決策樹(shù)(Decision Tree)
決策樹(shù)(Decision Tree)是一種預(yù)測(cè)模型,它包括決策結(jié)點(diǎn),分支和葉節(jié)點(diǎn)三個(gè)部分。其中,決策節(jié)點(diǎn)代表一個(gè)測(cè)試,通過(guò)代表待分類(lèi)樣本的某個(gè)屬性,在該屬性上的不同測(cè)試結(jié)果代表一個(gè)分支,分支代表每個(gè)決策節(jié)點(diǎn)的不同取值。每個(gè)葉節(jié)點(diǎn)存放某個(gè)類(lèi)別的標(biāo)簽,表示一種可能的分類(lèi)結(jié)果。決策樹(shù)對(duì)未知樣本的分類(lèi)過(guò)程是,自決策樹(shù)根節(jié)點(diǎn)開(kāi)始,自上而下沿某個(gè)分支向下搜索,直到到達(dá)葉節(jié)點(diǎn),葉節(jié)點(diǎn)的分類(lèi)標(biāo)簽就是該未知樣本的類(lèi)別。
3.3 基于規(guī)則的分類(lèi)器
基于規(guī)則的分類(lèi)器是一種通過(guò)使用一組判斷規(guī)則來(lái)對(duì)記錄進(jìn)行分類(lèi)的技術(shù)。其中重要的算法為IREP算法和RIPPER算法。RIPPER算法是一個(gè)優(yōu)化版本的JPip,其中JRip分類(lèi)器實(shí)現(xiàn)了命題規(guī)則學(xué)習(xí),重復(fù)增量修枝(RIPPER)算法生成一條規(guī)則,隨機(jī)地將沒(méi)有覆蓋的實(shí)例分成生長(zhǎng)集合和修剪集合,規(guī)則集合中的每一個(gè)規(guī)則是由兩個(gè)替代規(guī)則和修訂規(guī)則生成[7]。
3.4 基于實(shí)例的算法
基于實(shí)例的算法是推遲對(duì)訓(xùn)練數(shù)據(jù)建模,直到需要對(duì)未知樣本進(jìn)行分類(lèi)才進(jìn)行建模。其中,IBK分類(lèi)器是一種K-最近鄰分類(lèi)器。IBK可用多種不同的搜索算法來(lái)加快最近鄰任務(wù)。在樣本中有比較多的噪點(diǎn)時(shí),通過(guò)IBK算法就能解決一個(gè)鄰居分類(lèi)效果較差,出現(xiàn)誤差較多的情況,此情況下IBK算法就成了一個(gè)較優(yōu)的分類(lèi)器選項(xiàng)。Kstar分類(lèi)器在最近鄰分類(lèi)器的基礎(chǔ)上對(duì)樣本間距離的確定進(jìn)行提升,使用的是熵的距離函數(shù)[7]。
3.5 支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)分類(lèi)器是一種監(jiān)督式學(xué)習(xí)方法,廣泛地應(yīng)用于統(tǒng)計(jì)分類(lèi)以及回歸分析。SVM的特點(diǎn)是能夠同時(shí)求取最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣,因此支持向量機(jī)也被稱(chēng)為最大邊緣分類(lèi)器。支持向量機(jī)技術(shù)具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ)。SVM可以很好地用于高維數(shù)據(jù),避免維數(shù)災(zāi)難。
3.6 集成學(xué)習(xí)
集成學(xué)習(xí)(Ensemble Learning)就是通過(guò)聚集多個(gè)分類(lèi)器的預(yù)測(cè)結(jié)果來(lái)提高分類(lèi)準(zhǔn)確率,集成的方式由訓(xùn)練數(shù)據(jù)構(gòu)建一組基分類(lèi)器(Base Classifier),然后通過(guò)每個(gè)基分類(lèi)器的預(yù)測(cè)的投票來(lái)進(jìn)行分類(lèi)。例如,裝袋(Bagging)、提升(Boosting)和隨機(jī)森林(Random Forest)算法。
3.7 分類(lèi)模型評(píng)估
分類(lèi)模型能夠正確預(yù)測(cè)先前沒(méi)有見(jiàn)過(guò)的樣本,分類(lèi)標(biāo)簽?zāi)芰樵u(píng)估一個(gè)分離器性能的一個(gè)最為普遍的以及最為成熟的一個(gè)方法。在平衡的數(shù)據(jù)集中,它將每個(gè)類(lèi)別看做同等重要,提高了分類(lèi)的置信度。對(duì)于一個(gè)二元分類(lèi)問(wèn)題,預(yù)測(cè)可能產(chǎn)生四種不同的結(jié)果,如表1所示。
表1 二元預(yù)測(cè)的不同結(jié)果
真陽(yáng)性率(True Positive Rate)是TP除以真實(shí)類(lèi)別為yes的總數(shù)(TP+FN),TPR=TP/(TP+FN);假陽(yáng)性率(False Positive Rate)是FP除以真實(shí)類(lèi)別為no的總數(shù)(FP+TN),即TPR=FP/(FP+TN);綜合準(zhǔn)確率是正確分類(lèi)總數(shù)除以全體分類(lèi)總數(shù)[準(zhǔn)確率=(TP+TN)/(TP+TN+FP+FN)]。
接受者操作特征(ROC)曲線(xiàn)是顯示分類(lèi)器真陽(yáng)性和假陽(yáng)性率之間折中的一種圖形化表示方法。在ROC曲線(xiàn)中,X軸為假陽(yáng)性率,Y軸為真陽(yáng)性率,曲線(xiàn)的每個(gè)點(diǎn)對(duì)應(yīng)某個(gè)分類(lèi)器歸納模型。ROC曲線(xiàn)下方的面積(AUC)提供了另一種評(píng)估模型的平均值性能的方法。如果模型是完美的,則它的ROC曲線(xiàn)下方的面積等于1,當(dāng)AUC的值在0.8以上能表示分類(lèi)器的性能能夠?qū)ξ粗獢?shù)據(jù)做比較準(zhǔn)確的預(yù)測(cè)[8]。
4.1 數(shù)據(jù)收集與處理
本研究采用的霧霾天氣數(shù)據(jù)來(lái)自中國(guó)天氣后報(bào)網(wǎng)和中國(guó)環(huán)境監(jiān)測(cè)網(wǎng)站共600組數(shù)據(jù)作為霧霾仿真數(shù)據(jù)(如表2所示)。
通過(guò)對(duì)冬季燃煤供暖和機(jī)動(dòng)車(chē)尾氣排放污染物詳盡的調(diào)查和分析,把以上數(shù)據(jù)分成三個(gè)霧霾氣象數(shù)據(jù)的屬性組。燃煤供暖屬性組的數(shù)據(jù)為溫度(T)、最高和最低溫度(TM,Tm)、濕度(H)、平均風(fēng)速(V)、最大持續(xù)風(fēng)速(VM)、NO2、SO2和平均能見(jiàn)度(VV)。機(jī)動(dòng)車(chē)尾氣排放屬性組的數(shù)據(jù)為溫度(T)、最高和最低溫度(TM,Tm)、濕度(H)、平均風(fēng)速(V)、最大持續(xù)風(fēng)速(VM)、CO、O3和平均能見(jiàn)度(VV)。對(duì)以上兩個(gè)屬性組本實(shí)驗(yàn)增加了一個(gè)參照組用來(lái)作對(duì)照實(shí)驗(yàn),在對(duì)比中更能反應(yīng)出實(shí)驗(yàn)屬性分組的客觀性和科學(xué)性。
4.2 基于BP神經(jīng)網(wǎng)絡(luò)的霧霾預(yù)測(cè)
基于BP神經(jīng)網(wǎng)絡(luò)的霧霾天氣預(yù)測(cè),主要利用了網(wǎng)絡(luò)本身良好的非線(xiàn)性處理能力,通過(guò)擬合訓(xùn)練數(shù)據(jù)關(guān)系進(jìn)行分類(lèi)。然后通過(guò)ROC曲線(xiàn)對(duì)不同屬性組對(duì)霧霾的影響程度進(jìn)行分析。具體流程如下:
對(duì)600組霧霾天氣數(shù)據(jù)進(jìn)行歸一化處理。消除霧霾屬性中數(shù)據(jù)的量綱差別。將處理過(guò)的數(shù)據(jù)按照三折的交叉驗(yàn)證處理方法分成網(wǎng)絡(luò)訓(xùn)練組和網(wǎng)絡(luò)預(yù)測(cè)組兩部分。構(gòu)建一個(gè)三層BP神經(jīng)網(wǎng)絡(luò),輸入結(jié)點(diǎn)與屬性個(gè)數(shù)相同,隱層節(jié)點(diǎn)數(shù)利用隱層節(jié)點(diǎn)計(jì)算公式得出燃煤供暖、機(jī)動(dòng)車(chē)尾氣和參照組分別為4、3和2個(gè)節(jié)點(diǎn),輸出層結(jié)點(diǎn)數(shù)為1。進(jìn)行對(duì)三個(gè)霧霾屬性組樣本進(jìn)行分別訓(xùn)練。
畫(huà)出ROC曲線(xiàn)(Receiver Operating characteristic Curve),根據(jù)ROC曲線(xiàn)形狀,以及線(xiàn)下面積(AUC)定性和定量評(píng)價(jià)不同屬性組對(duì)霧霾天氣的影響。通過(guò)多次實(shí)驗(yàn),對(duì)分類(lèi)正確率和ROC曲線(xiàn)的線(xiàn)下面積取平均值。
4.3 基于其他分類(lèi)算法的分析
首先,基于C4.5決策樹(shù)算法進(jìn)行分類(lèi)。霧霾數(shù)據(jù)是具有離散屬性和連續(xù)屬性的多元數(shù)據(jù),可用C4.5算法進(jìn)行分類(lèi)。針對(duì)三個(gè)屬性組,分別運(yùn)用二分法創(chuàng)建決策樹(shù),為決策樹(shù)創(chuàng)建新節(jié)點(diǎn)對(duì)其進(jìn)行擴(kuò)展,使用信息增益率(GainRatio)篩選屬性作為劃分訓(xùn)練記錄的測(cè)試條件。
第二步,運(yùn)用RIPPER算法進(jìn)行分類(lèi)。這是一種基于規(guī)則的分類(lèi)算法。在設(shè)計(jì)算法開(kāi)始時(shí)把規(guī)則表R置為空,運(yùn)用函數(shù)Learn-One-Rule提取類(lèi)別y覆蓋當(dāng)前屬性訓(xùn)練記錄集的最佳規(guī)則。
第三步,運(yùn)用K-近鄰和Kstar算法進(jìn)行分類(lèi),這是兩個(gè)基于實(shí)例的分類(lèi)算法。在每一個(gè)測(cè)試樣本集中對(duì)每一個(gè)測(cè)試樣本,使用熵的距離函數(shù)計(jì)算該樣本與所有訓(xùn)練樣本之間的距離,通過(guò)進(jìn)一步修改距離權(quán)重,進(jìn)一步降低距離較大分布點(diǎn)的干擾;通過(guò)擴(kuò)大近鄰學(xué)習(xí)的節(jié)點(diǎn)范圍,從原來(lái)的一個(gè)相鄰的節(jié)點(diǎn)單位(k=1)擴(kuò)大到八個(gè)節(jié)點(diǎn)單位(K=8),降低異常點(diǎn)的干擾,以確定其最近鄰的集合。
第四步,運(yùn)用基于支持向量機(jī)分類(lèi)器的序列最小化算法(SMO)。該算法在傳統(tǒng)支持向量機(jī)的基礎(chǔ)上使用高斯核的核函數(shù),使屬性數(shù)據(jù)映射到高維,避免了在對(duì)多維的霧霾屬性數(shù)據(jù)進(jìn)行分類(lèi)處理時(shí)出現(xiàn)線(xiàn)性不可分情況,提升了分類(lèi)器對(duì)多維的天氣數(shù)據(jù)的魯棒性。
第五步,在集成學(xué)習(xí)中,本文采用了三個(gè)不同的集成學(xué)習(xí)算法對(duì)三個(gè)屬性組進(jìn)行數(shù)據(jù)分析和預(yù)測(cè)。首先對(duì)每一個(gè)屬性組原始的天氣數(shù)據(jù)樣本進(jìn)行隨機(jī)抽取。依據(jù)均勻概率分布從原始數(shù)據(jù)集中又放回的抽取,使每一個(gè)自助樣本集和原始數(shù)據(jù)集一樣大,確保每一個(gè)自助樣本集包含原始數(shù)據(jù)集中60%以上的數(shù)據(jù)。選擇對(duì)應(yīng)抽取完成的自助數(shù)據(jù)集逐一構(gòu)建分類(lèi)器。分類(lèi)器對(duì)單個(gè)預(yù)測(cè)值進(jìn)行多數(shù)表決,得票最高的類(lèi)別指派給測(cè)試樣本。應(yīng)用提升算法中的AdaBoost算法,對(duì)屬性組中離群點(diǎn)數(shù)據(jù)賦予更高的權(quán)值,從最初單個(gè)變量權(quán)值為0.0017增加到0.0167降低對(duì)組中其他數(shù)據(jù)的誤差影響。采取隨機(jī)森林的集成學(xué)習(xí)算法。此類(lèi)算法在最初基于單個(gè)決策樹(shù)的單個(gè)分類(lèi)器算法上,集成多棵決策樹(shù)進(jìn)行預(yù)測(cè)。
表2 原始天氣屬性類(lèi)別
表3 三組霧霾屬性組示例(燃煤供暖排放屬性組)
表4 三組霧霾屬性組示例(汽車(chē)尾氣排放屬性組)
表5 三組霧霾屬性組示例(參照屬性數(shù)據(jù)組)
5.1 數(shù)據(jù)采集與處理
本研究采用的霧霾天氣數(shù)據(jù)來(lái)自中國(guó)天氣后報(bào)網(wǎng)和中國(guó)環(huán)境監(jiān)測(cè)網(wǎng)站發(fā)布的2014~2016年每年的秋冬春三個(gè)季節(jié)霧霾易發(fā)的五個(gè)月作為環(huán)境監(jiān)測(cè)數(shù)據(jù)。經(jīng)過(guò)屬性組的篩選,共600組數(shù)據(jù)作為霧霾仿真數(shù)據(jù)(如表6所示)。
通過(guò)對(duì)冬季燃煤供暖和汽車(chē)尾氣排放污染物詳盡的調(diào)查和分析,把以上數(shù)據(jù)分成三個(gè)霧霾氣象數(shù)據(jù)的屬性組。對(duì)以上兩個(gè)屬性組本實(shí)驗(yàn)增加了一個(gè)參照組用來(lái)作對(duì)照實(shí)驗(yàn),在對(duì)比中更能反應(yīng)出實(shí)驗(yàn)屬性分組的客觀性和科學(xué)性。天氣數(shù)據(jù)在數(shù)據(jù)分布上基本符合統(tǒng)計(jì)學(xué)中的高斯分布,反映了屬性組中數(shù)據(jù)平衡性,表明實(shí)驗(yàn)數(shù)據(jù)客觀真實(shí)有說(shuō)服力。
國(guó)際上對(duì)煙霧的能見(jiàn)度定義為不足1km,薄霧的能見(jiàn)度為1km~2km,霧霾的能見(jiàn)度為2km~5km劃分標(biāo)準(zhǔn)編輯。因此依照國(guó)際標(biāo)準(zhǔn)對(duì)平均能見(jiàn)度數(shù)據(jù)進(jìn)行歸一化處理(部分?jǐn)?shù)據(jù)處理后的部分?jǐn)?shù)據(jù)如表10所示)。
5.2 基于BP神經(jīng)網(wǎng)絡(luò)的分類(lèi)
將網(wǎng)絡(luò)的學(xué)習(xí)率調(diào)整為0.01,誤差設(shè)定為0.001。經(jīng)過(guò)網(wǎng)絡(luò)對(duì)其中相關(guān)參數(shù)、節(jié)點(diǎn)的權(quán)值和閾值在網(wǎng)絡(luò)訓(xùn)練中進(jìn)行優(yōu)化后,用MATLAB軟件對(duì)網(wǎng)絡(luò)進(jìn)行仿真,基于ROC曲線(xiàn)和其線(xiàn)下面積AUC對(duì)三個(gè)屬性組進(jìn)行分析,部分仿真圖表如圖1所示。由圖可知,燃煤供暖和機(jī)動(dòng)車(chē)尾氣排放這兩個(gè)屬性組的AUC數(shù)值大致相同,且都要大于參照組AUC數(shù)值,因此可得出燃煤供暖排放和機(jī)動(dòng)車(chē)尾氣排放這兩個(gè)因素對(duì)霧霾天氣有較大影響,并且作用大致相當(dāng)。
表6 原始天氣數(shù)據(jù)
表8 汽車(chē)尾氣排放屬性組
表9 參照屬性數(shù)據(jù)組
表10 對(duì)平均能見(jiàn)度處理后的部分?jǐn)?shù)據(jù)
圖1 三個(gè)屬性組的仿真結(jié)果圖
5.3 基于其他分類(lèi)算法的研究
根據(jù)這八種分類(lèi)器算法的分類(lèi)結(jié)果做出定量與定性的分析,構(gòu)建了對(duì)霧霾數(shù)據(jù)樣本的分類(lèi)混淆矩陣,矩陣的數(shù)據(jù)如表11~表13所示,表格中的每個(gè)元素均是實(shí)例的計(jì)數(shù)值,a和b的值代表平均能見(jiàn)度歸一化之后的結(jié)果。從下列屬性組中樣本的分類(lèi)結(jié)果分布情況上看,依照混淆矩陣的判別分類(lèi)器分類(lèi)效果方法,主對(duì)角線(xiàn)上的分類(lèi)樣本數(shù)目之和遠(yuǎn)大于副對(duì)角線(xiàn)上之和,因此采用這八種分類(lèi)器是符合霧霾數(shù)據(jù)的特征,體現(xiàn)了設(shè)計(jì)算法的實(shí)效性,對(duì)屬性組對(duì)霧霾天氣的影響具有較高的支持作用。
針對(duì)600組霧霾數(shù)據(jù),分成三個(gè)屬性組進(jìn)行分類(lèi)算法的分析預(yù)測(cè)。每種算法的預(yù)測(cè)結(jié)果運(yùn)用正確率和AUC數(shù)值進(jìn)行評(píng)價(jià)。
對(duì)分類(lèi)器的分類(lèi)正確率和ROC曲線(xiàn)的線(xiàn)下面積分別進(jìn)行了數(shù)據(jù)統(tǒng)計(jì)與分析。燃煤供暖、機(jī)動(dòng)車(chē)尾氣排放和參照組的正確率均值分別為84.2915、84.2075和79.2913;燃煤供暖、機(jī)動(dòng)車(chē)尾氣排放和參照組的AUC均值分別為0.8959、0.8898和0.8291。由數(shù)據(jù)可知燃煤供暖和機(jī)動(dòng)車(chē)尾氣排放這兩個(gè)屬性組的分類(lèi)正確率和AUC數(shù)值大致相同,且都要大于參照組分類(lèi)正確率和AUC數(shù)值,因此可得出燃煤供暖排放和機(jī)動(dòng)車(chē)尾氣排放這兩個(gè)因素對(duì)霧霾天氣有較大影響,并且作用大致相當(dāng)。
表11 燃煤供暖屬性組混淆矩陣數(shù)據(jù)
表12 汽車(chē)尾氣屬性組混淆矩陣數(shù)據(jù)
表13 參照組屬性組混淆矩陣數(shù)據(jù)
表14 分類(lèi)算法的評(píng)估結(jié)果
表15 分類(lèi)器算法結(jié)果的統(tǒng)計(jì)分析
本方法選取與機(jī)動(dòng)車(chē)尾氣、供暖、天氣相關(guān)的屬性分別構(gòu)成三個(gè)屬性組,首先用BP神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器,通過(guò)交叉驗(yàn)證對(duì)霧霾天氣進(jìn)行預(yù)測(cè),并構(gòu)建出不同屬性組的ROC曲線(xiàn),對(duì)各屬性組對(duì)分類(lèi)的影響進(jìn)行評(píng)估,然后用C4.5、RIPPER、k近鄰、SVM、隨機(jī)森林等多種分類(lèi)算法進(jìn)行分類(lèi)預(yù)測(cè),并對(duì)分類(lèi)結(jié)果的正確率、ROC曲線(xiàn)面積等進(jìn)行分析。通過(guò)數(shù)據(jù)挖掘方法,基于客觀數(shù)據(jù),對(duì)具有爭(zhēng)議的污染因素:機(jī)動(dòng)車(chē)尾氣和燃煤供暖對(duì)霧霾的作用大小進(jìn)行了定量分析。經(jīng)過(guò)以上過(guò)程分析得出結(jié)論:北京市機(jī)動(dòng)車(chē)尾氣和燃煤供暖對(duì)霧霾天氣的影響較大,且作用相當(dāng),可為相關(guān)部門(mén)政策的制定和霧霾的防治提供理論依據(jù)。
由于霾天氣能見(jiàn)度的不僅僅與大氣污染物有關(guān),還受到某些氣象條件的影響:例如,降雨降雪、大氣壓強(qiáng)、混合層高度;以及在光化學(xué)反應(yīng)晝夜差異,大氣上空流邊界層發(fā)展的大氣穩(wěn)定性[9]等。未來(lái)工作中,會(huì)通過(guò)更全面地考慮影響因素來(lái)提高預(yù)測(cè)和分析的準(zhǔn)確性。
[1] 艾洪福,石瑩.基于BP神經(jīng)網(wǎng)絡(luò)的霧霾天氣預(yù)測(cè)研究[J].計(jì)算機(jī)仿真,2015:01,32(1):402-405.
[2] 馬楚焱,祖健,付清盼,羅凌霄.基于遺傳神經(jīng)網(wǎng)絡(luò)模型的空氣能見(jiàn)度預(yù)測(cè)[J].環(huán)境工程學(xué)報(bào)(2015)04:9(4):1905-1910.
[3] 侯瓊煌,楊航.基于三次指數(shù)平滑模型的霧霾天氣預(yù)測(cè)[J].環(huán)境保護(hù)科學(xué)(2014:40)06:73-77.
[4] 楊文光,林連海,田立勤.基于小波分析的霧霾天氣分析與預(yù)測(cè)[J].2016:34,3:166-170.
[5] 付倩嬈.基于多元線(xiàn)性回歸的霧霾預(yù)測(cè)方法研究[J].2016,6:43(6A):526-528.
[6] 陳雯柏.人工神經(jīng)網(wǎng)絡(luò)原理與實(shí)踐[M].西安電子科技大學(xué)出版社.
[7] 袁梅宇.數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)WEKA應(yīng)用技術(shù)與實(shí)踐[M].清華大學(xué)出版社.
[8] Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數(shù)據(jù)挖掘?qū)д揫M].人民郵電出版社.
[9] 呂效譜,成海容,王祖武,張帆.中國(guó)大范圍霧霾期間大氣污染特征分析[J].湖南科技大學(xué)學(xué)報(bào)(自然科學(xué)版)2013:9,28(3):104-110.
Fog and haze forecasting and analysis based on data mining
CHEN Jia-hao1, LIU Jia2
TP29
:A
1009-0134(2017)06-0150-06
2017-05-27
國(guó)家自然科學(xué)基金(61501464)
陳嘉昊(1996 -),男,本科,研究方向?yàn)閿?shù)據(jù)挖掘和模式識(shí)別。