董文雷 馬一凡 徐海東
(石家莊鐵路職業(yè)技術(shù)學院 河北石家莊 050041)
利用excel對國控點數(shù)據(jù)和自建點數(shù)據(jù)進行處理,發(fā)現(xiàn)國控點數(shù)據(jù)在時間上存在不連續(xù)性,有多天連續(xù)數(shù)個小時沒有數(shù)據(jù),國控點共有4200條數(shù)據(jù),比自建點少了700多條;自建點數(shù)據(jù)時間上也存在不連續(xù)且有重復(fù)數(shù)據(jù)的現(xiàn)象。采用刪除互不存在的數(shù)據(jù),使國控點與自建點在時間上的數(shù)據(jù)同步匹配。再通過國控點與自建點“四氣兩塵”(PM2.5、PM10、CO、NO2、SO2、O3)的濃度值和環(huán)境空氣質(zhì)量指數(shù)(AQI)指數(shù)對比畫出折線圖,通過折線的趨勢和吻合度進行分析。國控點與自建點進行數(shù)據(jù)統(tǒng)計時均采取單位時間平均值。計算環(huán)境空氣質(zhì)量指數(shù)(AQI)值時,O3取日1小時最大值和8小時滑動平均最大值。
利用國控點數(shù)據(jù)與自建點數(shù)據(jù)的差值與自建點天氣因素數(shù)據(jù)進行相關(guān)系數(shù)比較,得出結(jié)論。
對國控點與自建點數(shù)據(jù)差值以小時為單位,建立多元線性回歸方程模型,并進行回歸分析。若效果不明顯,采用剔除異常點和建立二元線性回歸方程模型,進行回歸分析,直到得到理想結(jié)果。
以x軸為時間軸,以y軸為各空氣污染物數(shù)據(jù),建立自建點與國控點濃度值的比較,利用Matlab軟件進行數(shù)據(jù)分析,建立圖形并對比(這里只給出PM2.5和PM10濃度值對比),具體如下:
2.1.1 濃度值對比
(1) PM2.5濃度值對比
觀察圖1可知:在這一段時間內(nèi),雖然PM2.5自建點與國控點的濃度值曲線變化波動較大,但二者重合度相對較好,自建點濃度值大于國控點濃度值。
圖1 PM2.5濃度值對比
(2)PM10濃度值對比
圖2 PM10濃度值對比
觀察圖2可知:在這一段時間內(nèi),PM10自建點與國控點的濃度值曲線變化相差無幾(在2018年11月到2019年3月濃度值曲線上下浮動較大,在2019年3月到2019年6月濃度值曲線上下浮動較?。?,且在2018年11月到2019年3月自建點濃度值大于國控點濃度值,在在2019年3月到2019年6月二者濃度值相差較小。小時的濃度對比圖中,有2處出現(xiàn)明顯異常。
2.1.2 濃度差值變化(國控點-自建點)(這里只給出ΔPM2.5和ΔPM10濃度值對比)
(1) ΔPM2.5變化
圖3 ΔPM2.5變化
由圖3可知:自建點數(shù)據(jù)值高于國控點,且時間越往后相差越小,數(shù)據(jù)變化較為穩(wěn)定。(2)ΔPM10變化:
圖4 ΔPM10變化
由圖4可知:2018年11月到2019年3月自建點數(shù)據(jù)值高于國控點,2019年3月到2019年6月國控點數(shù)據(jù)值高于自建點,且在2019年3月左右和2019年4月左右出現(xiàn)2處異常數(shù)據(jù)。
建立基于Pearson 簡單相關(guān)分析的模型。通過對試題附件1.CSV和附件2.CSV中所給數(shù)據(jù),以小時為單位,分類匯總得到4116組相關(guān)數(shù)據(jù)。將電化學氣體傳感器產(chǎn)生的零點漂移、量程漂移以及非常態(tài)氣態(tài)污染物(氣)濃度變化對傳感器的干擾看成關(guān)于時間t的函數(shù),考慮到氣象參數(shù)溫度、濕度、風速、氣壓、降水,這6個因素對導(dǎo)致國控點與自建點數(shù)據(jù)影響的不確定性,利用 Matlab軟件計算,得到“兩塵四氣”改變量ΔPM2.5、ΔPM10、ΔCO、ΔNO2、ΔSO2、ΔO3對于每個影響因素的相關(guān)系數(shù)r值如表1和表2。
表1 相關(guān)系數(shù)r的性質(zhì)
表2 不同影響因素的相關(guān)系數(shù)r值
首先建立多元線性回歸方程如下:
其中,α0,α1,α2,α3,α4,α5,α6為方程的回歸系數(shù),x1,x2,x3,x4,x5x6分別代表溫度、濕度、風速、氣壓、降水和時間,計算得回歸系數(shù)α0,α1,α2,α3,α4,α5,α6見下表:決定變量R2如下表:
影響因素系數(shù)PM2.5 Δ ΔPM10 ΔCO NO2 ΔSO2 Δ 3 ΔO 0α 476.1246464 1624.206558 38.33862643 383.821484 128.7328819 -1636.236603溫度1α -4.740056135 -1.910351645-0.222460064 5.156152413-10.37740543 46.54975402濕度2α -0.449618254 -1.543201749-0.036343513-0.367507906-0.096771042 1.499895487風速3α -0.013244827 -0.032481839 0.000298903-0.108920685 0.042573975 -0.123576094氣壓4α -0.08417417 -1.194302414-0.046389651-1.813221253 1.031279571 0.590978097降水5α -0.410170856 -1.375251376-0.00337099-0.447257947-0.098030424 0.165054607時間6α 0.000111095 0.011859578 3.02E-05 0.0136652 -0.013764414 0.029060805
決定變量 Δ PM2.5 ΔPM10 ΔCO Δ NO2 Δ SO2 ΔO3 R2 0.3588 0.4859 0.1648 0.4288 0.5355 0.5372
從上表中看出,各個決定變量的R2普遍較小,最大的是0.5372,而ΔCO的R2只有0.1648,擬合度較低。因此,我們通過置信區(qū)間的范圍進行數(shù)據(jù)的重新篩選和匹配,以新數(shù)據(jù)為參照重新建立多元線性方程,得到新的回歸系數(shù)和相應(yīng)R2如下表:
影響系因 數(shù)素ΔPM2.5 ΔPM10 ΔCO Δ NO2ΔSO2 ΔO3 α0 515.1254 2033.9 35.6110 574.8116 139.8937 -1848.1溫度α1 -5.4341 0.2947 -0.2683 2.7375 -12.8919 44.0748濕度α2 -0.4859 -1.9398 -0.0337 -0.5404 -0.1021 1.7020風速α3 -0.0119 -0.0400 0.0001127 -0.1075 0.0424 -0.1129氣壓α4 -0.0641 -1.3985 -0.0421 -2.0062 1.1668 1.0700降水α5 -0.4305 -1.4457 -0.0029 -0.5582 -0.1189 0.2089時間α6 -0.0002 0.0118 0.000011784 0.0122 -0.0154 0.0282
決定變量R2如下表:
決定變量ΔPM2.5Δ PM10ΔCO Δ NO2ΔSO2ΔO3 R20.477499875 0.649229706 0.219276757 0.541136841 0.541296013 0.650687979
從表里可以看出,各個決定變量的R2均有所增加,但是很多都在0.5附近,ΔCO的R2只有0.22,擬合效果仍不明顯。為此建立關(guān)于ΔPM2.5、ΔPM10、ΔCO、ΔNO2、ΔSO2、ΔO3的二次回歸方程,以ΔPM2.5為例:
由于ΔSO2有6個異常點,重新匹配后,通過Matlab軟件運行得到回歸方程如下:
相應(yīng)決定變量R2如下表:
從上表可以看出,各個決策變量的R2均大幅度增加,其中ΔSO2的R2最大達到0.7083,最小的ΔCO也達到了0.491,結(jié)果較為理想。在多元二次回歸方程下得到關(guān)于ΔPM2.5、ΔPM10、ΔCO、ΔNO2、ΔSO2、ΔO3的殘差圖,(這里只給出ΔPM2.5和ΔPM10的相關(guān)圖像)如下:
由殘差圖圖像,考慮到影響影響因素的不確定性,多元二次回歸模型的擬合效果較好。