朱盛愷,陳勁杰
(上海理工大學(xué),上海 200093)
kaisss163@163.com;2502526194@qq.com
大氣污染系指由于人類活動(dòng)或自然過程引起某些物質(zhì)進(jìn)入大氣中,呈現(xiàn)足夠的濃度,達(dá)到了足夠的時(shí)間,并因此危害了人體的舒適、健康和福利或危害了生態(tài)環(huán)境。污染防治實(shí)踐表明,建立空氣質(zhì)量預(yù)報(bào)模型,提前獲知可能發(fā)生的大氣污染過程并采取相應(yīng)的控制措施,是減少大氣污染對(duì)人體健康和環(huán)境等造成的危害,提高環(huán)境空氣質(zhì)量的有效方法之一。
但受制于模擬的氣象場(chǎng)和排放清單的不確定性,以及對(duì)包括臭氧在內(nèi)的污染物生成機(jī)理的不完全明晰,現(xiàn)有的WRF-CMAQ一次預(yù)報(bào)模型的預(yù)測(cè)結(jié)果并不理想。由于污染物濃度實(shí)測(cè)數(shù)據(jù)的變化情況對(duì)空氣質(zhì)量預(yù)報(bào)影響很大,故參考空氣質(zhì)量監(jiān)測(cè)點(diǎn)獲得的污染物實(shí)測(cè)數(shù)據(jù)對(duì)一次預(yù)報(bào)數(shù)據(jù)進(jìn)行修正。通過對(duì)一次預(yù)報(bào)數(shù)據(jù)和實(shí)測(cè)數(shù)據(jù)的二次建??梢詢?yōu)化預(yù)測(cè)結(jié)果,能夠提高對(duì)空氣質(zhì)量預(yù)測(cè)的準(zhǔn)確率。
數(shù)據(jù)來源為某監(jiān)測(cè)點(diǎn)的樣本數(shù)據(jù)庫(kù)數(shù)據(jù),數(shù)據(jù)包括污染物濃度一次預(yù)報(bào)數(shù)據(jù)和污染物濃度實(shí)測(cè)數(shù)據(jù),其中主要為用于衡量空氣質(zhì)量的六種常規(guī)大氣污染物,分別為二氧化硫(SO)、二氧化氮(NO)、粒徑小于10 μm的顆粒物(PM)、粒徑小于2.5 μm的顆粒物(PM)、臭氧(O)、一氧化碳(CO)。對(duì)初始數(shù)據(jù)進(jìn)行處理(以SO的處理為例),在對(duì)數(shù)據(jù)的分析過程中發(fā)現(xiàn)氣候與污染物濃度的數(shù)據(jù)表格中存在大量的缺失,此外,有許多異常值存在于測(cè)量數(shù)據(jù)中,圖1中選取了部分?jǐn)?shù)據(jù)示例。
圖1 SO2監(jiān)測(cè)濃度部分?jǐn)?shù)據(jù)Fig.1 Partial data of SO2 monitoring concentration
由于提供的數(shù)據(jù)并非完整天數(shù)的檢測(cè)數(shù)據(jù),根據(jù)每日預(yù)報(bào)的時(shí)間固定為早晨7 點(diǎn),此時(shí)可以獲得當(dāng)日7 點(diǎn)及之前時(shí)刻的實(shí)測(cè)數(shù)據(jù),按天對(duì)數(shù)據(jù)進(jìn)行整理,剔除頭部0 點(diǎn)到7 點(diǎn)的不完整數(shù)據(jù),然后以整天為單位處理其余數(shù)據(jù)。
首先是對(duì)缺失值的處理,選擇以小時(shí)為單位在MATLAB中調(diào)用interp1進(jìn)行一維線性插值。插值后的數(shù)據(jù)如圖2所示。
圖2 SO2監(jiān)測(cè)濃度缺失值插值結(jié)果Fig.2 Interpolation results of SO2 monitoring concentration with missing values
圖3 SO2監(jiān)測(cè)濃度去除異常值插值結(jié)果Fig.3 Interpolation results of SO2 monitoring concentration with removal outliers
根據(jù)《環(huán)境空氣質(zhì)量指數(shù)(AQI)技術(shù)規(guī)定(試行)》(HJ 633—2012),空氣質(zhì)量指數(shù)(AQI)可用于判別空氣質(zhì)量等級(jí)??諝赓|(zhì)量等級(jí)范圍根據(jù)AQI數(shù)值劃分,等級(jí)對(duì)應(yīng)的AQI范圍如表1所示。
表1 空氣質(zhì)量等級(jí)及對(duì)應(yīng)空氣質(zhì)量指數(shù)(AQI)范圍Tab.1 Air quality level and corresponding air quality index (AQI) range
當(dāng)AQI小于或等于50(即空氣質(zhì)量評(píng)價(jià)為“優(yōu)”)時(shí),稱當(dāng)天無首要污染物。當(dāng)AQI大于50時(shí),空氣質(zhì)量分指數(shù)(IAQI)計(jì)算值最大的稱為首要污染物。若IAQI最大值相同時(shí),并列為首要污染物。IAQI大于100的污染物稱為超標(biāo)污染物。
綜合考慮以AQI和首要污染物的誤差這兩個(gè)指標(biāo)的加權(quán)組合作為遺傳算法的適應(yīng)度。
首先得到各項(xiàng)污染物的IAQI,其計(jì)算公式如下:
AQI取各分指數(shù)中的最大值,即
在本次研究中,對(duì)AQI的計(jì)算僅涉及六種污染物,因此計(jì)算公式如下:
將數(shù)據(jù)庫(kù)數(shù)據(jù)經(jīng)過插值處理后再轉(zhuǎn)換成AQI值,并記下對(duì)應(yīng)的首要污染物,為后續(xù)分析做好準(zhǔn)備。
傳統(tǒng)的學(xué)習(xí)算法(如BP算法等)存在四方面的不足:訓(xùn)練時(shí)間長(zhǎng);所得到的網(wǎng)絡(luò)性能差;因?yàn)槟承┨厥夂瘮?shù)可能有局部極小點(diǎn);網(wǎng)絡(luò)學(xué)習(xí)率波動(dòng)大,成為阻止其進(jìn)化的主要障礙。而前饋神經(jīng)網(wǎng)絡(luò)往往采用梯度下降方法,也存在三個(gè)方面的不足:訓(xùn)練時(shí)間長(zhǎng);容易陷入局部極小點(diǎn),無法達(dá)到全局最?。粚W(xué)習(xí)率的選擇敏感。
極限學(xué)習(xí)機(jī)(ELM)模型網(wǎng)絡(luò)結(jié)構(gòu)算法不再是基于梯度的算法,而是隨機(jī)產(chǎn)生輸入層與隱藏層間的連接權(quán)值和隱藏層神經(jīng)元的閾值,在訓(xùn)練中無須特殊操作,唯一值就是隱藏層神經(jīng)元數(shù)量,訓(xùn)練完成后就可以得到全局最優(yōu)解。與以往的訓(xùn)練方式比較,ELM模型具有訓(xùn)練速度快、泛用性廣、誤差非常小等優(yōu)點(diǎn),故選擇ELM模型網(wǎng)絡(luò)結(jié)構(gòu)完成模型預(yù)測(cè)。
ELM模型的網(wǎng)絡(luò)結(jié)構(gòu)與單隱藏層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)一樣,只不過在訓(xùn)練階段不再是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中屢試不爽的基于梯度的算法(后向傳播),而采用隨機(jī)的輸入層權(quán)值和偏差,輸出層權(quán)重則通過廣義逆矩陣?yán)碚撚?jì)算得到。得到所有網(wǎng)絡(luò)節(jié)點(diǎn)上的權(quán)值和偏差后,ELM的訓(xùn)練就完成了,這時(shí)通過測(cè)試數(shù)據(jù),利用剛剛求得的輸出層權(quán)重便可計(jì)算出網(wǎng)絡(luò)輸出,完成對(duì)數(shù)據(jù)的預(yù)測(cè)。
ELM訓(xùn)練基本上分為隨機(jī)特征映射和線性參數(shù)求解。第一階段,隱藏層參數(shù)隨機(jī)進(jìn)行初始化,然后采用一些非線性映射作為激活函數(shù),將輸入數(shù)據(jù)映射到一個(gè)新的特征空間(稱為ELM特征空間)。簡(jiǎn)單來說,就是ELM隱藏層節(jié)點(diǎn)上的權(quán)值和偏差是隨機(jī)產(chǎn)生的。隨機(jī)特征映射階段與許多現(xiàn)有的學(xué)習(xí)算法不同,ELM中的非線性映射函數(shù)可以是任何非線性分段連續(xù)函數(shù)。在ELM中,隱藏層節(jié)點(diǎn)參數(shù)(和)根據(jù)任意連續(xù)的概率分布隨機(jī)生成(與訓(xùn)練數(shù)據(jù)無關(guān)),而不是經(jīng)過訓(xùn)練確定的,從而使與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)相比在效率方面占很大優(yōu)勢(shì)。經(jīng)過第一階段、已隨機(jī)產(chǎn)生而確定下來,可根據(jù)公式計(jì)算出隱藏層輸出。在ELM學(xué)習(xí)的第二階段,只需要求解輸出層的權(quán)值()。為了得到在訓(xùn)練樣本集上具有良好效果的,需要保證其訓(xùn)練誤差最小,將(網(wǎng)絡(luò)的輸出)與(樣本標(biāo)簽)進(jìn)行計(jì)算,求得最小平方差作為評(píng)價(jià)訓(xùn)練誤差,使得該目標(biāo)函數(shù)最小的解就是最優(yōu)解。即通過最小化近似平方差的方法對(duì)連接隱藏層和輸出層的權(quán)重()進(jìn)行求解,目標(biāo)函數(shù)如下:
其中,是隱藏層的輸出矩陣,是訓(xùn)練數(shù)據(jù)的目標(biāo)矩陣。
通過線代和矩陣論的知識(shí)可推導(dǎo)得到最優(yōu)解為:
這時(shí)問題就轉(zhuǎn)化為求計(jì)算矩陣的Moore Penrose廣義逆矩陣。當(dāng)HH(的轉(zhuǎn)置與相乘)為非奇異(可逆)時(shí)可使用正交投影法,得到的計(jì)算結(jié)果是:
在模型建立上,發(fā)現(xiàn)ELM模型預(yù)測(cè)AQI的相對(duì)誤差最大值最小,首要污染物誤差最小,接著再選擇用遺傳算法優(yōu)化現(xiàn)有預(yù)測(cè)模型,具體流程如圖4所示。
圖4 遺傳算法優(yōu)化的ELM模型建立流程圖Fig.4 Flow chart of ELM model building for genetic algorithm optimization
確認(rèn)好神經(jīng)網(wǎng)絡(luò)的輸入輸出對(duì)應(yīng)關(guān)系,以AQI和首要污染物的誤差這兩個(gè)指標(biāo)的加權(quán)組合作為適應(yīng)度,隨機(jī)設(shè)置一組要優(yōu)化的懲罰因子和核參數(shù)。把數(shù)據(jù)分為80%訓(xùn)練集和20%測(cè)試集,以設(shè)置的參數(shù)和訓(xùn)練樣本去訓(xùn)練模型,然后測(cè)試樣本的輸入與預(yù)測(cè)獲得預(yù)測(cè)結(jié)果以計(jì)算預(yù)測(cè)的AQI值,并計(jì)算得出適應(yīng)度函數(shù),再按照流程圖所示過程完成建模預(yù)測(cè)。
預(yù)測(cè)將來某小時(shí)+1的一次預(yù)測(cè)結(jié)果時(shí),采用滾動(dòng)預(yù)測(cè),結(jié)合該時(shí)間之前的真實(shí)時(shí)刻歷史數(shù)據(jù),可以獲得該時(shí)間的二次預(yù)測(cè)結(jié)果。然后再預(yù)測(cè)+2 小時(shí),+2之前+1這一時(shí)刻的歷史數(shù)據(jù)就可以采用二次預(yù)測(cè)結(jié)果去預(yù)測(cè),預(yù)測(cè)結(jié)果如圖5—圖10所示。通過真實(shí)值-預(yù)測(cè)值得到了對(duì)應(yīng)點(diǎn)的預(yù)測(cè)誤差數(shù)據(jù),經(jīng)過計(jì)算發(fā)現(xiàn)誤差值均不超過10%。可以發(fā)現(xiàn),該模型方法預(yù)測(cè)還是比較準(zhǔn)確的。
圖5 SO2真實(shí)-預(yù)測(cè)-誤差Fig.5 SO2 reality-prediction-error
圖6 NO2真實(shí)-預(yù)測(cè)-誤差Fig.6 NO2 reality-prediction-error
圖7 PM10真實(shí)-預(yù)測(cè)-誤差Fig.7 PM10 reality-prediction-error
圖8 PM2.5真實(shí)-預(yù)測(cè)-誤差Fig.8 PM2.5 reality-prediction-error
圖9 O3真實(shí)-預(yù)測(cè)-誤差Fig.9 O3 reality-prediction-error
圖10 CO真實(shí)-預(yù)測(cè)-誤差Fig.10 CO reality-prediction-error
基于建立的ELM模型,結(jié)合遺傳算法,得到優(yōu)化后的六種污染物真實(shí)值與預(yù)測(cè)值最大誤差均低于10%,而一次預(yù)報(bào)誤差普遍在15%以上。利用該模型在WRF-CMAQ等一次預(yù)報(bào)模型模擬結(jié)果的基礎(chǔ)上,結(jié)合監(jiān)測(cè)點(diǎn)污染物實(shí)測(cè)數(shù)據(jù)進(jìn)行再建模,提高了預(yù)報(bào)的準(zhǔn)確性。