王怡馨
摘 要:世界的空氣質(zhì)量逐日下降,先前人們關(guān)注的PM2.5逐漸被臭氧污染取代。全國各地屢屢曝出臭氧污染警報,但是人們對臭氧污染的危害的意識還不夠強烈,各地提出的防范措施也不夠到位。因此為了知曉臭氧濃度是否超標,便有了臭氧八小時這個概念。臭氧八小時是指一天中臭氧濃度最大的連續(xù)八小時的平均值,根據(jù)此平均值判斷當天是否有臭氧污染。而本文將會利用決策樹算法建模,利用風速、溫度、海平面壓力、降水量等數(shù)據(jù),利用ID3算法進行對臭氧水平濃度的預(yù)測,從而較可靠、準確地對是否有臭氧污染做出預(yù)告,保護人民的財產(chǎn)利益與身體健康。
關(guān)鍵詞:臭氧八小時;環(huán)境污染;決策樹算法
隨著溫度的升高以及空氣質(zhì)量的下降,臭氧污染已經(jīng)成為全國大氣污染的一個突出問題,隨著臭氧污染的日益加重,我國可能面臨顆粒物和臭氧污染雙重污染的局面。臭氧()作為一種二次污染物,在常溫下是一種有特殊臭味的淡藍色氣體,在日照強、溫度高的夏季秋季最容易累積。臭氧是由于汽車尾氣,工業(yè)生產(chǎn)排放出的氮氧化物(NOx)和某些揮發(fā)性有機化合物(VOCs)在光照的作用下發(fā)生光化學(xué)反應(yīng)形成的。而氮氧化物以及揮發(fā)性的污染大多來自人們無節(jié)制地向空中排放化工業(yè)廢氣。由于臭氧本身較強的氧化性和腐蝕性,近地面的臭氧濃度若較大對人體和某些有機物有害。臭氧的毒性主要來源于它較強的氧化性,可以破壞細胞壁,故而它引發(fā)的危害大多都是急性的,對人體的主要危害是影響人的呼吸系統(tǒng),容易引起肺氣腫和哮喘病。它也會毒害神經(jīng)中樞。臭氧也會影響植物的生長與光合作用。臭氧的腐蝕性主要在于建筑材料和有機布料,它可以加速橡膠和塑料氧化,使紡織品褪色,所以臭氧濃度過高也會對人的生產(chǎn)生活造成不良影響。而本文通過劃定1979年規(guī)定的臭氧的安全標準0.15ppm為界來判斷是否有臭氧污染。
由于臭氧不像PM2.5等顆粒物可以通過空氣的能見度來大致判斷污染程度,在有臭氧污染時,人們往往會看到藍天、晴空,并且人們不可能通過戴口罩來避免吸入臭氧,所以臭氧的預(yù)測顯得尤為重要。然而現(xiàn)在世界上還沒有一套成熟的體系來預(yù)測臭氧的水平濃度,所以本文將通過決策樹算法,利用數(shù)據(jù)集中風速、溫度等數(shù)據(jù)對臭氧水平濃度進行一個合理、準確的預(yù)測。這樣人們可以通過臭氧濃度的預(yù)告來做出預(yù)防措施,減少戶外運動,最大程度地保護人們的身體健康與個人利益。
一、國內(nèi)外研究現(xiàn)狀
近年來,國內(nèi)外對臭氧水平濃度的預(yù)測大致可分為“化學(xué)分析法”、“物理分析法”、“物理化學(xué)分析法”三類。其中化學(xué)檢測法包括碘量法、比色法、檢測管法。碘量法利用和的化學(xué)反應(yīng),根據(jù)反應(yīng)物的濃度來推算出臭氧的濃度,但此方法易受其他氧化物的影響。而比色法和檢測管對設(shè)備的要求很高,不易實現(xiàn)。物理檢測方法主要是紫外線吸收法,它是利用臭氧對某個特定波長的紫外線特征吸收,通過比爾-朗伯定律制造出的分析儀器,該種方法的原理是根據(jù)比爾-朗伯定律l=loe-klc控制的紫外線輻射被某種液體或氣體吸收,這種方法已被我國作為環(huán)境空氣中測定臭氧的標準方法,但由于這種方法需要對物質(zhì)在已知波長下k值,即吸收物質(zhì)對該光線波長的比吸收系數(shù)的精確了解,故而比較繁瑣。物理化學(xué)方法主要是IDS分光光度法或化學(xué)發(fā)光法。分光光度法通過分光光度計的測量以及計算得出臭氧濃度,但是這種方法比較復(fù)雜,常用于檢測低濃度的臭氧,所以用此法預(yù)測是否有臭氧污染不切合實際?;瘜W(xué)發(fā)光法利用乙烯或一氧化氮與臭氧發(fā)生化學(xué)反應(yīng)發(fā)光再通過測出發(fā)光光強來計算出臭氧濃度,由于此方法準確率較低,故已被紫外線吸收法取代。
而本文將會通過決策樹算法建模,對以上方法的劣處做出調(diào)整,從而實現(xiàn)利用ID3算法,通過測量的降水量、溫度、風速等數(shù)據(jù),對是否有臭氧污染進行一個合理、可靠、準確的預(yù)測。
二、數(shù)據(jù)的處理與模型假設(shè)
本文選取了2535條地面臭氧水平數(shù)據(jù),及一些可能影響臭氧水平的因素的數(shù)據(jù),可以較全面地反應(yīng)在不同溫度、風速、壓強下地面臭氧水平濃度與一些可能影響臭氧水平的因素的關(guān)系。
將數(shù)據(jù)集中各個特征所代表的含義整理成表格,如下表
三、基于決策樹的臭氧污染的預(yù)測
(一)決策樹的基本概念
決策樹(Decision Tree)是一種歸納學(xué)習的算法,它可以將一組無順序、無規(guī)則的數(shù)據(jù)集進行分類,使之有序最終得到滿意的結(jié)果。它通過測試樣本的屬性來吸取各屬性之間的關(guān)系,繼而對樣本進行分類用以實現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律的探究和新數(shù)據(jù)對象的分類預(yù)測。由于決策樹具有能夠直接體現(xiàn)數(shù)據(jù)的特點,使得它易于理解和實現(xiàn),成為一種常用的數(shù)據(jù)挖掘技術(shù)。決策樹一般都是自上而下生成的,由內(nèi)部節(jié)點、枝干和葉子組成,把這樣由節(jié)點延伸的枝干畫出來,形成的圖像很像一棵樹,如圖所示,故稱為決策樹。
決策樹是一個預(yù)測模型,它代表的是對象屬性與對象值之間的一種映射關(guān)系,即一條枝干對應(yīng)一種結(jié)果。而枝干上的節(jié)點又分為:決策點、狀態(tài)節(jié)點、結(jié)果節(jié)點。決策點是面對幾種可能的方案做出選擇,最后選擇出最佳方案。狀態(tài)節(jié)點代表備選方案的期望值,通過期望值的對比,按照一定標準即可選出最佳方案。結(jié)果節(jié)點通俗來說就是樹的樹梢,即是在自然狀態(tài)下一條枝干延伸下來所得到的結(jié)果。
(二)決策樹的發(fā)展及歷史
決策樹根據(jù)選擇特征的評估標準,從上至下遞歸地生成。最早最常用的ID3算法利用計算出最大信息增益的方法來選取節(jié)點,但當ID3算法遇到某個具有相當多數(shù)據(jù)的特征時,其余的特征的數(shù)據(jù)很少,那么就會算出該特征的信息增益值最大,從而出現(xiàn)誤判的情況,但實際上是該節(jié)點的分支太多,而利用該算法的決策樹模型的泛化能力有限,判斷出了錯誤的節(jié)點。所以在此基礎(chǔ)上,ID3算法的創(chuàng)始人Quinlan又提出了C4.5算法,該算法提出了一個新的概念信息增益率,即信息增益與分裂信息值的比,利用此方法可以較有效地改進ID3算法出現(xiàn)的問題。決策樹的主要算法還包括CART算法,CART算法引進了基尼系數(shù)這個概念,基尼系數(shù)越小樣本的混亂度越小,從而選擇出節(jié)點,大大減少了計算量。本文將通過ID3算法選取決策樹模型的節(jié)點,實現(xiàn)對臭氧污染的預(yù)測。
(三)ID3算法模型
目前絕大多數(shù)決策樹算法是以著名的ID3算法和C4.5算法為基礎(chǔ),ID3算法通過循環(huán)處理,精益求精,不存在無解的風險。ID3算法的缺點是只能處理離散型屬性,并且傾向于選擇取值較多的屬性,否則效率會明顯下降。剪枝使決策樹停止分支的方法之一,可以消去能引起人滿意的不純度增長。而本文是基于ID3決策樹的臭氧污染預(yù)測模型。在決策樹算法中,ID3的算法應(yīng)用最為廣泛,該算法是一種基于奧卡姆剃刀原理的貪心算法,以信息論為基礎(chǔ),以信息熵的下降速度和信息增益度為衡量的標準,從而實現(xiàn)對數(shù)據(jù)的劃分和歸納。在信息論中期望信息越小,信息增益就越大,從而純度越高。假設(shè)一個隨機變量X的取值為X={...,},每取到一種x的概率為P,則,i=1,2,···,n,那么就是X的熵定義。熵越大,隨機變量的不確定性就越大,從而顯示了某樣本集的純度。表示在特征屬性下T的條件熵,則特征屬性T帶來的信息增益表示在T發(fā)生的情況下,S的有無帶來的信息值的差,用公式表示即為此公式則為信息增益的計算公式。
(四)構(gòu)造決策樹模型
本文選取了73種影響臭氧水平濃度的因素,是否有臭氧污染有兩種結(jié)果,有臭氧污染用數(shù)字1表示,沒有臭氧污染用數(shù)字0表示。
首先計算熵:Entropy(是否有臭氧污染),利用信息熵的計算公式計算出結(jié)果。
(1)
再計算各種劃分的信息熵,即各個分支的熵。以500hPa下的南北向風、北緯向風、K-指數(shù)、風暴強度、海平面壓力與降水量為例,下表是節(jié)選自數(shù)據(jù)集的部分數(shù)據(jù)
利用信息熵的計算公式
(2)
計算出各個因素的信息熵,并選取具有最大信息熵的因素T作為第一個節(jié)點。
3)運用選擇出的第一個節(jié)點的特征來做劃分時的信息增益值,即先計算在T發(fā)生的情況下,其余各特征的熵,然后再運用信息增益的計算公式:
(3)
算出各特征的信息增益值,并且選取具有最大的信息增益值的特征作為第二個節(jié)點。
4)依據(jù)上面的規(guī)則,遞歸地執(zhí)行得到一棵決策樹,得到的決策樹的模型框架如圖所示。
這樣,就得到了用決策樹對是否有臭氧污染進行預(yù)測的模型,即可以通過風速、溫度、海平面壓力、相對濕度、降水量等數(shù)據(jù)對當天是否有臭氧污染進行較為可靠合理的預(yù)測。
四、模型的改進
本文通過決策樹模型對當天是否有臭氧污染進行了預(yù)測。在建模的過程中,本文用數(shù)據(jù)集中百分之七十的數(shù)據(jù)進行建模,又利用剩余的百分之三十的訓(xùn)練數(shù)據(jù)對模型進行了檢測,發(fā)現(xiàn)正確率非常大,但當本文利用測試數(shù)據(jù)對決策樹模型進行檢測時發(fā)現(xiàn)錯誤率較高。經(jīng)過對數(shù)據(jù)集的分析以及大量查找相關(guān)資料本文發(fā)現(xiàn),該模型有極大可能發(fā)生了過擬合。其原因很有可能是本文的數(shù)據(jù)集中存在噪聲數(shù)據(jù),即本數(shù)據(jù)集中存在異常數(shù)據(jù)。于是,本文對異常數(shù)據(jù)進行了有效的處理,刪除了異常數(shù)據(jù),重新利用數(shù)據(jù)集建立了決策樹模型。本文對模型又進行了剪枝的改進。剪枝是一種改進決策樹模型的常用的方式。利用損失函數(shù)最小原則,計算子枝干的損失函數(shù)值和父枝干的損失函數(shù)值,若子枝干的損失函數(shù)值大于父枝干的損失函數(shù)值,則對該枝干進行剪枝,以保證減小決策樹模型的復(fù)雜度。在進行了模型的改進后,利用訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)對該模型進行檢測,發(fā)現(xiàn)該模型的正確率已經(jīng)達到了相當高的值。
五、結(jié)語與展望
本文利用數(shù)據(jù)集中2535個數(shù)據(jù)建立了決策樹模型,在建立模型后,發(fā)現(xiàn)模型與測試數(shù)據(jù)間有誤差,于是本文又通過剪枝,處理異常數(shù)據(jù)對模型進行了改進,使決策樹模型更加簡潔明了又準確可靠。決策樹模型最大的優(yōu)點是效率高,可以反復(fù)使用,但決策樹模型存在當特征太多時,出現(xiàn)錯誤的速率也比較大。之后,本文將會利用更多的模型,利用溫度、風速、海平面壓力、降水量、相對濕度等數(shù)據(jù)對是否有臭氧污染進行更加合理的預(yù)測。本文相信,利用決策樹模型對是否有臭氧污染進行預(yù)測將會對臭氧水平濃度的檢測與臭氧污染的防范有大幅度幫助。
參考文獻
[1] 石曉榮.水中臭氧濃度的檢測方法[N].河海大學(xué)常州分校學(xué)報.2007,3.
[2] 李明.決策樹算法在銀行電話營銷中的應(yīng)用[D].華中科技大學(xué),2016.
[3] 李杰.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用研究[D].西安石油大學(xué),2010.
[4] 韓麗娜.決策樹算法在學(xué)生成績分析中的應(yīng)用研究[D].咸陽師范學(xué)院圖形圖像處理研究所,2017.
[5] 龍青云.基于決策樹挖掘算法的智能型會員營銷[D].上海商學(xué)院,2007.