• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隨機(jī)森林算法的城市空氣質(zhì)量評(píng)價(jià)研究*

      2023-05-10 08:18:36
      關(guān)鍵詞:決策樹空氣質(zhì)量重要性

      尤 游

      (安徽機(jī)電職業(yè)技術(shù)學(xué)院公共基礎(chǔ)教學(xué)部 安徽蕪湖 241000)

      隨著我國(guó)城市經(jīng)濟(jì)的高速發(fā)展和人民生活水平的提高,空氣質(zhì)量問題越來越受到全社會(huì)的廣泛關(guān)注。近些年來,城市霧霾天氣頻繁出現(xiàn),所引發(fā)的空氣污染已經(jīng)嚴(yán)重危害人們的工作生活,長(zhǎng)期發(fā)展下去將會(huì)破壞生態(tài)平衡,同時(shí)也在一定程度上制約了城市的可持續(xù)發(fā)展[1]。為了加強(qiáng)空氣污染防控治理,促進(jìn)生態(tài)文明建設(shè),2018年國(guó)務(wù)院發(fā)布了《打贏藍(lán)天保衛(wèi)戰(zhàn)三年行動(dòng)計(jì)劃》[2],進(jìn)一步擴(kuò)大了城市空氣質(zhì)量監(jiān)測(cè)范圍,在全國(guó)范圍內(nèi)將城市空氣質(zhì)量排名由原來的74個(gè)城市擴(kuò)充到168個(gè)城市。因此針對(duì)全國(guó)168個(gè)重點(diǎn)環(huán)保城市進(jìn)行空氣質(zhì)量評(píng)價(jià),探索構(gòu)建科學(xué)便捷高效的空氣質(zhì)量評(píng)價(jià)模型具有一定的代表性和參考價(jià)值,能夠?yàn)橄嚓P(guān)環(huán)保部門治理大氣污染提供理論決策依據(jù)[3]。

      城市空氣質(zhì)量的好壞不僅與污染物(PM2.5、PM10、CO、NO2、SO2、O3)濃度有關(guān),還包含氣象因素如氣溫、降水量、風(fēng)速、濕度、日照時(shí)數(shù)等以及其他一些不可控因素。針對(duì)城市空氣質(zhì)量評(píng)價(jià),常用的模型如回歸模型、模糊綜合評(píng)價(jià)模型、聚類模型、ARIMA模型、BP神經(jīng)網(wǎng)絡(luò)等等。但隨著科技的發(fā)展,監(jiān)測(cè)技術(shù)和監(jiān)測(cè)水平不斷提升,空氣質(zhì)量數(shù)據(jù)逐漸呈現(xiàn)樣本量大幅增長(zhǎng)、特征屬性復(fù)雜多樣的特征,從而導(dǎo)致傳統(tǒng)評(píng)價(jià)模型的弊端日益突顯,已經(jīng)不能滿足大數(shù)據(jù)時(shí)代的評(píng)價(jià)需求[3]。近些年來,由于人工智能的興起,機(jī)器學(xué)習(xí)越來越受到國(guó)內(nèi)外學(xué)者的青睞。機(jī)器學(xué)習(xí)包含多個(gè)分支,如隨機(jī)森林、決策樹、支持向量機(jī)、樸素貝葉斯、邏輯回歸、聚類、規(guī)則學(xué)習(xí)等[4-5]。目前機(jī)器學(xué)習(xí)已經(jīng)廣泛應(yīng)用于金融、工業(yè)技術(shù)、生物醫(yī)學(xué)、化工、新能源、網(wǎng)絡(luò)安全等眾多領(lǐng)域,機(jī)器學(xué)習(xí)算法的普及和推廣給城市空氣質(zhì)量評(píng)價(jià)提供了新思路和新方向。

      這里,隨機(jī)森林(random forests,RF)是由美國(guó)Leo Breiman教授于2001年提出的一種機(jī)器學(xué)習(xí)算法。該算法包含多個(gè)決策樹模型,且這些決策樹通過選擇最優(yōu)特征屬性進(jìn)行節(jié)點(diǎn)分支。隨機(jī)森林的優(yōu)點(diǎn)在于能夠處理海量監(jiān)測(cè)數(shù)據(jù),并且由于其訓(xùn)練樣本選擇和特征屬性抽取的雙重隨機(jī)性,所以評(píng)價(jià)過程中無需考慮變量間的多重共線性,且避免了過擬合現(xiàn)象的發(fā)生,能夠增強(qiáng)模型的泛化能力。

      另外,由于bagging基本思想和決策樹的組合優(yōu)勢(shì),隨機(jī)森林避免了局部最優(yōu)解,其模型精度遠(yuǎn)高于單個(gè)決策樹模型。所以基于城市空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)的大樣本特征和特征屬性的復(fù)雜程度,利用隨機(jī)森林算法來研究空氣污染問題具有一定的可行性和前瞻性。

      1 隨機(jī)森林相關(guān)理論

      1.1 隨機(jī)森林分類

      隨機(jī)森林算法可以用于分類和回歸,其中隨機(jī)森林分類是基于原始樣本集通過Bootstrap抽樣法抽取樣本子集構(gòu)建多棵決策樹,最終通過眾數(shù)投票的方式來決定最優(yōu)分類決策結(jié)果。其構(gòu)建過程如圖1所示,具體步驟如下[6-7]:

      圖1 隨機(jī)森林分類模型構(gòu)建流程

      (1)利用Bootstrap抽樣法即重抽樣的方式,從原始訓(xùn)練樣本集T中隨機(jī)抽取t個(gè)相互獨(dú)立的樣本,這些樣本構(gòu)成新的訓(xùn)練子集,按照這樣有放回的抽樣k次,即獲得k個(gè)相互獨(dú)立的樣本訓(xùn)練子集。

      (2)針對(duì)隨機(jī)抽取的訓(xùn)練樣本子集開始構(gòu)建k棵決策樹,這里樣本的所有N個(gè)特征屬性并不全部參與節(jié)點(diǎn)分裂,而是隨機(jī)選擇其中n(n≤N)個(gè)屬性作為分裂特征集,然后從特征子集里選取最優(yōu)特征進(jìn)行節(jié)點(diǎn)分裂,且由于抽樣的隨機(jī)性所以每棵決策樹在節(jié)點(diǎn)優(yōu)化前不需要剪枝處理而是讓其最大程度的自由完整生長(zhǎng),這樣產(chǎn)生的決策樹集合就形成“森林”。

      (3)生成的決策樹模型包含了訓(xùn)練樣本子集的分類準(zhǔn)則和分類結(jié)果,可以依據(jù)該分類模型按照眾數(shù)投票的方式來判別測(cè)試樣本的類別。這里模型的分類決策結(jié)果為:

      (1)

      式(1)中,φp(x)表示單棵決策樹的輸出結(jié)果,φ表示分類類型,k表示決策樹的個(gè)數(shù),I表示線性函數(shù)。

      1.2 影響因素重要性評(píng)價(jià)

      隨機(jī)森林算法可以利用袋外數(shù)據(jù)對(duì)各解釋變量的重要性程度進(jìn)行評(píng)價(jià)排序,其原理主要基于變量隨機(jī)置換后均方誤差減小量來衡量變量間的重要性[8-9]。具體步驟如下[8-10]:

      (1)類似于隨機(jī)森林分類,利用Bootstrap抽樣法從原始訓(xùn)練樣本集T中抽取k個(gè)訓(xùn)練樣本子集來構(gòu)建決策樹模型。由于隨機(jī)重采樣的特性,所以會(huì)導(dǎo)致部分樣本一直未抽中,當(dāng)抽取的次數(shù)k趨向于無窮大時(shí),即

      (2)

      意味著大約36.8%的樣本從未被抽中,這部分樣本通常稱為袋外數(shù)據(jù)(Out Of Bag,OOB)[5,11]。袋外數(shù)據(jù)可以作為測(cè)試樣本集來驗(yàn)證模型的精度。將袋外數(shù)據(jù)代入隨機(jī)森林模型進(jìn)行計(jì)算,可以得到對(duì)應(yīng)的均方誤差向量{MSEq},其中q=1,2,…,b。

      (2)由于隨機(jī)森林特征屬性抽取的隨機(jī)性,所以每個(gè)變量Xp在OOB中可以被隨機(jī)置換(隨機(jī)改變特征值),形成新的OOB測(cè)試樣本集,按照步驟1的方法重新代入隨機(jī)森林模型進(jìn)行驗(yàn)證,可以獲得特征改變后的OOB均方誤差矩陣{MSEpq},如下式(3)所示,其中p=1,2,…,m,q=1,2,…,b。

      (3)

      (3)用置換前的均方誤差向量{MSEq}與置換后均方誤差矩陣{MSEpq}的第p行向量對(duì)應(yīng)相減,平均后再除以標(biāo)準(zhǔn)誤差就可以獲得每個(gè)變量的特征重要性量化指數(shù)FI:

      (4)

      2 變量選取和數(shù)據(jù)來源

      該研究以全國(guó)168個(gè)重點(diǎn)環(huán)保城市為研究對(duì)象,選取X1,X2,…,X11等11個(gè)指標(biāo),包含6種空氣污染物濃度和5種氣象因素,分別為二氧化硫(SO2)年平均濃度(ug/m3)、二氧化氮(NO2)年平均濃度(ug/m3)、可吸入顆粒物(PM10)年平均濃度(ug/m3)、一氧化碳(CO)日均值第95百分位濃度(mg/m3)、臭氧(O3)日最大8小時(shí)第90百分位濃度(ug/m3)、細(xì)顆粒物(PM2.5)年平均濃度(ug/m3)、平均氣溫(℃)、年降水量(mm)、平均風(fēng)速(m/s)、年平均相對(duì)濕度(%)、日照時(shí)數(shù)(h),同時(shí)城市空氣質(zhì)量等級(jí)分類依據(jù)空氣質(zhì)量?jī)?yōu)良天數(shù)比例(%)來劃分,具體如表1所示。

      表1 空氣質(zhì)量影響因素列表

      文中數(shù)據(jù)來源于2021年中國(guó)統(tǒng)計(jì)年鑒、各省市統(tǒng)計(jì)年鑒和相關(guān)氣象網(wǎng)站,通過搜集整理獲得168個(gè)城市的2020年空氣質(zhì)量影響指標(biāo)數(shù)據(jù)和優(yōu)良天數(shù)比例。依據(jù)數(shù)據(jù)查詢結(jié)果并結(jié)合《2020年中國(guó)生態(tài)環(huán)境狀況公報(bào)》可以了解到2020年全國(guó)168個(gè)重點(diǎn)環(huán)保城市平均優(yōu)良天數(shù)比例為80.7%,某些重點(diǎn)區(qū)域如京津冀及周邊地區(qū)平均優(yōu)良天數(shù)比例為63.5%,長(zhǎng)三角地區(qū)平均優(yōu)良天數(shù)比例為85.2%,汾渭平原平均優(yōu)良天數(shù)比例為70.6%[12]。

      根據(jù)2020年生態(tài)環(huán)境部公布的全國(guó)168個(gè)重點(diǎn)環(huán)保城市空氣質(zhì)量排名情況,海口、拉薩、舟山、廈門、黃山、深圳、麗水、福州、惠州和貴陽(yáng)等10個(gè)城市空氣質(zhì)量最好(排名前10),而后10名城市依次是安陽(yáng)、石家莊、太原、唐山、邯鄲、臨汾、淄博、邢臺(tái)、鶴壁和焦作。

      3 模型構(gòu)建及仿真結(jié)果分析

      3.1 隨機(jī)森林分類結(jié)果分析

      基于全國(guó)168個(gè)重點(diǎn)環(huán)保城市統(tǒng)計(jì)出的樣本數(shù)據(jù),根據(jù)空氣質(zhì)量?jī)?yōu)良天數(shù)比例分為三類,當(dāng)優(yōu)良天數(shù)比例大于等于90%時(shí)屬于第一類,75%-90%之間屬于第二類,小于等于75%時(shí)認(rèn)為是第三類。依據(jù)以上比例,三類城市所屬類別個(gè)數(shù)依次為43、69和56。這里按照7:3的比例將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。

      下面利用MATLAB軟件的fitctree()函數(shù)對(duì)訓(xùn)練集118個(gè)樣本城市數(shù)據(jù)進(jìn)行分類,采用的是CART決策樹算法[13]。該算法在每個(gè)節(jié)點(diǎn)分支上只考慮二元?jiǎng)澐?,所以?gòu)建的決策樹屬于二元決策樹[1]。決策樹的特征屬性為6種空氣污染物(S02、N02、PM10、CO、O3、PM2.5)濃度,訓(xùn)練得到的決策樹模型如圖2所示。

      圖2 空氣質(zhì)量類別決策樹分類

      在此基礎(chǔ)上對(duì)測(cè)試集的50個(gè)樣本數(shù)據(jù)進(jìn)行分類判別,得到的分類模型混淆矩陣如表2所示,統(tǒng)計(jì)出測(cè)試樣本集得到正確分類的為45個(gè),分類總體正確率為90%。

      表2 隨機(jī)森林分類模型混淆矩陣表

      3.2 基于隨機(jī)森林空氣質(zhì)量影響因素重要性評(píng)價(jià)

      基于168個(gè)城市樣本數(shù)據(jù)進(jìn)行空氣質(zhì)量影響因素重要性評(píng)價(jià),將SO2、NO2、PM10、CO、O3、PM2.5、平均氣溫、年降水量、平均風(fēng)速、年平均相對(duì)濕度、年日照時(shí)數(shù)等11組自變量數(shù)據(jù)作為模型的輸入變量,將因變量數(shù)據(jù)空氣質(zhì)量?jī)?yōu)良天數(shù)比例作為模型的輸出變量。為了科學(xué)評(píng)價(jià)11個(gè)影響因素的重要性程度,將采用MATLAB軟件進(jìn)行仿真訓(xùn)練。

      首先確定最優(yōu)葉子節(jié)點(diǎn)數(shù)和決策樹的個(gè)數(shù)[14]:先設(shè)置初始葉子節(jié)點(diǎn)數(shù)分別為5,10,20,50,100,200,500,通過均方誤差的大小來判斷最優(yōu)節(jié)點(diǎn)數(shù)。訓(xùn)練結(jié)果如圖3所示,均方誤差最低的線是紅色的,所以認(rèn)為當(dāng)葉子節(jié)點(diǎn)數(shù)為5時(shí)模型精度最佳。在此基礎(chǔ)上繼續(xù)觀察決策樹個(gè)數(shù)對(duì)均方誤差的影響,可以看出當(dāng)決策樹個(gè)數(shù)近似到100時(shí)其均方誤差不再下降,此時(shí)幾乎趨于穩(wěn)定。所以綜合分析認(rèn)為當(dāng)葉子節(jié)點(diǎn)數(shù)為5、決策樹個(gè)數(shù)為100時(shí)隨機(jī)森林模型的性能最優(yōu)。

      圖3 均方誤差曲線圖

      接下來進(jìn)行影響因素重要性評(píng)價(jià),這里重要性程度通過feature importances來描述,且將各個(gè)因素對(duì)空氣質(zhì)量的影響程度歸一到(0,1)區(qū)間來量化。訓(xùn)練得到基于隨機(jī)森林的空氣質(zhì)量影響因素重要性程度排序情況如圖4所示。

      圖4 空氣質(zhì)量影響因素重要性排序柱狀圖

      由圖4可知11個(gè)影響因素重要性程度從高到低排序依次為PM2.5、PM10、O3、CO、平均氣溫、年降水量、年日照時(shí)數(shù)、NO2、年平均相對(duì)濕度、SO2和平均風(fēng)速,其中PM2.5、PM10和O3的影響程度均超過0.7,是影響空氣質(zhì)量最主要的污染源。

      4 結(jié)語(yǔ)

      文章通過收集全國(guó)168個(gè)重點(diǎn)環(huán)保城市空氣質(zhì)量影響指標(biāo)數(shù)據(jù),利用機(jī)器學(xué)習(xí)中的隨機(jī)森林算法對(duì)空氣質(zhì)量等級(jí)進(jìn)行分類決策,得到測(cè)試樣本集的分類準(zhǔn)確率為90%[15]。在此基礎(chǔ)上可以根據(jù)構(gòu)建的決策樹模型對(duì)其他待判城市進(jìn)行評(píng)價(jià),快速獲得其空氣質(zhì)量類別。進(jìn)一步對(duì)城市空氣質(zhì)量的11個(gè)影響因素進(jìn)行重要性評(píng)價(jià)排序,科學(xué)鎖定主要污染源為PM2.5、PM10和O3,幫助政府和相關(guān)環(huán)保部門有針對(duì)性的采取空氣污染防控治理措施,以此改善生態(tài)環(huán)境。該模型可以實(shí)時(shí)有效評(píng)價(jià)城市空氣質(zhì)量類別,促進(jìn)空氣污染智能監(jiān)測(cè)、分析研判和綜合治理水平的提升,推進(jìn)區(qū)域間環(huán)境治理的聯(lián)防聯(lián)控。

      猜你喜歡
      決策樹空氣質(zhì)量重要性
      “0”的重要性
      論七分飽之重要性
      幼兒教育中閱讀的重要性
      甘肅教育(2020年21期)2020-04-13 08:09:24
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      “空氣質(zhì)量發(fā)布”APP上線
      車內(nèi)空氣質(zhì)量標(biāo)準(zhǔn)進(jìn)展
      汽車與安全(2016年5期)2016-12-01 05:22:14
      重視車內(nèi)空氣質(zhì)量工作 制造更環(huán)保、更清潔、更健康的汽車
      汽車與安全(2016年5期)2016-12-01 05:22:13
      開展“大氣污染執(zhí)法年”行動(dòng) 加快推動(dòng)空氣質(zhì)量改善
      基于決策樹的出租車乘客出行目的識(shí)別
      安阳市| 大英县| 贵德县| 固镇县| 合山市| 习水县| 乌什县| 龙泉市| 剑川县| 呼图壁县| 上思县| 任丘市| 新沂市| 武宣县| 福清市| 邻水| 牟定县| 南皮县| 静宁县| 岳阳市| 南京市| 包头市| 建昌县| 昌吉市| 邵阳市| 灵宝市| 秭归县| 乌拉特前旗| 常宁市| 分宜县| 陈巴尔虎旗| 盐津县| 镇雄县| 乌拉特后旗| 嘉兴市| 平乐县| 云林县| 法库县| 仙桃市| 神池县| 汕尾市|