許鎮(zhèn)義,王仁軍,張聰,王瑞賓,夏秀山
(1.合肥綜合性國家科學(xué)中心人工智能研究院,合肥 230088;2.安徽大學(xué),計算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601;3.合肥市生態(tài)環(huán)境局,合肥 230601;4.中國科學(xué)技術(shù)大學(xué),先進(jìn)技術(shù)研究院,合肥 230088)
隨著國民經(jīng)濟(jì)水平的提高,機(jī)動車輛不斷普及,持續(xù)增加的保有量使機(jī)動車排放的大量尾氣成為城市污染的主要來源之一[1]。公安部交通管理局發(fā)布,截止2020年底,全國機(jī)動車保有量達(dá)3.72億輛,其中,汽車2.81 億輛。由于高排放移動污染源對城市空氣質(zhì)量構(gòu)成巨大威脅,而被視為重點研究對象。
根據(jù)車輛數(shù)據(jù)處理方法的不同,高排放移動源識別主要分為傳統(tǒng)的基于統(tǒng)計限值設(shè)定方法和基于機(jī)器學(xué)習(xí)的自動分類方法。本質(zhì)上,統(tǒng)計學(xué)方法處理的是低維、簡單的車輛監(jiān)測數(shù)據(jù),例如,COx、NOx等尾氣的濃度值。根據(jù)統(tǒng)計結(jié)果,設(shè)定閾值劃分高排放車輛和普通車輛。機(jī)器學(xué)習(xí)方法應(yīng)對的是高緯、復(fù)雜的車輛監(jiān)測數(shù)據(jù),不僅包含污染氣體的濃度值,還包括其他屬性數(shù)據(jù),例如,VSP、車速、加速度等。通過借助計算機(jī)的算法和算力,可以發(fā)現(xiàn)車輛監(jiān)測數(shù)據(jù)的內(nèi)在聯(lián)系和規(guī)律,從而科學(xué)地劃分車輛排放類別。
在傳統(tǒng)的高排放源識別過程中,通過對CO、HC、NO 等污染物設(shè)定特定的百分比或者濃度值,判定車輛是否屬于超排放。例如,文獻(xiàn)[2]在高排放遙感檢測中設(shè)定CO、HC、NO 的切割點分別為:3%、0.05%、0.2%,并且在201504 個遙感數(shù)據(jù)中確定了1373 個高排放目標(biāo)。文獻(xiàn)[3]中,根據(jù)包含NO/CO2、HC/CO2、CO/CO2的比值統(tǒng)計結(jié)果,確定污染物排放閾值,即以5%的高排放比例劃分閾值。
上述研究屬于采取預(yù)先設(shè)定閾值的方式將車輛劃分成高排放和普通排放車輛。這種方式依賴于人工經(jīng)驗判定,難以適應(yīng)數(shù)據(jù)集的分布變化[4]。
在實際的機(jī)動車尾氣排放檢測工作中,氣體濃度不但隨自身車長、車重、速度及加速度的變化而變化,而且還受風(fēng)速、溫度、空氣濕度等環(huán)境因素的影響。道路遙感監(jiān)測裝置由于采取的是非接觸式測量技術(shù),不妨礙車輛的正常行駛,因此,具備高效快捷、尾氣濃度反應(yīng)靈敏等特點。同時,使得監(jiān)測效果受到環(huán)境因素影響較大,導(dǎo)致數(shù)據(jù)穩(wěn)定性不足。因此,在對高排放移動源的污染排放識別過程中,分析外部因素對檢測數(shù)據(jù)的影響十分必要。
本文不僅考慮移動源自身屬性對污染氣體排放的影響,同時,還注意到外部環(huán)境因素的影響。本文的實驗數(shù)據(jù)由道路遙感檢測裝置采集得到。由于遙測數(shù)據(jù)的復(fù)雜性,本文利用機(jī)器學(xué)習(xí)領(lǐng)域的方法分析數(shù)據(jù),提出基于深度特征聚類的高排放移動污染源自動識別方法。
本文的難點來自于兩方面:一是影響污染物排放的特征屬性較多,使車輛數(shù)據(jù)分析的工作量較大;二是如何確定高排放移動源的類別標(biāo)簽以及實現(xiàn)高排放源的自動識別。
為解決以上問題,本文提出了一種新的解決方法。主要的貢獻(xiàn)如下:
(1)使用隨機(jī)森林實現(xiàn)特征選擇,篩選出污染氣體排放濃度的主要影響特征。
(2)由于移動污染源數(shù)據(jù)是無標(biāo)簽的,本文提出一種基于深度特征聚類的方法確定高排放類別標(biāo)簽,利用自適應(yīng)的K-means聚類算法對污染物的多種影響特征進(jìn)行深度聚類。
(3)考慮道路移動源排放分布的高度偏斜性,即高排放類別樣本稀缺,本文采用一種基于樣本平衡策略的深度森林分類模型,實現(xiàn)對高排放移動源的自動識別。
本文所提方法的具體過程及原理包括:隨機(jī)森林特征選擇、高排放類別標(biāo)簽的獲取、深度森林分類預(yù)測模型;在車輛排放數(shù)據(jù)集上進(jìn)行大量實驗,驗證基于深度森林的高排放識別模型的有效性。
在使用機(jī)器學(xué)習(xí)方法識別高排放移動源的工作中,GUO 等[5]建立了一種反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)模型預(yù)測高排放污染源,將加速度、速度、煙羽和多種污染氣體等屬性作為輸入特征。JUN等[6]創(chuàng)建了一種改進(jìn)策略的高排放預(yù)測神經(jīng)網(wǎng)絡(luò),引入KNN 和遺傳算法,分別用來剔除異常樣本點和優(yōu)化網(wǎng)絡(luò)初始權(quán)值。但是,遙測數(shù)據(jù)集中本身具有高排放和普通排放的類別標(biāo)簽,且標(biāo)簽是依據(jù)傳統(tǒng)設(shè)定閾值的方式劃分得到的。同時,實驗數(shù)據(jù)針對的是小型車型——出租車,對在路行駛的車輛不具備很好的代表性。
在沒有類別標(biāo)簽的情況下,XIE 等[7]提出一種根據(jù)CO、HC、NO 濃度值自動產(chǎn)生判定閾值的算法,采用K-medoids 聚類算法對道路遙測數(shù)據(jù)進(jìn)行聚類和標(biāo)記,并利用KNN 算法檢測高排放源。然而,這種方法只針對污染物測量值進(jìn)行分析,并沒有考慮外部屬性測量數(shù)據(jù)。在高排放類別標(biāo)簽稀少的情況下,KANG 等[8]利用半監(jiān)督學(xué)習(xí)方法擴(kuò)增有標(biāo)簽數(shù)據(jù)集,同時,分別構(gòu)建基于單分類支持向量機(jī)(OC-SVM)和半監(jiān)督單分類支持向量機(jī)(S2-OCSVM)的高排放源識別模型。
在實現(xiàn)高排放源自動識別的過程中,核心是獲取高排放類別標(biāo)簽。本文利用聚類算法將移動源數(shù)據(jù)集劃分成多個類別,然后經(jīng)過數(shù)據(jù)分析明確高排放源所對應(yīng)的類別。由于沒有任何一種聚類算法可以普遍適用于所有的多維數(shù)據(jù)集,從而展現(xiàn)出它們豐富多樣的結(jié)構(gòu)[9],因此,本文采用自適應(yīng)聚類算法。聚類算法一般可劃分4 種類型,分別為:層次化聚類算法,基于密度和網(wǎng)格的聚類算法,劃分式聚類算法和其他聚類算法[10]。層次化聚類通過一定的聯(lián)接規(guī)則將數(shù)據(jù)集劃分出多個層次,形成樹形的聚類結(jié)構(gòu);但是,這種算法具有較高的時間復(fù)雜度O(n2);并且,由于它是一種貪心算法,往往很難實現(xiàn)全局最優(yōu)?;诿芏鹊木垲愅ㄟ^數(shù)據(jù)分布的緊密程度劃分類簇;基于網(wǎng)格的聚類是將空間量化為有限的單元,形成一個網(wǎng)格,再根據(jù)樣本密度對網(wǎng)格單元進(jìn)行聚類。通常,基于網(wǎng)格的聚類算法會和其他方法結(jié)合使用,尤其是與基于密度的聚類方法結(jié)合。 DBSCAN (Density- Based Spatial Clustering of Applications with Noise),OPTICS(Ordering Points to identify the clustering structure),DENCLUE(Density Clustering)等都屬于經(jīng)典的基于密度的聚類算法,但對超參數(shù)-半徑和密度閾值是十分敏感的。劃分式聚類算法是數(shù)據(jù)樣本點圍繞簇中心進(jìn)行劃分,迭代簇中心的更新與樣本點的劃分,直到兩者不再發(fā)生變化。常見的劃分式聚類算法有:K-means,K-medoids 和K-means++等。它們生成或更新簇中心的方式不同,并且都需要預(yù)設(shè)簇別個數(shù)。K-means算法的時間復(fù)雜度較低,聚類效率較高。除上述聚類算法外,都屬于其他類算法,例如,高斯混合模型,利用概率模型劃分類別。
本文采用K-means聚類算法,對多種影響污染物排放的外部影響因素綜合考慮,將CO、HC、NO和各自的主要影響因素進(jìn)行深度特征聚類,經(jīng)分析后獲取不同氣體的高排放標(biāo)簽,再采用基于深度集成學(xué)習(xí)的深度森林算法實現(xiàn)高排放源的自動識別。
本文提出一種考慮外界影響因素的高排放移動源的自動識別方法(Automatic Identification of High-emitting Vehicle Based on Deep Feature Clustering,AIHEV-DFC)。首先,使用隨機(jī)森林算法計算初步采集的包含CO、HC、NO和多個影響屬性(例如,使用時間、車重、車速等)的尾氣遙測數(shù)據(jù)集,得到各屬性對污染物排放的影響比例,并篩選出各污染物的主要影響特征;然后,利用K-means算法聚類各污染物主要影響特征數(shù)據(jù)集,并經(jīng)過分析得到高排放類別標(biāo)簽;最后,更新特征數(shù)據(jù)集為高排放和低排放類別并使用SMOTE方法解決兩個類別樣本的不平衡問題,進(jìn)而訓(xùn)練深度森林高排放源分類模型,并在測試集上驗證。AIHEV-DFC 流程如圖1所示。
圖1 基于深度特征聚類的高排放移動源自動識別方法結(jié)構(gòu)Fig.1 Architecture of method for AIHEV-DFC
移動源污染物排放受多種因素影響,在文獻(xiàn)[11]的基礎(chǔ)上,初步篩選出車輛基準(zhǔn)質(zhì)量,行駛速度,行駛加速度,VSP,風(fēng)速,風(fēng)向,氣溫,濕度,大氣壓,車身長度,使用年限及CO、HC、NO的實測濃度等多個屬性。相關(guān)屬性符號說明如表1所示。
表1 影響因素符號Table 1 Symbols of influencing factors
本文所用尾氣遙感監(jiān)測數(shù)據(jù),是由布設(shè)在合肥市蜀山區(qū)仰橋路的尾氣遙感監(jiān)測設(shè)備采集的2017年5月1~31日的55211條有效遙測數(shù)據(jù),經(jīng)車輛年檢站匹配預(yù)處理后保留了3491條有效的實驗建模數(shù)據(jù)。所采集的數(shù)據(jù)共16個屬性,其中,包括上面介紹的車輛基準(zhǔn)質(zhì)量,行駛速度,行駛加速度,VSP,風(fēng)速,風(fēng)向,氣溫,濕度,大氣壓,車身長度,使用年限及CO、HC、NO 的實測濃度等11 個屬性,還包括設(shè)備號、檢測車輛的通過時間、車牌號碼、車輛顏色、識別置信度等5個屬性。相關(guān)屬性的描述性統(tǒng)計分析結(jié)果如表2所示。
表2 相關(guān)屬性的描述性統(tǒng)計Table 2 Descriptive statistics of relevant attributes
影響污染物排放的特征屬性不僅維度高,而且對各污染物排放的影響程度也不盡相同。因此,通過隨機(jī)森林算法計算出各因素的重要性比例,完成特征選擇。
計算步驟如下:
Step 1 輸入污染物數(shù)據(jù)樣本N和影響特征M。
Step 2 對輸入樣本進(jìn)行bootstrap采樣,同時對影響特征M隨機(jī)采樣,使用Gini 指數(shù)選擇劃分屬性并采用完全分裂的方式構(gòu)造決策樹。
Step 3 重復(fù)Step 2構(gòu)建K棵決策樹組成森林,計算每棵決策樹的袋外數(shù)據(jù)誤差,Eerror1,Eerror2,…,EerrorK。
Step 4 隨機(jī)對OOB(Out of Bag)數(shù)據(jù)中某個影響特征xi加入噪聲干擾值,再次計算袋外數(shù)據(jù)誤差,E′error1,E′error2,…,E′errorK。
Step 5 影響特征xi的重要性比例為
各屬性對污染物CO、HC、NO的排放影響比例計算結(jié)果如表3所示,可視化如圖2所示。
圖2 各影響因素的重要性比例柱狀圖Fig.2 Importance percentages of attributes
本文選取影響比例不低于平均值的屬性作為各污染物的主要影響因素。選擇條件為
式中:i為第i種污染物,i=1,2,3,分別對應(yīng)表3中的3 種污染物CO、HC、NO;j為第j種影響屬性,j=1,2,…,11,分別對應(yīng)表3中的各屬性;λi,j為第i種污染物第j個屬性的影響比例;α為影響比例平均值,即α=1/11 ≈0.090901。
表3 各屬性對污染物排放的重要性占比Table 3 Importance ratio of each attribute to pollutant emissions
從重要性統(tǒng)計結(jié)果中得出結(jié)論:車長對各污染物排放的影響比例最高。對于CO 排放而言,整體上各個屬性影響程度較為接近;對于HC 和NO 而言,車長、基準(zhǔn)質(zhì)量的影響比重較大,其余多數(shù)屬性影響比重較小且接近。表明:不同類型污染物的外部影響因素并不完全相同,因此,主要影響特征也不完全相同,需要獨立分析;車長較長、質(zhì)量較大的車型(例如,貨車)成為高排放源的可能性更大,因此,很難設(shè)立統(tǒng)一的標(biāo)準(zhǔn)(例如,排放閾值)適用于所有車輛;溫度、風(fēng)向等環(huán)境因素對污染物排放的影響在分析與研究中不可被忽視。
通過隨機(jī)森林選擇出各污染物排放的主要影響屬性后,分別對各污染物(CO、HC、NO)和其主要影響屬性組成的數(shù)據(jù)集進(jìn)行聚類分析,得到高排放移動源的類別標(biāo)簽。首先,對數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,目的是消除不同屬性之間量綱的影響;然后,使用自適應(yīng)聚類算法K-means、K-medoids、K-means++對數(shù)據(jù)集進(jìn)行聚類,并借助DBI(Davies-Bouldin Index)作為衡量指標(biāo)確定一種效果最佳的聚類算法;最后,繪制不同簇別所對應(yīng)的污染物排放正態(tài)分布曲線,標(biāo)記高排放類別。
標(biāo)準(zhǔn)化處理方式為
式中:i=1,2,3;j=1,2,…,n;μj為第j列的均值;σj為第j列的標(biāo)準(zhǔn)差。
K-means 算法被用來對污染物數(shù)據(jù)進(jìn)行聚類。與其他劃分式的聚類算法相比,K-means算法與K-medoids算法的區(qū)別在于簇中心u的選擇方式上,簇中心u的表述形式為
式中:Dk為第k類樣本點的集合,xi與xj為Dk中不同的樣本點;Nk為Dk中樣本點的數(shù)量。相較于K-medoids,使用K-means可以具有更高的效率。
K-means++算法確定k個簇中心的思想:首先,隨機(jī)選取第1 個簇中心;之后,選取的第n個簇中心(2 ≤n≤k)應(yīng)選擇距離前n-1 個簇中心較遠(yuǎn)的樣本點,即距離前n-1 個簇中心越遠(yuǎn)的點被選中作為第n個簇中心的概率越大。
本文使用DBI 衡量聚類結(jié)果的有效性。DBI通過計算距離度量相同類之間的相似性、不同類之間的差異性,計算方式為
式中:k為簇別數(shù);Cθ(θ=i,j)為類θ樣本點,avg(Cθ)為類θ樣本點與其簇中心uθ的歐式距離平均值;dcen(ui,uj)為第i類簇中心ui與第j類簇中心uj之間的歐式距離。DBI越小,表示相同類之間的相似性越高、不同類之間的差異性越大,聚類效果越好。
聚類之后,通過擬合不同污染物各個聚類類別擬合的正態(tài)分布曲線確定高排放移動污染源所對應(yīng)的類別。正態(tài)分布函數(shù)表達(dá)式為
式中:x為污染物的測量值;μ為污染物濃度的平均值;σ為污染物濃度的標(biāo)準(zhǔn)差。
不同聚類算法在污染物及其屬性特征數(shù)據(jù)集上計算得到的DBI 值如表4所示。通過比較,Kmeans算法在數(shù)據(jù)集上的表現(xiàn)更優(yōu)異一些。
表4 各聚類算法的DBI值比較Table 4 DBI of various clustering algorithms
鑒于數(shù)據(jù)集的特征維度較高,因此,采用T-sne降維顯示以便于聚類效果可視化。污染物CO、HC、NO采用K-means算法聚類后的可視化效果及正態(tài)分布曲線如圖3所示。
圖3中clu0、clu1 和clu2 表示聚類之后不同的類別。通過觀察3 種污染物不同類別的擬合分布曲線可以得出:CO 的clu1,HC 的clu1,NO 的clu2這3條曲線具有共同的特點——均值最大,并且上限值最大,因此,對應(yīng)的類別被標(biāo)記為污染物的高排放類(即類別標(biāo)簽為高排放),其余類別被標(biāo)記為低排放類。結(jié)合聚類可視化圖可以看出,高排放類別樣本數(shù)占總樣本數(shù)的比例較低,表明在路行駛的高排放移動源數(shù)量較少。
圖3 不同污染物的聚類可視化及擬合分布曲線Fig.3 Clustering visualizations and fitting distribution curves of pollutants
獲得污染物的高排放類別標(biāo)簽后,進(jìn)行高排放移動源分類識別。經(jīng)統(tǒng)計,高排放類別污染物的樣本數(shù)量比例較低。統(tǒng)計結(jié)果如表5所示。
表5 各污染物高排放類別樣本的統(tǒng)計結(jié)果Table 5 Statistics of high emission samples of pollutants
若直接進(jìn)行高排放類別分類預(yù)測,極易造成模型過擬合。因此,在正式構(gòu)建分類模型之前,引入樣本平衡策略解決高排放標(biāo)簽數(shù)量稀少的問題。
在高排放移動源的自動識別中,本文構(gòu)建的分類模型是基于深度森林的深度集成學(xué)習(xí)算法。經(jīng)過實驗對比驗證,相較于傳統(tǒng)的分類方法,即隨機(jī)森林(Random Forest,RF)、支持向量機(jī)(Support Vector Machine,SVM)和k 近鄰算法(k-Nearest Neighbors,KNN),深度森林(gcForest,DF)具有更高的識別準(zhǔn)確率。
2.4.1 樣本不平衡處理
SMOTE(Synthetic Minority Oversampling Technique)算法可被用來解決高排放類別的樣本不平衡問題。SMOTE是一種基于隨機(jī)過程采樣算法的改進(jìn)方案,舍棄了直接復(fù)制少數(shù)類樣本以增加其數(shù)量的策略,從而使模型在一定程度上避免了過擬合問題。SMOTE算法的基本思想是對少數(shù)類樣本進(jìn)行分析并將隨機(jī)合成的新樣本擴(kuò)充到原始數(shù)據(jù)集中。新樣本點合成過程如圖4所示,圖中,d1、d2表示不同的空間維度,圓圈表示普通樣本,五角星表示合成新樣本的候選樣本。
圖4 樣本合成示意Fig.4 Process of synthesizing samples
采用SMOTE算法對高排放類別樣本進(jìn)行合成的主要流程為:
(1)對于高排放類中某一樣本xi,計算它到其他高排放樣本的歐式距離,得到n個最近鄰樣本。
(2)根據(jù)預(yù)先設(shè)定的采樣倍率,從高排放類樣本xi的n個近鄰中隨機(jī)選擇若干個樣本(可重復(fù))。
(3)若樣本x′i被選擇,則新合成的高排放類別樣本xnew計算方式為
2.4.2 分類模型構(gòu)建
對3 種污染物主要影響屬性數(shù)據(jù)集聚類得到高排放標(biāo)簽后,利用深度森林(gcForest,DF)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)和k 近鄰算法(KNN)實現(xiàn)排放源的分類,并對有效性進(jìn)行驗證和比較。
gcForest是一種基于決策樹的深度集成學(xué)習(xí)方法,主要由級聯(lián)森林和多粒度掃描兩部分組成。gcForest模型結(jié)構(gòu)如圖5所示,圖中,RF和CRF分別為“隨機(jī)森林”“完全隨機(jī)森林”。
圖5 gcForest結(jié)構(gòu)Fig.5 Structure of gcForest
因受到深度神經(jīng)網(wǎng)絡(luò)的啟發(fā),gcForest 引入了級聯(lián)森林結(jié)構(gòu),類似于層層連接傳播信息的多層節(jié)點網(wǎng)絡(luò)。級聯(lián)森林的每一級都是由完全隨機(jī)森林和隨機(jī)森林組成的,并且它們的基本組成單位都是決策樹。在構(gòu)造時,完全隨機(jī)森林與隨機(jī)森林的不同點在于,完全隨機(jī)森林的決策樹節(jié)點是在所有屬性中隨機(jī)選擇1個屬性進(jìn)行分裂的,而非在隨機(jī)采樣的屬性子集中選擇最佳屬性進(jìn)行分裂。森林的個數(shù)是個超參數(shù),可根據(jù)實際問題的規(guī)模進(jìn)行適當(dāng)?shù)卣{(diào)整。在高排放識別問題中,將每一級森林設(shè)定為2個完全隨機(jī)森林和2個隨機(jī)森林。
圖5中,級聯(lián)森林擁有多個層級,層級中的每個森林均產(chǎn)生1個類向量,代表該森林對輸入特征的類別預(yù)測概率,并且類向量的維度與預(yù)測的類別個數(shù)保持一致。本文每個森林會產(chǎn)生一個2 維的類向量,每層級聯(lián)森林輸出的結(jié)果和多粒度掃描的輸出特征經(jīng)拼接后共同構(gòu)成了下一層的輸入。在訓(xùn)練過程中,層級將會不斷增長,直到模型預(yù)測準(zhǔn)確度的提升幅度不足夠大或算法達(dá)到預(yù)設(shè)的最大層數(shù)。最終,對最后一層的類向量求得平均值,并選擇概率最大的類別輸出為gcForest 的預(yù)測結(jié)果。
為了增強(qiáng)級聯(lián)森林對樣本特征向量的學(xué)習(xí)效果,gcForest 設(shè)置了多粒度掃描結(jié)構(gòu)。該結(jié)構(gòu)具有數(shù)個多粒度滑動窗口,可以對輸入樣本的特征向量進(jìn)行擴(kuò)充。例如,在圖5中,首先輸入一個X維的污染物特征向量,經(jīng)長度為Wx維(x=1,2,3)的滑動窗口掃描,可得到(X-Wx+1)個W維的特征向量集合;然后,該集合經(jīng)隨機(jī)森林和完全隨機(jī)森林訓(xùn)練后產(chǎn)生2×(X-Wx+1)個l維的屬性向量;最后,拼接得到一個2l(X-Wx+1)維的多粒度掃描輸出向量,被用來參與級聯(lián)森林結(jié)構(gòu)的運行過程。其中,l為模型的分類數(shù),即特征向量不同類別標(biāo)簽的個數(shù)。本文排放源被劃分為高排放類和低排放類,因此,l=2。
Random Forest:隨機(jī)森林是一種基于統(tǒng)計學(xué)理論的集成分類器,通過bootstrap重抽樣方法構(gòu)建多棵決策樹,并采取投票的方式輸出最終的判定結(jié)果。本質(zhì)上,該算法是一個包含有限個樹形分類器的集合[12]。由于是一種集成學(xué)習(xí)模型,因此,對離群值并不十分敏感。同時,在高量級的數(shù)據(jù)集上具有較優(yōu)的運行效率。通常,對所有決策樹采用平均法計算隨機(jī)森林的輸出結(jié)果。平均法分為加權(quán)平均法和簡單平均法,加權(quán)平均法為
式中:wi為個體決策樹hi的權(quán)重,特殊地,當(dāng)wi=1/T時,式(9)為簡單平均法。
gcForest模型實現(xiàn)分類功能的偽代碼
Support Vector Machine:支持向量機(jī)將樣本實例映射為特征空間中的點,并尋找到一個超平面對不同類別的實例進(jìn)行最大程度地間隔和劃分。然后,將新的待預(yù)測實例映射到同一特征空間中,并根據(jù)它所處的被超平面劃分的區(qū)域來判斷其所屬類別。
例如,在二分類樣本空間中,用于劃分的超平面可以使用方程表示為
式中:w和b分別為超平面的法向量和截距。當(dāng)實例xi(i=1,2,…,n)處于超平面不同側(cè)時,分別表示其類別yi屬于正例或負(fù)例。
通常,遇到的問題多數(shù)是非線性問題。SVM利用核技巧(kernel trick)將線性支持向量機(jī)推廣到非線性支持向量機(jī)。核技巧主要分為兩個過程:(1)使用核函數(shù)將原始空間的樣本點映射到更高維的空間中;(2)在新的高維空間中使用線性方法進(jìn)行分類。
k-Nearest Neighbors:KNN 是一種原理簡單的算法。在分類過程中,它的思想是通過某種度量方式,尋找到距離待預(yù)測樣本點最接近的k個鄰近樣本點,并選擇這些臨近樣本點中出現(xiàn)次數(shù)最多的類別標(biāo)簽作為預(yù)測結(jié)果。因此,k是一個預(yù)設(shè)定的超參數(shù),并且盡可能取值為奇數(shù),從而避免不同類別標(biāo)簽出現(xiàn)相同次數(shù)的情況。度量距離的方式有很多種,例如,Minkowski距離是較為常用的一種,即
式中:樣本點i′=(xi1,xi2,…,xin) ;樣本點j′=(xj1,xj2,…,xjn)。p是一個參數(shù),當(dāng)p=1 時,式(11)為曼哈頓距離(Manhattan distance);當(dāng)p=2 時,式(11)為歐幾里得距離(Euclidean distance)。
2.4.3 評價指標(biāo)
分類模型的分類性能使用分類精度(Eaccuracy)、查準(zhǔn)率(Eprecision)、查全率(Erecall)和F1值進(jìn)行評價。其中,F(xiàn)1值為查準(zhǔn)率和查全率的均值。計算方式為
式中:ETP、ETN、EFP、EFN分別為真正例、真負(fù)例、假正例和假負(fù)例。
為了驗證所提方法的有效性和優(yōu)越性,設(shè)置多個對比實驗。所有實驗均基于Windows10-64bit operation system with an Intel Core I5-6300HQ 2.3 GHz CPU and 12 GB RAM。
本文基于合肥市機(jī)動車尾氣遙測數(shù)據(jù),經(jīng)過樣本平衡處理后,得到高排放樣本與低排放樣本數(shù)量比為1∶1的3種污染物(CO、HC和NO)數(shù)據(jù)集。按照7∶3的比例,隨機(jī)地分為訓(xùn)練集和測試集。樣本非平衡情形下,各分類模型對不同類別污染物的識別精度如表6所示。
表6 非平衡樣本上的模型分類精度Table 6 Accuracy of models on imbalance samples (%)
從表6中可以看出,在未引入高排放樣本平衡策略下,不同分類模型的識別精度不但十分高而且相近(在高排放標(biāo)簽數(shù)量占比中,HC 明顯高于CO和NO,因此,SVM在HC數(shù)據(jù)集上的預(yù)測準(zhǔn)確度最低),模型易過擬合。同時,由于高排放類別標(biāo)簽稀缺,且數(shù)據(jù)集劃分具有隨機(jī)性,因此,容易導(dǎo)致模型訓(xùn)練不充分,不能真正反映模型的識別能力。
基于以上原因,本文通過引入樣本平衡策略增加高排放標(biāo)簽的數(shù)量,驗證所提方法的有效性。經(jīng)SMOTE 算法處理后,污染物平衡樣本的數(shù)據(jù)統(tǒng)計結(jié)果如表7所示。
表7 污染物的平衡樣本統(tǒng)計Table 7 Balance sample statistics of pollutants
分類模型深度森林(DF)(本文)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)和k近鄰算法(KNN),在3種污染物(CO、HC和NO)測試集上的分類精度如表8所示。
表8 平衡樣本上的模型分類精度Table 8 Accuracy of models on balance samples (%)
從表8的統(tǒng)計結(jié)果可以看出,深度森林分類模型在3 種污染物測試集上表現(xiàn)都是最佳的。與之效果接近的是擁有類似組成結(jié)構(gòu)的隨機(jī)森林模型,在HC 測試集上,和深度森林模型輸出相同的預(yù)測結(jié)果,得到相同的識別準(zhǔn)確率。
各模型在平衡樣本與非平衡樣本上的分類精度如圖6所示。通過引入平衡策略、增加高排放標(biāo)簽的數(shù)量,深度森林模型在各污染物數(shù)據(jù)集上的預(yù)測效果幾乎達(dá)到最高。
圖6 平衡與非平衡樣本的分類精度比較Fig.6 Confusion matrix for CO
各分類模型在CO、HC、NO測試集上的混淆矩陣如圖7~圖9所示。圖中,H表示高排放樣本,L表示低排放樣本,色度條表示樣本數(shù)量(顏色越深,數(shù)量越多;顏色越淺,數(shù)量越少)。
圖7 CO測試集混淆矩陣Fig.7 Confusion matrix for CO
圖8 HC測試集混淆矩陣Fig.8 Confusion matrix for HC
圖9 NO測試集混淆矩陣Fig.9 Confusion matrix for NO
各種污染氣體的混淆矩陣的統(tǒng)計結(jié)果如表9~表11所示。包含:查準(zhǔn)率(P)、查全率(R)和F1值。
從表9~表11可以看出,深度森林(DF)模型在污染物CO、HC、NO 的測試集上基本都取得了最好的預(yù)測效果。因為深度森林具備傳統(tǒng)集成學(xué)習(xí)方法的優(yōu)勢,相較于SVM 和KNN 這類獨立的學(xué)習(xí)算法,能夠利用“團(tuán)隊”力量更好地處理高維特征數(shù)據(jù);同時,它的多層級聯(lián)結(jié)構(gòu)允許輸入特征被更大程度地計算和流動,比隨機(jī)森林具備更高的集成程度。
表9 CO測試集Table 9 Test_set of CO
表10 HC測試集Table 10 Test_set of HC
表11 NO測試集Table 11 Test_set of NO
本文提出了一種基于深度特征聚類的高排放移動源自動識別方法,綜合考慮到實際場景中外部因素對污染物排放產(chǎn)生的影響,避免傳統(tǒng)車輛檢驗中使用人為設(shè)定閾值方式的缺陷。
首先,利用隨機(jī)森林算法計算出車輛使用時間、基準(zhǔn)質(zhì)量、速度、加速度等11 種外部因素對移動源污染物(CO、HC、NO)排放濃度的影響占比,選擇比重大于平均水平的屬性作為各污染物排放的主要影響特征。然后,采用K-means算法對各污染物的主要影響特征數(shù)據(jù)集進(jìn)行深度聚類,通過分析不同簇別的污染物濃度分布曲線確定高排放目標(biāo)標(biāo)簽。經(jīng)統(tǒng)計,高排放簇別的樣本數(shù)量占總樣本數(shù)量的比重較低(3 種污染物的高排放樣本數(shù)量平均占比為14.322%),符合道路移動源排放分布的高度偏斜性。最后,構(gòu)建基于深度森林的高排放移動源自動識別模型。由于高排放標(biāo)簽稀缺,容易導(dǎo)致模型過擬合,因此,本文采用SMOTE 樣本平衡策略,增加高排放樣本數(shù)量,提高模型泛化能力。在合肥市機(jī)動車污染監(jiān)測數(shù)據(jù)集上對各方法進(jìn)行評估。相較于其他傳統(tǒng)分類算法,較為先進(jìn)的集成學(xué)習(xí)模型——深度森林,不但具有最高的分類精度,而且預(yù)測指標(biāo)查準(zhǔn)率、查全率和F1 值基本上都是最高的,驗證了本方法的有效性。